CN110942345B

CN110942345B - 种子用户的选取方法、装置、设备及存储介质

Info

Publication number: CN110942345B
Application number: CN201911168479.9A
Authority: CN
Inventors: 陈啟柱
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2022-02-15
Anticipated expiration: 2039-11-25
Also published as: WO2021103508A1; CN110942345A

Abstract

本申请公开了一种种子用户的选取方法、装置、设备及存储介质，属于互联网技术领域。所述方法包括：获取用户集合数据；根据用户集合数据创建m个用户组；对于m个用户组中的第i个用户组，获取第i个用户组的特征数据；根据第i个用户组的特征数据，确定第一用户相对于第二用户的影响力参数；构建影响力矩阵；根据影响力矩阵，从n个用户中选取至少一个种子用户；存储种子用户的用户信息。本申请实施例提供的技术方案，扩展了一种种子用户的选取方法，考虑了用户之间的关联关系，深度挖掘了社交网络关系，使得影响力参数的预测更为全面准确。

Description

种子用户的选取方法、装置、设备及存储介质

技术领域

本申请实施例涉及互联网技术领域，特别涉及一种种子用户的选取方法、装置、设备及存储介质。

背景技术

随着在线社交网络平台与日常生活的融合越来越紧密，在线社交网络平台的商业价值也被越来越多地挖掘与利用。

在相关技术中，在线社交网络平台的运营商通常会根据在其平台中注册的用户的行为，从其平台中注册的用户中选取出一些种子用户，通过给选取出的种子用户以一定的回馈，使得种子用户向其周围人群推广运营商的产品。

发明内容

本申请实施例提供了一种种子用户的选取方法、装置、设备及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种种子用户的选取方法，所述方法包括：

获取用户集合数据，所述用户集合数据包括n个用户，所述n为大于1的整数；

根据所述用户集合数据创建m个用户组，每个所述用户组包括具有关联关系的两个用户，所述m为正整数；

对于所述m个用户组中的第i个用户组，获取所述第i个用户组的特征数据，其中，所述第i个用户组包括具有关联关系的第一用户和第二用户；

根据所述第i个用户组的特征数据，确定所述第一用户相对于所述第二用户的影响力参数，所述影响力参数用于表征所述第一用户将产品成功推荐给所述第二用户的概率；

构建影响力矩阵，所述影响力矩阵为n行n列矩阵，其中，所述影响力矩阵中的第u行第v列的元素，表示用户u相对于用户v的影响力参数；

根据所述影响力矩阵，从所述n个用户中选取至少一个种子用户；

存储所述种子用户的用户信息。

另一方面，本申请实施例提供了一种种子用户的选取装置，所述装置包括：

集合数据获取模块，用于获取用户集合数据，所述用户集合数据包括n个用户，所述n为大于1的整数；

用户组创建模块，用于根据所述用户集合数据创建m个用户组，每个所述用户组包括具有关联关系的两个用户，所述m为正整数；

特征数据获取模块，用于对于所述m个用户组中的第i个用户组，获取所述第i个用户组的特征数据，其中，所述第i个用户组包括具有关联关系的第一用户和第二用户；

影响力参数确定模块，用于根据所述第i个用户组的特征数据，确定所述第一用户相对于所述第二用户的影响力参数，所述影响力参数用于表征所述第一用户将产品成功推荐给所述第二用户的概率；

矩阵构建模块，用于构建影响力矩阵，所述影响力矩阵为n行n列矩阵，其中，所述影响力矩阵中的第u行第v列的元素，表示用户u相对于用户v的影响力参数；

种子用户选取模块，用于根据所述影响力矩阵，从所述n个用户中选取至少一个种子用户；

信息存储模块，用于存储所述种子用户的用户信息。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述种子用户的选取方法。

又一方面，本申请实施例提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述种子用户的选取方法。

还一方面，提供了一种计算机程序产品，当所述计算机程序产品被处理器执行时，用于实现上述种子用户的选取方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过根据各个用户组的特征数据，确定用户之间的影响力参数，然后根据用户之间的影响力参数，构建影响力矩阵，并根据该影响力矩阵选取种子用户，扩展了一种种子用户的选取方法。并且，本申请实施例中，影响力参数是根据有关联关系的用户组的特征数据确定的，考虑了用户之间的关联关系，深度挖掘了社交网络关系，使得影响力参数的预测更为全面准确，解决了相关技术只考虑单个用户的特征数据，过于单一，无法准确确定种子用户的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的种子用户的选取方法的流程图；

图2是本申请一个实施例提供的社交网络的关系图；

图3是本申请一个实施例提供的根据影响力矩阵选取种子用户的流程图；

图4是本申请另一个实施例提供的根据影响力矩阵选取种子用户的流程图；

图5是本申请另一个实施例提供的种子用户的选取方法的流程图；

图6是本申请一个实施例提供的种子用户的选取装置的框图；

图7是本申请另一个实施例提供的种子用户的选取装置的框图；

图8是本申请一个实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的技术方案，各步骤的执行主体可以是计算机设备，如具有计算和存储能力的服务器，或者诸如手机、平板电脑、多媒体播放设备、可穿戴设备等终端，或者其他计算机设备。可选地，当计算机设备为服务器时，该计算机设备可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。为了便于说明，在下述方法实施例中，仅以各步骤由服务器来执行进行介绍说明，但对此不构成限定。

请参考图1，其示出了本申请一个实施例提供的种子用户的选取方法的流程图。该方法可以包括如下几个步骤(110～170)：

步骤110，获取用户集合数据，用户集合数据包括n个用户，所述n为大于1的整数。

服务器既可以从自身存储的数据中获取用户集合数据，也可以从其它具备存储功能的计算机设备中获取用户集合数据，如从其它服务器、终端等，本申请实施例对此不作限定。用户集合数据中包括n个用户，以及该n个用户分别对应的数据信息，如用户标识、关联关系等。

步骤120，根据用户集合数据创建m个用户组，每个用户组包括具有关联关系的两个用户，m为正整数。

关联关系是指具备信息收发能力的两个用户之间的关系，可选地，关联关系表现为社交关系，本申请实施例中，关联关系包括但不限于以下任意一种：好友关系、关注与被关注关系、拼单关系，等等。可选地，关联关系在不同的在线社交网络平台有不同的表现形式，例如，在即时通讯应用程序等在线社交网络平台中，关联关系表现为好友关系；在娱乐性质的在线社交网络平台中，关联关系表现为关注与被关注关系。可选地，在非在线社交网络平台中，可以根据用户信息构建用户之间的关联关系，其中，用户信息是指用户使用非在线社交网络平台时所生成的信息，例如，在购物性质等非在线社交网络平台中，可以根据各个的用户地址、购买记录、拼单数据、链接分享、网络互动和设备共享等用户信息，构建各个用户之间的关联关系。

可选地，为了清楚简便地表示用户组，用户组以数对的形式表示，例如，用户组可以表示为(第一用户，第二用户)。本申请实施例中，对于具有关联关系的两个用户，可以创建两个用户组，这两个用户组表示的关系特征不同，即在使用数对的形式表示用户组时，数对中的两个元素的位置不同，表示的关系特征也不同，例如，用户组(第一用户，第二用户)表示第一用户相对于第二用户的关系特征，而用户组(第二用户，第一用户)表示第二用户相对于第一用户的关系特征。

服务器确定包含n个用户的用户集合，以及各个用户之间的关联关系后，即可创建m个用户组，每个用户组包括具有关联关系的两个用户。本申请实施例中，m的数值由用户集合中各个用户之间的关联关系决定。

在一种可能的实施方式中，上述步骤120包括：构建用户集合数据对应的关系图，关系图包括n个节点，n个节点和n个用户一一对应，具有关联关系的两个用户对应的节点之间具有边；从关系图中，提取m个用户组。通过这种方式，可以便于服务器快速从用户集合中构建m个用户组。

关系图，又称为社交网络关系图，用于表征用户之间的关联关系。服务器在确定包含n个用户的用户集合后，即可根据该用户集合构建关系图，关系图包括的节点数量与用户数量相同，并且关系图的节点与用户之间一一对应。例如，如图2所示，其示出了一种社交网络的关系图，该社交网络中的用户数量为6，关系图的节点21的数量也为6，且关系图中的6个节点与6个用户之间一一对应，即节点21中的数字与用户标识一一对应，节点1表示用户1、节点2表示用户2、节点3表示用户3……可选地，用户标识即为用户在用户集合中的次序，本申请实施例中服务器在获取用户集合后可以随机对用户集合中的用户进行排序，以此得到各个用户的用户标识，服务器在获取用户集合后也可以根据一定的参数对用户集合中的用户进行排序，如用户名对应的笔画数量、首字母拼音顺序等，本申请实施例对此不作限定。如图2所示，具有关联关系的两个用户对应的节点之间具有边22，如节点1和节点2之间具有边22，即表示用户1与用户2之间存在关联关系。

服务器根据关系图，可以提取出m个用户组。如图2所示，关系图中共存在5条边22，由于本申请实施例中，具有关联关系的两个用户可以创建两个用户组，因此服务器从图2所示的关系图中可以提取出10个用户组，分别为(用户1，用户2)、(用户2，用户1)、(用户1，用户4)、(用户4，用户1)、(用户1，用户6)、(用户6、用户1)、(用户6，用户5)、(用户5，用户6)、(用户4，用户3)和(用户3，用户4)。

步骤130，对于m个用户组中的第i个用户组，获取第i个用户组的特征数据，其中，第i个用户组包括具有关联关系的第一用户和第二用户。

特征数据表示用户组中的用户特征以及用户之间关系特征的数据，第i个用户组的特征数据包括第一用户的特征数据、第二用户的特征数据以及第一用户和第二用户的关系特征数据。可选地，为了深度挖掘关联关系，准确表示各个用户和用户组的特征数据，两个具有关联关系的用户组成的不同用户组的特征数据是不相同的，例如，用户1与用户2之间存在关联关系，(用户1，用户2)的特征数据包括用户1的特征数据、用户2的特征数据以及用户1相对于用户2的关系特征数据，而(用户2，用户1)的特征数据包括用户1的特征数据、用户2的特征数据以及用户2相对于用户1的关系特征数据。其中，用户1相对于用户2的关系特征数据，与用户2相对于用户1的关系特征数据是不同的，例如，若用户1关注了用户2，但是用户2未关注用户1，则用户1相对于用户2的关系特征数据，与用户2相对于1的关系特征数据是不同的。

关系特征数据是指用户之间相对关系的特征数据，可选地，关系特征数据可以包括推荐情况、关注情况和消息情况等，本申请实施例对此不作限定，例如，如表一所示，其示出了根据图2关系图所构建的10个用户组的特征数据中的关系特征数据。

表一

用户组	推荐情况	关注情况	消息情况
				(用户1，用户2)	1	1	10
(用户2，用户1)	0	1	20
				(用户1，用户4)	0	0	15
(用户4，用户1)	1	1	30
				(用户1，用户6)	1	0	28
(用户6、用户1)	1	0	12
				(用户6，用户5)	0	1	45
(用户5，用户6)	1	1	26
				(用户4，用户3)	0	1	5
(用户3，用户4)	0	0	40

其中，推荐情况表示历史是否成功推荐过产品，如表一所示，(用户1，用户2)的推荐情况为1，则表示用户1历史成功推荐过产品给用户2，(用户2，用户1)推荐情况为0，则表示用户2历史未成功推荐过产品给用户1；关注情况表示是否关注，如表一所示，(用户1，用户4)的关注情况为0，则表示用户1未关注用户4，(用户4，用户1)的关注情况为1，则表示用户4关注用户1；消息情况表示历史发送的消息数量，如表一所示，(用户1，用户2)的消息情况为10，则表示用户1历史发送给用户2的消息数量为10，(用户2，用户1)的消息情况为20，则表示用户2历史发送给用户1的消息数量为20。其他用户组的关系特征数据参照上述解释，此处不再赘述。

用户各自的特征数据是指用户在使用应用程序时所生成的数据，可选地，用户各自的特征数据可以包括用户标识、用户年龄、用户性别、消费水平和活动记录等，本申请实施例对此不作限定，例如，如表二所示，其示出了根据图2关系图所构建的10个用户组所包含的用户各自的特征数据。

表二

用户标识	用户年龄	用户性别	消费水平	活动记录
					1	24	男	600	1
2	17	女	120	0
					3	35	女	480	1
4	20	男	240	0
					5	48	女	500	0
6	23	男	100	1

其中，消费水平用于表示用户消费能力状况，可选地，消费水平可以采用用户的平均消费金额来表示，该平均消费金额既可以是日平均消费金额，也可以是月平均消费金额，还可以是参加活动期间的日平均消费金额等，本申请实施例对此不作限定；活动记录是指用户是否参与过产品推荐活动，如表二所示，用户1的活动记录为1，则表示用户1参与过产品推荐活动，用户2的活动记录为0，则表示用户2未参与过产品推荐活动。其他用户的特征数据参照上述解释，此处不再赘述。

需要说明的一点是，本申请实施例仅以关系特征数据包括推荐情况、关注情况和消息情况，以及用户各自的特征数据包括用户标识、用户年龄、用户性别、消费水平和活动记录为例进行举例说明，本领域技术人员在了解了本申请实施例的技术方案后，将很容易想到关系特征数据和用户各自的特征数据包括其他方面的内容，但均应属于本申请的保护范围之内。

步骤140，根据第i个用户组的特征数据，确定第一用户相对于第二用户的影响力参数，影响力参数用于表征第一用户将产品成功推荐给第二用户的概率。

影响力参数用于表示成功推荐产品的概率，例如，当第一用户相对于第二用户的影响力参数为0.8时，表示第一用户将产品成功推荐给第二用户的概率为0.8。影响力参数既可以采用数值的形式表示，也可以采用百分比的形式表示，本申请实施例对此不作限定。可选地，当影响力参数采用数值的形式表示时，影响力参数的取值范围为[0，1]，通过这种设计，可以便于服务器对影响力参数的计算，提高服务器的处理速度，降低服务器的处理开销。

在一种可能的实施方式中，上述步骤140包括：调用影响力计算模型，根据第i个用户组的特征数据计算第一用户相对于第二用户的影响力参数；其中，第i个用户组的特征数据包括：第一用户的特征数据、第二用户的特征数据以及第一用户和第二用户的关系特征数据。通过这种设计，可以在方便服务器计算影响力参数的同时，得到更加真实准确的影响力参数预测结果。

影响力计算模型是基于历史数据训练得到的模型，可选地，影响力计算模型可以是二分类模型，如LR(Logistic Regression，逻辑回归)模型、神经网络模型、GBDT(Gradient Boosting Decision Tree，梯度下降树)模型等；影响力计算模型也可以是回归模型，本申请实施例对此不作限定。

示例性地，影响力计算模型的训练过程如下：构建至少一个训练样本，每个训练样本包括一个样本用户组；获取训练样本的特征数据和标签，标签用于表征训练样本中的第一样本用户是否向第二样本用户成功推荐过产品；采用训练样本对影响力计算模型进行训练，得到完成训练的影响力计算模型。

训练样本是指训练影响力计算模型所使用的样本，每个训练样本包括一个样本用户组，本申请实施例对训练样本的具体数量不作限定，实际应用中可以结合服务器处理开销与影响力计算模型的准确性这两方面的因素，来综合确定训练样本的具体数量。可选地，服务器获取历史数据后，可以根据该历史数据确定样本用户集合，接着根据该样本用户集合构建出样本关系树，然后从样本关系树中提取出训练样本。

标签是指训练样本对应的样本用户组中第一样本用户对第二样本用户的推荐情况，可选地，该标签的取值为0或1，取值为1表示成功推荐过产品，取值为0表示未成功推荐过产品，例如，若样本用户组(第一样本用户，第二样本用户)对应的标签为1，则表示第一样本用户向第二样本用户成功推荐过产品；若样本用户组(第一样本用户，第二样本用户)对应的标签为0，则表示第一样本用户向第二样本用户未成功推荐过产品。

本申请实施例中，训练样本的特征数据包括各个样本用户的特征数据，以及样本用户之间的关系特征数据。基于上述步骤130中用户各自的特征数据以及用户之间的关系特征数据的解释说明，得到此处步骤140中各个样本用户的特征数据，以及样本用户之间的关系特征数据的解释说明，详细介绍请参照上文，此处不再赘述。

需要说明的一点是，为了使得训练出的影响力计算模型可以用于预测影响力参数，本申请实施例中，样本用户之间的关系特征数据还包括历史影响力参数，该历史影响力参数用户表示样本用户组中样本用户之间的影响力情况，例如，若样本用户组(第一样本用户，第二样本用户)对应的历史影响力参数为0.2，则表示第一样本用户对第二样本用户的影响力参数为0.2。

服务器获取训练样本及其对应的特征数据和标签后，即选取一个合适的模型作为影响力计算模型，如二分类模型或回归模型，然后采用训练样本对该影响力计算模型进行训练，从而得到完成训练之后的影响力计算模型。

步骤150，构建影响力矩阵，影响力矩阵为n行n列矩阵，其中，影响力矩阵中的第u行第v列的元素，表示用户u相对于用户v的影响力参数。

本申请实施例中，若用户u与用户v之间存在关联关系，则用户u相对于用户v的影响力参数，与用户v相对于用户u的影响力参数，可以通过影响力计算模型计算得到；若用户u与用户v之间不存在关联关系，则用户u相对于用户v的影响力参数，与用户v相对于用户u的影响力参数，不需要通过计算，直接记为0即可。每个用户相对于自身的影响力参数也记为0。

步骤160，根据影响力矩阵，从n个用户中选取至少一个种子用户。

从影响力矩阵中，可以得到n个用户中每个用户相对于各个其它用户的影响力参数。n个用户中每个用户相对于各个其它用户的影响力参数，既可以指每个用户相对于与该用户有关联关系的其它用户的影响力参数，也可以指每个用户相对于n个用户中各个用户的影响力参数，本申请实施例对此不作限定。可选地，当n个用户中每个用户相对于各个其它用户的影响力参数指的是每个用户相对于n个用户中各个用户的影响力参数时，该用户相对于与该用户有关联关系的其它用户的影响力参数通过影响力计算模型得到，该用户相对于与该用户没有关联关系的其它用户的影响力参数为0，该用户相对于该用户本身的影响力参数也为0。服务器确定影响力矩阵后，即可根据一定的选取方式从这n个用户中选取出至少一个种子用户。

步骤170，存储种子用户的用户信息。

服务器确定种子用户后，既可以将该种子用户的用户信息存储于自身的存储器中，也可以将该种子用户的用户信息存储于其它计算机设备的存储器中，如其它服务器、终端等，本申请实施例对此不作限定。

综上所述，本申请实施例提供的技术方案，通过根据各个用户组的特征数据，确定用户之间的影响力参数，然后根据用户之间的影响力参数，构建影响力矩阵，并根据该影响力矩阵选取种子用户，扩展了一种种子用户的选取方法。并且，本申请实施例中，影响力参数是根据有关联关系的用户组的特征数据确定的，考虑了用户之间的关联关系，深度挖掘了社交网络关系，使得影响力参数的预测更为全面准确，解决了相关技术只考虑单个用户的特征数据，过于单一，无法准确确定种子用户的技术问题。

另外，本申请实施例提供的技术方案，通过完成训练的影响力计算模型，根据特征数据确定用户之间的影响力参数，使得服务器能够更加简便地计算影响力参数。并且，本申请实施例中，影响力计算模型是基于历史特征数据训练得到的，从而通过该影响力计算模型，服务器可以更加真实准确地预测影响力参数，提升了种子用户的精确性。

在一个示例中，如图3所示，上述根据影响力矩阵，从n个用户中选取至少一个种子用户，包括如下几个子步骤(步骤1041～1046)：

步骤1041，根据影响力矩阵计算n个用户中每个用户的综合影响力参数，其中，用户u的综合影响力参数用于表征用户u将产品成功推荐给各个其它用户的综合概率。

综合影响力参数是指用户将产品成功推荐给各个用户的综合概率，可选地，综合影响力参数通过用户相对于其它各个用户的影响力参数累加得到，例如，综合影响力参数的计算公式如下所示：

其中，W_u表示用户u的综合影响力参数，W_uj表示用户u相对于用户j的影响力参数，u为小于或等于n的正整数，j为小于或等于n正整数。

步骤1042，构建种子用户集合。

本申请实施例中，种子用户集合初始为空。

步骤1043，从非种子用户中，选取综合影响力参数符合条件的用户s加入种子用户集合中，其中，非种子用户是指n个用户中未被加入至种子用户集合中的用户。

综合影响力参数符合条件可以是指综合影响力参数最大，也可以是指综合影响力参数达到预设阈值，本申请实施例对此不作限定。需要说明的一点是，以下实施例的介绍说明，仅以综合影响力参数最大作为综合影响力参数符合条件来介绍说明，本领域技术人员在了解了本申请的技术方案后，将很容易想到其它的技术方案，如综合影响力参数达到预设阈值作为综合影响力参数符合条件的实施例，但均应属于本申请的保护范围内。

在未选出任何种子用户的情况下，非种子用户的数量即为用户集合中的用户数量，即非种子用户的数量为n。服务器确定非种子用户及其对应的综合影响力参数后，即从非种子用户中选取出综合影响力参数最大的用户加入种子用户集合。可选地，从非种子用户中选出综合影响力参数最大的用户的公式如下：

其中，集合U表示用户集合，集合S表示种子用户集合，用户s表示从非种子用户中选取出的综合影响力参数最大的用户，s为小于或等于n的正整数。

步骤1044，将影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的影响力矩阵，其中，第s行元素包括用户s相对于各个其它用户的影响力参数。

根据步骤1043选取出的用户s相对于各个用户的影响力参数，对应于影响力矩阵中中第s行元素的值。将影响力矩阵中各行元素的值减去第s行元素后，即可得到更新后的影响力矩阵，例如，影响力矩阵的更新公式如下所示：

W_nj←W_nj-W_sj；

其中，W_nj表示影响力矩阵中第n行第j列的元素，W_sj表示影响力矩阵中第s行第j列的元素。本申请实施例中，服务器将W_nj与W_sj的差值确定为更新后的W_nj。

示例性地，为了便于服务器的计算，降低服务器的处理开销，上述影响力参数的取值范围为[0，1]；上述将影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的影响力矩阵，包括：将影响力矩阵中的n行元素的值，分别减去第s行元素的值，得到计算后的n行元素的值；对于计算后的n行元素中值小于零的目标元素，将目标元素的值修改为0，得到更新后的影响力矩阵。

服务器将影响力矩阵中的n行元素的值减去第s行元素的值之后，可以将计算后的n行元素的值与0进行比较，如果有值小于0，则将该值修改为0，以确保更新后的影响力矩阵中的n行元素的值均大于0。例如，影响力矩阵的更新公式如下所示：

W_nj←max(W_nj-W_sj，0)。

步骤1045，判断是否满足种子用户选取的停止条件；

步骤1046，若未满足种子用户选取的停止条件，则基于更新后的影响力矩阵，再次从根据影响力矩阵计算n个用户中每个用户的综合影响力参数的步骤开始执行。

若未满足种子用户选取的停止条件，服务器则不断基于更新后的影响力矩阵再次步骤1042至步骤1044，本申请实施例中，停止条件可以是服务器预先设置的条件，可选地，该停止条件可以种子用户集合中的元素数量达到预设阈值，如10，也可以是循环执行的次数达到预设次数，如5次，本申请实施例对此不作限定。

步骤1047，若满足种子用户选取的停止条件，则将种子用户集合中的用户确定为种子用户。

综上所述，本申请实施例提供的技术方案，通过构建影响力矩阵和种子用户集合，并设定种子用户选取的停止条件，在没有满足种子用户选取的停止条件时，不断基于更新后的影响力矩阵，从用户集合中选取综合影响力参数最大的用户加入至种子用户集合中，从而避免了可能出现的对单个用户过度推荐、浪费种子用户资源的情况，以实现合理选取种子用户的目的。

在另一个示例中，如图4所示，上述根据影响力矩阵，从n个用户中选取至少一个种子用户，包括如下几个子步骤(步骤104A～104B)：

步骤104A，根据影响力矩阵，计算n个用户中每个用户的综合影响力参数和综合被影响力参数，其中，用户u的综合影响力参数用于表征用户u将产品成功推荐给各个其它用户的综合概率，用户u的综合被影响力参数用于表征各个其它用户将产品成功推荐给用户u的综合概率。

示例性地，上述步骤104A包括：对于n个用户中的用户u，获取用户u相对于各个其它用户的影响力参数；将用户u相对于各个其它用户的影响力参数进行求和，得到用户u的综合影响力参数。例如，综合影响力参数的计算公式如下所示：

其中，W_un表示用户u的综合影响力参数，W_uj表示用户u相对于用户j的影响力参数，u为小于或等于n的正整数，j为小于或等于n正整数。

示例性地，上述步骤104A包括：对于n个用户中的用户u，获取各个其它用户相对于用户u的影响力参数；将各个其它用户相对于用户u的影响力参数的最大值或平均值，确定为用户u的综合被影响力参数。例如，综合被影响力参数的计算公式如下所示：

或

其中，W_nu表示用户u的综合被影响力参数，W_iu表示用户i相对于用户u的影响力参数，u为小于或等于n的正整数，i为小于或等于n正整数。

步骤104B，根据n个用户中每个用户的综合影响力参数和综合被影响力参数，从n个用户中选取至少一个种子用户。

示例性地，上述影响力矩阵W如下：

其中，W_pq为影响力矩阵W中的第p行第q列的元素，且W_pq表示用户p相对于用户q的影响力参数，p为小于或等于n的正整数，q为小于或等于n的正整数。

步骤104B包括如下几个子步骤：

(1)定义一个元素取值为0或1且所有元素之和为K的列向量x：

其中，如果x_R取值为1，表示用户R被选取为种子用户，N为小于或等于n的正整数。

(3)定义列向量e：

(4)定义列向量r：

或

本申请实施例中，确定列向量r中元素表示用户的合理被影响力参数。

(5)基于下述公式计算所述列向量x：

其中，

表示待求解的变量为x，且x的取值使得

后面的表达式取到最大值，λ为大于或等于0的实数，||W′x-r||表示欧几里得范数，W′x-r表示用户实际受到的被影响力参数与合理被影响力参数的差值所组成的集合，||W′x-r||²表示集合中各项元素的平方和。

综上所述，本申请实施例提供的技术方案，通过构建影响力矩阵，并根据该影响力矩阵，计算每个用户的综合影响力参数和综合被影响力参数，然后根据该综合影响力参数和综合被影响力参数，从用户集合中选取种子用户，从而实现了综合考虑种子用户的影响力情况，合理选取种子用户，避免选取出的种子用户对单个用户过度营销，或营销不足。

请参考图5，其示出了本申请另一个实施例提供的种子用户的选取方法的流程图。该方法可以包括如下几个步骤(501～509)：

步骤501，构建训练样本；

步骤502，获取训练样本及其对应的特征数据和标签；

步骤503，采取合适的模型训练得到影响力计算模型；

步骤504，构建用户组；

步骤505，获取用户组对应的特征数据；

步骤506，将特征数据输入影响力计算模型；

步骤507，计算得到各个用户的影响力参数；

步骤508，根据贪心算法选取种子用户，该贪心算法即为上述步骤1041至步骤1046所述的选取方式；

步骤509，根据最优化算法选取种子用户，该最优化算法即为上述步骤104A至步骤104B所述的选取方式。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图6，其示出了本申请一个实施例提供的种子用户的选取装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备，也可以设置在该计算机设备中。该装置700可以包括：集合数据获取模块710、用户组创建模块720、特征数据获取模块730、影响力参数确定模块740、矩阵构建模块750、种子用户选取模块760和信息存储模块770。

集合数据获取模块710，用于获取用户集合数据，所述用户集合数据包括n个用户，所述n为大于1的整数；

用户组创建模块720，用于根据所述用户集合数据创建m个用户组，每个所述用户组包括具有关联关系的两个用户，所述m为正整数；

特征数据获取模块730，用于对于所述m个用户组中的第i个用户组，获取所述第i个用户组的特征数据，其中，所述第i个用户组包括具有关联关系的第一用户和第二用户；

影响力参数确定模块740，用于根据所述第i个用户组的特征数据，确定所述第一用户相对于所述第二用户的影响力参数，所述影响力参数用于表征所述第一用户将产品成功推荐给所述第二用户的概率；

矩阵构建模块750，用于构建影响力矩阵，所述影响力矩阵为n行n列矩阵，其中，所述影响力矩阵中的第u行第v列的元素，表示用户u相对于用户v的影响力参数；

种子用户选取模块760，用于根据所述影响力矩阵，从所述n个用户中选取至少一个种子用户；

信息存储模块770，用于存储所述种子用户的用户信息。

可选地，如图7所示，所述种子用户选取模块760包括：综合影响力参数计算子模块761，用于根据所述影响力矩阵，计算所述n个用户中每个用户的综合影响力参数，其中，所述用户u的综合影响力参数用于表征所述用户u将产品成功推荐给各个其它用户的综合概率；种子用户集合构建子模块762，用于构建种子用户集合，所述种子用户集合初始为空；用户选取子模块763，用于从非种子用户中，选取所述综合影响力参数符合条件的用户s加入所述种子用户集合中，其中，所述非种子用户是指所述n个用户中未被加入至所述种子用户集合中的用户；矩阵更新子模块764，用于将所述影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的所述影响力矩阵，其中，所述第s行元素包括所述用户s相对于各个其它用户的影响力参数；循环子模块765，若未满足所述种子用户选取的停止条件，则还用于基于更新后的所述影响力矩阵，再次从所述根据所述影响力矩阵计算所述n个用户中每个用户的综合影响力参数的步骤开始执行；种子用户确定子模块766，若满足所述种子用户选取的停止条件，则用于将所述种子用户集合中的用户确定为所述种子用户。

可选地，如图7所示，所述影响力参数的取值范围为[0，1]；所述矩阵更新子模块764，用于：将所述影响力矩阵中的n行元素的值，分别减去所述第s行元素的值，得到计算后的n行元素的值；对于所述计算后的n行元素中值小于零的目标元素，将所述目标元素的值修改为0，得到更新后的所述影响力矩阵。

可选地，如图7所示，所述种子用户选取模块760包括：综合参数计算子模块767，用于根据所述影响力矩阵，计算所述n个用户中每个用户的综合影响力参数和综合被影响力参数，其中，用户u的综合影响力参数用于表征所述用户u将产品成功推荐给各个其它用户的综合概率，所述用户u的综合被影响力参数用于表征各个其它用户将产品成功推荐给所述用户u的综合概率；种子用户选取子模块768，用于根据所述n个用户中每个用户的综合影响力参数和综合被影响力参数，从所述n个用户中选取至少一个所述种子用户。

可选地，如图7所示，所述综合参数计算子模块767，用于：对于所述n个用户中的所述用户u，获取所述用户u相对于各个其它用户的影响力参数；将所述用户u相对于各个其它用户的影响力参数进行求和，得到所述用户u的综合影响力参数。

可选地，如图7所示，所述综合参数计算子模块767，用于：对于所述n个用户中的所述用户u，获取各个其它用户相对于所述用户u的影响力参数；将各个其它用户相对于所述用户u的影响力参数的最大值或平均值，确定为所述用户u的综合被影响力参数。

可选地，所述影响力矩阵W如下：

其中，W_pq为所述影响力矩阵W中的第p行第q列的元素，且所述W_pq表示用户p相对于用户q的影响力参数，所述p为小于或等于所述n的正整数，所述q为小于或等于所述n的正整数；

如图7所示，所述种子用户选取子模块768，用于：

定义一个元素取值为0或1且所有元素之和为K的列向量x：

其中，如果x_R取值为1，表示用户R被选取为所述种子用户，所述R为小于或等于所述n的正整数；

定义列向量e：

定义列向量r：

或

基于下述公式计算所述列向量x：

其中，

表示待求解的变量为x，且所述x的取值使得所述

后面的表达式取到最大值，λ为大于或等于0的实数。

可选地，所述影响力参数确定模块740，用于：调用影响力计算模型，根据所述第i个用户组的特征数据计算所述第一用户相对于所述第二用户的影响力参数；其中，所述第i个用户组的特征数据包括：所述第一用户的特征数据、所述第二用户的特征数据以及所述第一用户和所述第二用户的关系特征数据。

可选地，所述影响力计算模型的训练过程如下构建至少一个训练样本，每个所述训练样本包括一个样本用户组；获取所述训练样本的特征数据和标签，所述标签用于表征所述训练样本中的第一样本用户是否向第二样本用户成功推荐过产品；采用所述训练样本对所述影响力计算模型进行训练，得到完成训练的所述影响力计算模型。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的种子用户的选取方法。例如，该计算机设备可以上文所述的服务器。具体来讲：

该计算机设备800包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)801、包括RAM(Random-Access Memory，随机存储器)802和ROM(Read-Only Memory，只读存储器)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。该计算机设备800还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

该基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中，该显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。该基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。该大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，该大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请实施例，该计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在该系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述种子用户的选取方法。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时以实现上述种子用户的选取方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品被处理器执行时，用于实现上述种子用户的选取方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种种子用户的选取方法，其特征在于，所述方法包括：

根据所述影响力矩阵，计算所述n个用户中每个用户的综合影响力参数，其中，所述用户u的综合影响力参数用于表征所述用户u将产品成功推荐给各个其它用户的综合概率；

构建种子用户集合，所述种子用户集合初始为空；

从非种子用户中，选取所述综合影响力参数符合条件的用户s加入所述种子用户集合中，其中，所述非种子用户是指所述n个用户中未被加入至所述种子用户集合中的用户；

将所述影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的所述影响力矩阵，其中，所述第s行元素包括所述用户s相对于各个其它用户的影响力参数；

若未满足所述种子用户选取的停止条件，则基于更新后的所述影响力矩阵，再次从所述根据所述影响力矩阵计算所述n个用户中每个用户的综合影响力参数的步骤开始执行；

若满足所述种子用户选取的停止条件，则将所述种子用户集合中的用户确定为种子用户；

存储所述种子用户的用户信息。

2.根据权利要求1所述的方法，其特征在于，所述影响力参数的取值范围为[0，1]；

所述将所述影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的所述影响力矩阵，包括：

将所述影响力矩阵中的n行元素的值，分别减去所述第s行元素的值，得到计算后的n行元素的值；

对于所述计算后的n行元素中值小于零的目标元素，将所述目标元素的值修改为0，得到更新后的所述影响力矩阵。

3.根据权利要求1所述的方法，其特征在于，所述构建影响力矩阵之后，还包括：

根据所述影响力矩阵，计算所述n个用户中每个用户的综合影响力参数和综合被影响力参数，其中，用户u的综合影响力参数用于表征所述用户u将产品成功推荐给各个其它用户的综合概率，所述用户u的综合被影响力参数用于表征各个其它用户将产品成功推荐给所述用户u的综合概率；

根据所述n个用户中每个用户的综合影响力参数和综合被影响力参数，从所述n个用户中选取至少一个所述种子用户；

其中，所述影响力矩阵W如下：

W_pq∈[0,1]；

所述根据所述n个用户中每个用户的综合影响力参数和综合被影响力参数，从所述n个用户中选取至少一个所述种子用户，包括：

定义一个元素取值为0或1且所有元素之和为K的列向量x：

x_R∈{0，1}；所述R为小于或等于所述n的正整数；

其中，如果x_R取值为1，表示用户R被选取为所述种子用户；

定义列向量e：

定义列向量r：

或

基于下述公式计算所述列向量x：

其中，

表示待求解的变量为x，且所述x的取值使得所述

后面的表达式取到最大值，λ为大于或等于0的实数。

4.根据权利要求3所述的方法，其特征在于，所述计算所述n个用户中每个用户的综合影响力参数，包括：

对于所述n个用户中的所述用户u，获取所述用户u相对于各个其它用户的影响力参数；

将所述用户u相对于各个其它用户的影响力参数进行求和，得到所述用户u的综合影响力参数。

5.根据权利要求3所述的方法，其特征在于，所述计算所述n个用户中每个用户的综合被影响力参数，包括：

对于所述n个用户中的所述用户u，获取各个其它用户相对于所述用户u的影响力参数；

将各个其它用户相对于所述用户u的影响力参数的最大值或平均值，确定为所述用户u的综合被影响力参数。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述第i个用户组的特征数据，确定所述第一用户相对于所述第二用户的影响力参数，包括：

调用影响力计算模型，根据所述第i个用户组的特征数据计算所述第一用户相对于所述第二用户的影响力参数；

其中，所述第i个用户组的特征数据包括：所述第一用户的特征数据、所述第二用户的特征数据以及所述第一用户和所述第二用户的关系特征数据。

7.根据权利要求6所述的方法，其特征在于，所述影响力计算模型的训练过程如下：

构建至少一个训练样本，每个所述训练样本包括一个样本用户组；

获取所述训练样本的特征数据和标签，所述标签用于表征所述训练样本中的第一样本用户是否向第二样本用户成功推荐过产品；

采用所述训练样本对所述影响力计算模型进行训练，得到完成训练的所述影响力计算模型。

8.一种种子用户的选取装置，其特征在于，所述装置包括：

种子用户选取模块，用于根据所述影响力矩阵，计算所述n个用户中每个用户的综合影响力参数，其中，所述用户u的综合影响力参数用于表征所述用户u将产品成功推荐给各个其它用户的综合概率；构建种子用户集合，所述种子用户集合初始为空；从非种子用户中，选取所述综合影响力参数符合条件的用户s加入所述种子用户集合中，其中，所述非种子用户是指所述n个用户中未被加入至所述种子用户集合中的用户；将所述影响力矩阵中的各行元素的值减去第s行元素的值，得到更新后的所述影响力矩阵，其中，所述第s行元素包括所述用户s相对于各个其它用户的影响力参数；若未满足所述种子用户选取的停止条件，则基于更新后的所述影响力矩阵，再次从所述根据所述影响力矩阵计算所述n个用户中每个用户的综合影响力参数的步骤开始执行；若满足所述种子用户选取的停止条件，则将所述种子用户集合中的用户确定为种子用户；

信息存储模块，用于存储所述种子用户的用户信息。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的种子用户的选取方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的种子用户的选取方法。