CN108334887A

CN108334887A - 一种用户选取方法和装置

Info

Publication number: CN108334887A
Application number: CN201710043133.0A
Authority: CN
Inventors: 章志青; 吴佳明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2018-07-27
Anticipated expiration: 2037-01-19
Also published as: CN108334887B

Abstract

本发明实施例公开了一种用户选取方法和装置，用户选取方法包括：将每类种子用户群划分为训练集和测试集；对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型；基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果；根据所述测试集中每个种子用户的预测结果及预设阈值绘制ROC曲线；通过所述ROC曲线获取最佳阈值；利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果；从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，本发明实施例能够提高目标用户选取的精准度。

Description

一种用户选取方法和装置

技术领域

本发明实施例涉及信息处理技术领域，特别是涉及一种用户选取方法和装置。

背景技术

现有技术中，当需要进行信息投放(例如产品广告投放)时，会先确定种子用户群，所谓种子用户群可以指对产品、服务具有相同需求和兴趣的用户群，然后对种子用户群进行扩散，比如从海量用户中筛选出与种子用户群具有相同或相似的特征信息(例如用户的喜好、年龄、职业、需求等)的用户群作为扩散用户群，将这些扩散用户群作为信息投放的目标用户。

然而，这种没有标准的扩散，仅通过简单的筛选所确定的用于投放信息的目标用户并不够精准，如果目标用户的选取范围过大，那就意味着很多被扩散到的用户购买该产品的概率很低，这样会造成营销成本的浪费，甚至会导致那些用户逐渐对该产品产生反感情绪；而反之，如果目标用户的选取范围过小，那就意味着，很多原本应该被扩散到的用户不能收到该营销信息，这样会损失大量的潜在用户，白白浪费商机。因此，如何精准地选取目标用户成了一个急需解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种用户选取方法和装置，能够提高目标用户选取的精准度。

本发明实施例提供的用户选取方法，包括：

将每类种子用户群划分为训练集和测试集；

对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型；

基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果；

根据所述测试集中每个种子用户的预测结果及预设阈值绘制受试者工作特征曲线ROC曲线；

通过所述ROC曲线获取最佳阈值；

利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果；

从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户。

本发明实施例提供的用户选取装置，包括：

划分单元，用于将每类种子用户群划分为训练集和测试集；

训练单元，用于对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型；

第一预测单元，用于基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果；

绘制单元，用于根据所述测试集中每个种子用户的预测结果及预设阈值绘制受试者工作特征曲线ROC曲线；

阈值获取单元，用于通过所述ROC曲线获取最佳阈值；

第二预测单元，用于利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果；

目标选取单元，用于从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户。

本发明实施例中，会将种子用户群划分为训练集和测试集，基于训练集进行训练生成逻辑回归分类模型，基于生成的逻辑回归分类模型对测试集进行测试，根据测试结果及预设阈值生成ROC曲线，利用ROC曲线获取最佳阈值，在利用生成的逻辑回归分类模型对每个潜在用户进行预测之后，选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，即本发明实施例的方法，以最佳阈值作为标准，选取预测结果大于所述最佳阈值的潜在用户作为目标用户，精准地确定了扩散范围，从而使得所选取出的目标用户更加精准。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例所提供的用户选取方法的一个场景示意图；

图2是本发明实施例所提供的用户选取方法的一个流程示意图；

图3是本发明实施例所提供的模型训练的一个流程示意图；

图4是本发明实施例所提供的用户选取装置的一个结构示意图；

图5是本发明实施例所提供的用户选取装置的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的对种子用户群进行扩散，从而选取目标用户的方法，缺乏扩散的标准，导致目标用户的选取不够精准，因而，本发明实施例提供了一种用户选取方法和装置，能够提高目标用户选取的精准度。本发明实施例提供的用户选取方法可实现于用户选取装置中，用户选取装置可以为服务器，具体可以为存储有大量的用户信息的社交、即时通信或购物等平台的服务器，该大量的用户即构成一个潜在用户群，本发明实施例提供的方法即要从该潜在用户群中选取信息推送的目标用户。

本发明实施例用户选取方法一个具体实施场景可如图1所示，包括服务器和终端，服务器即为上述服务器，终端可以为目标用户的终端，终端包括但不限于具有通信功能的智能手机、平板电脑、掌上电脑等设备。服务器可通过预先设置的网络与终端进行交互。服务器可以将每类种子用户群划分为训练集和测试集；对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型；基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果；根据所述测试集中每个种子用户的预测结果及预设阈值绘制受试者工作特征曲线(receiver operating characteristic curve，ROC曲线)；通过所述ROC曲线获取最佳阈值；利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果；从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，从而实现了目标用户的选取。选取目标用户之后，服务器可以向目标用户的终端发送与对应类别相匹配的推送信息，该推送消息例如广告等。本发明实施例的方法，以最佳阈值作为标准，选取预测结果大于所述最佳阈值的潜在用户作为目标用户，精准地确定了扩散范围，从而使得所选取出的目标用户更加精准。

下面详细描述本发明实施例提供的用户选取方法，如图2所示，本实施例的用户选取方法包括以下步骤：

步骤201、将每类种子用户群划分为训练集和测试集；

种子用户为服务器所提供的样本用户，种子用户一般为购买过或收藏过服务商的相关产品或服务的用户，种子用户的数量可为10000、50000等任意数量。本实施例中，服务器可根据服务商所提供的种子用户的特征信息构建对应的特征标签向量。所述特征信息可包括用户的年龄、性别、年龄、职业、收入、学历、所在城市以及购物习惯等其中的一种或多种。特征标签向量具有一定长度的维度，其每个维度上的参数均对应表征种子用户的一种特征信息，即该特征标签向量由种子用户的多个特征信息构成。对于第i个种子用户的特征标签向量，其表示方式可为(y_i1,y_i2,...y_in)，其中，参数y_in用于表征第i个种子用户的第n个特征信息。

在获取到每个种子用户的特征标签向量之后，服务器可以根据每个种子用户的特征标签向量，采用聚类算法，对所获取到的种子用户进行聚类，以形成不同类别的种子用户群，每个类别的种子用户群中聚集了对产品、服务具有相同需求和兴趣的种子用户。上述聚类算法可为K-means、K-medoids或Clara等任意一种聚类算法。

接下来可以将每类种子用户群划分为训练集和测试集，具体的划分方法可如下：

将每类种子用户群随机划分成k个大小相似且互斥的子集，同时每个子集都尽可能保持数据分布一致，k为正整数，依次取所述k个子集中的一个子集作为所述测试集，剩余k-1个子集的并集作为所述训练集，共得到k个所述训练集，以及k个所述测试集。

步骤202、对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型；

步骤203、基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果；

即针对每类种子用户群，都要进行k轮训练和k轮测试，该方法称为k折交叉验证法。另外，为保证算法的稳定性，减少因样本划分不同而引入的差异，可以对每类种子用户群进行p次随机划分，p为正整数，每次随机划分都将每类种子用户群划分为k个子集，共得到p*k个所述训练集，以及p*k个所述测试集，即最终针对每类种子用户群，都要进行p*k轮训练和p*k轮测试，即上述方法需要进行p轮k折交叉验证。

其中，p*k轮训练的具体方法可如下：

针对第一个训练集，训练过程可如图3所示，包括以下步骤：

步骤2021、将训练集中包含的种子用户的特征标签向量作为正样本特征标签向量；

本实施例中，可以将训练集中包含的种子用户作为正样本，可将训练集中包含的所有种子用户或选取出部分种子用户的特征标签向量，将其作为正样本特征标签向量。

步骤2022、获取潜在用户的与正样本特征标签向量数量相同的特征标签向量作为负样本特征标签向量；

其中，可以从潜在用户群中获取潜在用户，将获取的潜在用户作为负样本，所获取的作为负样本的潜在用户的特征标签向量与正样本用户的标签特征向量不同，最后可以采用预设的随机函数从负样本用户的特征标签向量中选取与正样本特征标签向量数量等同特征标签向量作为负样本特征标签向量。

步骤2023、将正样本特征标签向量和负样本特征标签向量导入预设分类模型中进行训练学习，生成第一中间分类模型。

预设分类模型可为任意的二分类模型，例如逻辑回归(Logistic Regression，LR)模型，决策树(Decision Tree，DT)，支持向量机(Support Vector Machine，SVW)等。服务器可将正样本特征标签向量和负样本特征标签向量导入二分类模型训练，进而得到第一中间分类模型。

针对第二个训练集，可以将从第二训练集的种子用户获取的正样本特征标签向量和从潜在用户获取的负样本特征标签向量导入第一中间分类模型中进行训练学习，生成第二中间分类模型。

重复上述步骤，直至进行到第p*k轮，将从第p*k个训练集的种子用户获取的正样本特征标签向量和从潜在用户获取的负样本特征标签向量导入第p*k-1中间分类模型中进行训练，生成所述逻辑回归分类模型。

即上述每一轮训练都是对前一轮训练生成的模型的优化过程，最终得到的逻辑回归分类模型将是最优分类模型。

其中，p*k轮测试的具体方法可如下：

针对第一个测试集，利用第一中间分类模型对第一个测试集中包含的每个种子用户进行预测得到第一轮预测结果，具体地，可以将第一个测试集中的每个种子用户的特征标签向量输入到第一中间分类模型中进行预测，得到第一个测试集中的每个种子用户的预测结果，该预测结果为一个实数数值，取值在[0，1]之间，该预测结果表示测试对象被划分为正样本的概率。

针对第二个测试集，利用第二中间分类模型对第二个测试集中包含的每个种子用户进行预测得到第二轮预测结果，具体地，仍是将第二个测试集中的每个种子用户的特征标签向量输入到第二中间分类模型中进行预测，得到第二个测试集中的每个种子用户的预测结果。

重复上述步骤，利用针对每个所述训练集生成的分类模型，对对应的所述测试集中包含的每个种子用户进行预测得到预测结果，共得到p*k轮预测结果，根据p*k轮预测结果及预设阈值将绘制p*k个ROC曲线。

步骤204、根据所述测试集中每个种子用户的预测结果及预设阈值绘制ROC曲线；

ROC曲线是显示分类模型真正率和假正率之间折中的一种图形化方法，ROC曲线是根据一系列不同阈值，以真正率(True Positive Rate,TPR)(也称灵敏度)为纵坐标，假正率(False Positive Rate,FPR)(也称特异度)为横坐标绘制的曲线。其中，真正率TPR代表分类模型预测的正类中实际正实例占所有正实例的比例，假正率FPR代表分类模型预测的正类中实际负实例占所有负实例的比例。

由于针对一个二分类问题，通常会将实例(测试对象)分成正样本或者负样本，但是实际中分类时，会出现以下四种情况：

(1)若一个实例是正样本并且被预测为正样本，即为真正(True Postive，TP)；

(2)若一个实例是正样本，但是被预测成为负样本，即为假负(False Negative，FN)；

(3)若一个实例是负样本，但是被预测成为正样本，即为假正(False Postive，FP)；

(4)若一个实例是负样本并且被预测成为负样本，即为真负(True Negative TN)。

所以，真正率TPR＝TP/(TP+FN)；

假正率FPR＝FP/(FP+TN)。

针对每轮预测结果预设的阈值可以相同，也可以不同，预设阈值可为区间[0，1]内的一系列取值(最少以该轮的每个预测结果作为阈值，也可以采用更细的粒度设置阈值，阈值选取的越多，生成的ROC曲线越圆滑)。根据任意一轮预测结果及预设阈值绘制ROC曲线的过程可如下：

首先针对该轮预测结果设置一系列阈值，针对任意一个预设阈值，判断对应的分类模型对该轮的每个测试对象的预测结果是否大于或等于该阈值，若对应分类模型对某个测试对象的预测结果大于或等于该阈值，则认为该测试对象为正样本，否则认为该测试对象负样本，以此可以得到在该阈值下，测试集中每个测试对象的预测标签(即预测为正样本或负样本，每个测试对象具有真实标签，真实标签可以为正样本或负样本)。针对任意一个阈值，可以按照上述真正率及假正率的计算公式进行计算得到一组(FPR，TPR)，一组(FPR，TPR)对应平面中的一个坐标点，针对一系列阈值，可以得到一系列的坐标点，以FPR为横坐标，以TPR为纵坐标，根据这一系列的坐标点绘制ROC曲线，ROC曲线上每个点对应一个阈值，阈值最大时，对应坐标点(0，0)，阈值最小时，对应坐标点(1，1)。

步骤205、通过所述ROC曲线获取最佳阈值；

具体地，可以查找每个ROC曲线上约登指数为最大值时对应的点，约登指数等于灵敏度与特异度之和减去1(即灵敏度+特异度-1)，约登指数为最大值时对应的点即灵敏度与特异度之和减去1为最大值对应的点，获取该点对应的阈值作为最佳子阈值，共得到p*k个最佳子阈值，取p*k个最佳子阈值的平均值作为所述最佳阈值。

步骤206、利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果；

具体地，可以根据每个潜在用户的特征信息(例如潜在用户的年龄、性别、年龄、职业、收入、学历、所在城市以及购物习惯等其中的一种或多种)构建每个潜在用户的特征标签向量，将每个潜在用户的特征标签向量输入到训练生成的逻辑回归分类模型中进行预测，得到每个潜在用户的预测结果。该预测结果为一个实数数值，取值在[0，1]之间，该预测结果可表示对应的潜在用户与对应推送信息的匹配度，预测结果的值越大，说明对应的潜在用户与对应推送信息的匹配度越高。

步骤207、从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户。

本实施例中，服务器在选取出目标用户之后，可直接向所述目标用户的终端发送与对应类别相匹配的推送信息。即可对该目标用户设置相应的类别标识，并从准备推送的信息中，选取与该类别标识相匹配的类别的信息，作为推送信息发送给目标用户。其中，服务器可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息。由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户接受的概率也相对较高。

在一个实施例中，服务器在选取出目标用户后，还可以将目标用户的信息发送给客户终端，以使客户终端推送信息至目标用户的终端。即服务器可将所选取出的目标用户的信息发送给服务商的客户终端，目标用户的信息包括目标用户的联系电话、邮箱以及与服务器对应的应用的使用账号(比如即时通讯账号)等其中的一种或多种，还包括对应的类别标识，使得客户终端在接收到该目标用户的信息后，可根据该类别标识获知与对应目标用户相匹配的推送信息，进而可自己将相匹配的推送信息发送给目标用户。同样的，客户终端也可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息，由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户接受的概率也相对较高。

目标用户的终端在接收到服务商的推送信息后，可向服务器发送对该推送信息感兴趣或者不感兴趣的反馈信息，服务器可接收目标用户的终端所发送的反馈信息，根据该反馈信息可获知目标用户对该推送信息是否感兴趣。

若该反馈信息表示目标用户对推送信息感兴趣，则将该目标用户归类到对应类别的种子用户群中，根据归类后的种子用户群重新进行训练和测试，以更新对应类别的逻辑回归分类模型及最佳阈值。若该反馈信息表示目标用户对推送信息不感兴趣，则可将该目标用户的特征标签向量划分为负样本特征标签向量，并将新的正、负样本特征标签向量导入到逻辑回归分类模型中训练，生成新的逻辑回归分类模型，按照新的逻辑回归分类模型对测试集进行测试，从而获取新的最佳阈值。以此实现了根据目标用户的反馈更新对应的逻辑回归分类模型和最佳阈值，使获得的逻辑回归分类模型和最佳阈值更加准确，从而在后续再次选取目标用户时，可使得所选取的目标用户更加精准。

本实施例中，会将种子用户群划分为训练集和测试集，基于训练集进行训练生成逻辑回归分类模型，基于生成的逻辑回归分类模型对测试集进行测试，根据测试结果及预设阈值生成ROC曲线，利用ROC曲线获取最佳阈值，在利用生成的逻辑回归分类模型对每个潜在用户进行预测之后，选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，即本实施例的方法，以最佳阈值作为标准，选取预测结果大于所述最佳阈值的潜在用户作为目标用户，精准地确定了扩散范围，从而使得所选取出的目标用户更加精准。

下面描述本发明实施例提供的用户选取装置，如图4所示，本实施例的用户选取装置包括：

(1)划分单元401；

划分单元401用于，将每类种子用户群划分为训练集和测试集。

具体地，划分单元401可以包括划分子单元和选取子单元，其中，划分子单元可以将每类种子用户群随机划分成k个大小相似且互斥的子集，同时每个子集都尽可能保持数据分布一致，k为正整数，选取子单元依次取所述k个子集中的一个子集作为所述测试集，剩余k-1个子集的并集作为所述训练集，共得到k个所述训练集，以及k个所述测试集。

即针对每类种子用户群，都要进行k轮训练和k轮测试，该方法称为k折交叉验证法。另外，为保证算法的稳定性，减少因样本划分不同而引入的差异，划分子单元可以对每类种子用户群进行p次随机划分，p为正整数，每次随机划分都将每类种子用户群划分为k个子集，共得到p*k个所述训练集，以及p*k个所述测试集，即最终针对每类种子用户群，都要进行p*k轮训练和p*k轮测试，即上述方法需要进行p轮k折交叉验证。

(2)训练单元402；

训练单元402用于，对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型。

训练单元402需要进行p*k轮训练，具体训练过程可如下：

针对第一个训练集，将训练集中包含的种子用户的特征标签向量作为正样本特征标签向量，获取潜在用户的与正样本特征标签向量数量相同的特征标签向量作为负样本特征标签向量，将正样本特征标签向量和负样本特征标签向量导入预设分类模型中进行训练学习，生成第一中间分类模型。

预设分类模型可为任意的二分类模型，例如逻辑回归(Logistic Regression，LR)模型，决策树(Decision Tree，DT)，支持向量机(Support Vector Machine，SVW)等。

(3)第一预测单元403；

第一预测单元403用于，基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果。

第一预测单元403需要进行p*k轮预测，具体的预测方法可如下：

重复上述步骤，利用针对每个所述训练集生成的分类模型，对对应的所述测试集中包含的每个种子用户进行预测得到预测结果，共得到p*k轮预测结果，绘制单元404根据p*k轮预测结果及预设阈值将绘制p*k个ROC曲线。

(4)绘制单元404；

绘制单元404用于，根据所述测试集中每个种子用户的预测结果及预设阈值绘制受试者工作特征曲线ROC曲线。

针对每轮预测结果预设的阈值可以相同，也可以不同，预设阈值可为区间[0，1]内的一系列取值(最少以该轮的每个预测结果作为阈值，也可以采用更细的粒度设置阈值，阈值选取的越多，生成的ROC曲线越圆滑)。绘制单元404根据任意一轮预测结果及预设阈值绘制ROC曲线的过程可如下：

首先针对该轮预测结果设置一系列阈值，针对任意一个预设阈值，判断对应的分类模型对该轮的每个测试对象的预测结果是否大于或等于该阈值，若对应分类模型对某个测试对象的预测结果大于或等于该阈值，则认为该测试对象为正样本，否则认为该测试对象负样本，以此可以得到在该阈值下，测试集中每个测试对象的预测标签(即预测为正样本或负样本，每个测试对象具有真实标签，真实标签可以为正样本或负样本)。针对任意一个阈值，可以按照前述真正率及假正率的计算公式进行计算得到一组(FPR，TPR)，一组(FPR，TPR)对应平面中的一个坐标点，针对一系列阈值，可以得到一系列的坐标点，以FPR为横坐标，以TPR为纵坐标，根据这一系列的坐标点绘制ROC曲线，ROC曲线上每个点对应一个阈值，阈值最大时，对应坐标点(0，0)，阈值最小时，对应坐标点(1，1)。

(5)阈值获取单元405；

阈值获取单元405用于，通过所述ROC曲线获取最佳阈值。

具体地，阈值获取单元405可以查找每个ROC曲线上约登指数为最大值时对应的点，约登指数等于灵敏度与特异度之和减去1(即灵敏度+特异度-1)，约登指数为最大值时对应的点即灵敏度与特异度之和减去1为最大值对应的点，获取该点对应的阈值作为最佳子阈值，共得到p*k个最佳子阈值，取p*k个最佳子阈值的平均值作为所述最佳阈值。

(6)第二预测单元406；

第二预测单元406用于，利用所述逻辑回归分类模型对潜在用户群中的每个潜在用户进行预测得到预测结果。

具体地，第二预测单元406可以将每个潜在用户的特征标签向量输入到训练生成的逻辑回归分类模型中进行预测，得到每个潜在用户的预测结果。该预测结果为一个实数数值，取值在[0，1]之间，该预测结果可表示对应的潜在用户与对应推送信息的匹配度，预测结果的值越大，说明对应的潜在用户与对应推送信息的匹配度越高。

(7)目标选取单元407；

目标选取单元407用于，从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户。

本实施例中的装置还可以包括信息推送单元，在目标选取单元407选取出目标用户之后，信息推送单元可直接向所述目标用户的终端发送与对应类别相匹配的推送信息。即可对该目标用户设置相应的类别标识，并从准备推送的信息中，选取与该类别标识相匹配的类别的信息，作为推送信息发送给目标用户。其中，信息推送单元可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息。由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户接受的概率也相对较高。

在一个实施例中，在目标选取单元407选出目标用户后，信息推送单元还可以将目标用户的信息发送给客户终端，以使客户终端推送信息至目标用户的终端。即信息推送单元可将所选取出的目标用户的信息发送给服务商的客户终端，目标用户的信息包括目标用户的联系电话、邮箱以及与服务器对应的应用的使用账号(比如即时通讯账号)等其中的一种或多种，还包括对应的类别标识，使得客户终端在接收到该目标用户的信息后，可根据该类别标识获知与对应目标用户相匹配的推送信息，进而可自己将相匹配的推送信息发送给目标用户。同样的，客户终端也可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息，由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户接受的概率也相对较高。

另外，本实施例的装置还可以包括反馈获取单元和更新单元，目标用户的终端在接收到服务商的推送信息后，可向服务器发送对该推送信息感兴趣或者不感兴趣的反馈信息，反馈获取单元可接收目标用户的终端所发送的反馈信息，更新单元根据该反馈信息可获知目标用户对该推送信息是否感兴趣。

若该反馈信息表示目标用户对推送信息感兴趣，则更新单元将该目标用户归类到对应类别的种子用户群中，根据归类后的种子用户群重新进行训练和测试，以更新对应类别的逻辑回归分类模型及最佳阈值。若该反馈信息表示目标用户对推送信息不感兴趣，则更新单元可将该目标用户的特征标签向量划分为负样本特征标签向量，并将新的正、负样本特征标签向量导入到逻辑回归分类模型中训练，生成新的逻辑回归分类模型，按照新的逻辑回归分类模型对测试集进行测试，从而获取新的最佳阈值。以此实现了根据目标用户的反馈更新对应的逻辑回归分类模型和最佳阈值，使获得的逻辑回归分类模型和最佳阈值更加准确，从而在后续再次选取目标用户时，可使得所选取的目标用户更加精准。

需要说明的是，上述实施例提供的用户选取装置在实现用户选取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用户选取装置与用户选取方法属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本实施例中，划分单元会将种子用户群划分为训练集和测试集，训练单元基于训练集进行训练生成逻辑回归分类模型，第一预测单元基于生成的逻辑回归分类模型对测试集进行测试，绘制单元根据测试结果及预设阈值生成ROC曲线，阈值获取单元利用ROC曲线获取最佳阈值，在第二预测单元利用生成的逻辑回归分类模型对每个潜在用户进行预测之后，目标选取单元选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，即本发明实施例的方法，以最佳阈值作为标准，选取预测结果大于所述最佳阈值的潜在用户作为目标用户，精准地确定了扩散范围，从而使得所选取出的目标用户更加精准。

本发明实施例还提供一种用户选取装置，如图5所示，其示出了本发明实施例所涉及的装置的结构示意图，具体来讲：

该装置可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(Radio Frequency，RF)电路503、电源505、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

RF电路503可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器501处理；另外，将涉及上行的数据发送给基站。通常，RF电路503包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路503还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

装置还包括给各个部件供电的电源504(比如电池)，优选的，电源504可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该装置还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元505可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器501，并能接收处理器501发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元505还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该装置还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元506可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器501以确定触摸事件的类型，随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，装置还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，装置中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

将每类种子用户群划分为训练集和测试集；

通过所述ROC曲线获取最佳阈值；

具体地，处理器501可以按照如下方式将每类种子用户群划分为训练集和测试集：

将每类种子用户群随机划分为k个子集，k为正整数；

依次取所述k个子集中的一个子集作为所述测试集，剩余k-1个子集的并集作为所述训练集，共得到k个所述训练集，以及k个所述测试集。

具体地，处理器501可以对每类种子用户群进行p次随机划分，每次随机划分都将每类种子用户群划分为k个子集，共得到p*k个所述训练集，以及p*k个所述测试集，p为正整数。

具体地，处理器501可按照如下方式对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型：

将第一个所述训练集中包含的种子用户放入预设分类模型中进行训练生成第一中间分类模型；

将第二个所述训练集中包含的种子用户放入所述第一中间分类模型中进行训练生成第二中间分类模型；

重复上述步骤，直至进行到第p*k轮，将第p*k个所述训练集中包含的种子用户放入第p*k-1中间分类模型中进行训练生成所述逻辑回归分类模型。

具体地，处理器501可按照如下方式对对所述测试集中包含的每个种子用户进行预测得到预测结果：

利用针对每个所述训练集生成的分类模型，对对应的所述测试集中包含的每个种子用户进行预测得到预测结果。

具体地，处理器501对p*k个所述测试集中包含的每个种子用户进行预测将得到p*k轮预测结果，根据p*k轮预测结果及预设阈值将绘制p*k个ROC曲线。

具体地，处理器501可按照如下方式获取最佳阈值：

查找每个ROC曲线上约登指数为最大值时对应的点，获取该点对应的阈值作为最佳子阈值，共得到p*k个最佳子阈值；

取p*k个最佳子阈值的平均值作为所述最佳阈值。

进一步地，处理器501还用于，在从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户之后，向所述目标用户的终端发送与对应类别相匹配的推送信息。

进一步地，处理器501还用于，在向所述目标用户发送与对应类别相匹配的推送信息之后，获取所述目标用户的反馈信息；根据所述反馈信息更新每个类别对应的逻辑回归分类模型和最佳阈值。

本实施例的用户选取装置，会将种子用户群划分为训练集和测试集，基于训练集进行训练生成逻辑回归分类模型，基于生成的逻辑回归分类模型对测试集进行测试，根据测试结果及预设阈值生成ROC曲线，利用ROC曲线获取最佳阈值，在利用生成的逻辑回归分类模型对每个潜在用户进行预测之后，选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户，即本实施例的装置，以最佳阈值作为标准，选取预测结果大于所述最佳阈值的潜在用户作为目标用户，精准地确定了扩散范围，从而使得所选取出的目标用户更加精准。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户选取方法，其特征在于，包括：

将每类种子用户群划分为训练集和测试集；

通过所述ROC曲线获取最佳阈值；

2.根据权利要求1所述的方法，其特征在于，所述将每类种子用户群划分为训练集和测试集包括：

将每类种子用户群随机划分为k个子集，k为正整数；

3.根据权利要求2所述的方法，其特征在于，所述将每类种子用户群随机划分为k个子集包括：

对每类种子用户群进行p次随机划分，每次随机划分都将每类种子用户群划分为k个子集，共得到p*k个所述训练集，以及p*k个所述测试集，p为正整数。

4.根据权利要求3所述的方法，其特征在于，所述对所述训练集中包含的种子用户进行训练生成逻辑回归分类模型包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述逻辑回归分类模型对所述测试集中包含的每个种子用户进行预测得到预测结果包括：

6.根据权利要求5所述的方法，其特征在于，对p*k个所述测试集中包含的每个种子用户进行预测将得到p*k轮预测结果，根据p*k轮预测结果及预设阈值将绘制p*k个ROC曲线。

7.根据权利要求6所述的方法，其特征在于，所述通过所述ROC曲线获取最佳阈值包括：

取p*k个最佳子阈值的平均值作为所述最佳阈值。

8.根据权利要求1至7任意一项所述的方法，其特征在于，在从所述潜在用户群中选取预测结果大于所述最佳阈值的潜在用户，作为用于推送信息的目标用户之后，所述方法还包括：

向所述目标用户的终端发送与对应类别相匹配的推送信息。

9.根据权利要求8所述的方法，其特征在于，在向所述目标用户发送与对应类别相匹配的推送信息之后，所述方法还包括：

获取所述目标用户的反馈信息；

根据所述反馈信息更新每个类别对应的逻辑回归分类模型和最佳阈值。

10.一种用户选取装置，其特征在于，包括：

划分单元，用于将每类种子用户群划分为训练集和测试集；

阈值获取单元，用于通过所述ROC曲线获取最佳阈值；

11.根据权利要求10所述的装置，其特征在于，所述划分单元包括：

划分子单元，用于将每类种子用户群随机划分为k个子集，k为正整数；

选取子单元，用于依次取所述k个子集中的一个子集作为所述测试集，剩余k-1个子集的并集作为所述训练集，共得到k个所述训练集，以及k个所述测试集。

12.根据权利要求11所述的装置，其特征在于，所述划分子单元具体用于，

13.根据权利要求12所述的装置，其特征在于，所述训练单元具体用于，

14.根据权利要求13所述的装置，其特征在于，所述第一预测单元具体用于，

15.根据权利要求14所述的装置，其特征在于，所述第一预测单元对p*k个所述测试集中包含的每个种子用户进行预测将得到p*k轮预测结果，所述绘制单元根据p*k轮预测结果及预设阈值将绘制p*k个ROC曲线。

16.根据权利要求15所述的装置，其特征在于，所述阈值获取单元具体用于，

查找每个ROC曲线上约登指数为最大值时对应的点，获取该点对应的阈值作为最佳子阈值，共得到p*k个最佳子阈值，取p*k个最佳子阈值的平均值作为所述最佳阈值。

17.根据权利要求10至16任意一项所述的装置，其特征在于，所述装置还包括：

信息推送单元，用于向所述目标用户的终端发送与对应类别相匹配的推送信息。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

反馈获取单元，用于获取所述目标用户的反馈信息；

更新单元，用于根据所述反馈信息更新每个类别对应的逻辑回归分类模型和最佳阈值。