CN106355449B

CN106355449B - 用户选取方法和装置

Info

Publication number: CN106355449B
Application number: CN201610797458.3A
Authority: CN
Inventors: 章志青; 吴佳明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2021-09-07
Anticipated expiration: 2036-08-31
Also published as: CN106355449A; US20190102652A1; WO2018041168A1; US11574139B2

Abstract

本发明涉及一种用户选取方法，该用户选取方法包括：获取每个种子用户的特征标签向量；根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心；获取所述每个类别的信息对应的特征权值向量；获取潜在用户群中的每个潜在用户的特征标签向量；根据所述潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户。上述方法可使得所选取出的目标用户的精准度更高。此外，还对应提供了一种用户选取装置。

Description

用户选取方法和装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种用户选取方法和装置。

背景技术

随着大数据应用的发展，即时通信和社交应用平台中存储了大量的用户信息，比如用户的喜好、年龄、职业和需求等等，而这些用户信息对于是否可进行信息的推送，比如商品广告等信息的推送，有着重要的参考价值。

传统的技术方案中，通常都是对所获取的海量用户进行简单的筛选，比如筛选出浏览过与服务商准备推送的信息相同或相似的用户，作为目标用户，并向其投放相关服务商的推送信息。而现实中，由于每个用户都是一个独立的存在，具有多样化的特性，仅通过这种简单的筛选所确定的用于投放信息的目标用户不够精准。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标用户选取的精准度的用户选取方法和装置。

一种用户选取方法，所述方法包括：

获取每个种子用户的特征标签向量；

根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心；

获取所述每个类别的信息对应的特征权值向量；

获取潜在用户群中的每个潜在用户的特征标签向量；

根据所述潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；

从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户。

一种用户选取装置，所述装置包括：

特征标签向量获取模块，用于获取每个种子用户的特征标签向量；

聚类中心计算模块，用于根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心；

特征权值向量获取模块，用于获取所述每个类别的信息对应的特征权值向量；

所述特征标签向量获取模块还用于获取潜在用户群中的每个潜在用户的特征标签向量；

第一距离计算模块，用于根据所述潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；

目标用户选取模块，用于从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户。

上述用户选取方法和装置，根据所获取的每个种子用户的特征向量以及预设的第一数量的信息类别，计算出每个类别的信息对应的聚类中心，然后根据潜在用户的特征标签向量、特征权值向量以及所计算出的聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；再从所计算出的所有潜在用户的第一距离中选取距离最短的第二数量的潜在用户，作为可向该目标用户发送相应的推送信息的目标用户。由于该第一距离可反映出对应潜在用户与相应类别信息的匹配程度，且距离越小，则说明越适合向该用户发送相应类别的信息，从而使得所选取出的目标用户更加精准。

附图说明

图1为一个实施例中用户选取方法的应用环境图；

图2为一个实施例中用于实现用户选取方法的服务器的内部结构图；

图3为一个实施例中用户选取方法的流程示意图；

图4为一个实施例中聚类的示意图；

图5为一个实施例中根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心的步骤的流程示意图；

图6为一个实施例中获取每个类别的信息对应的特征权值向量的步骤的流程示意图；

图7为一个实施例中根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤的流程示意图；

图8为一个实施例中根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤的流程示意图；

图9为一个实施例中用户选取装置的结构框图；

图10为另一个实施例中用户选取装置的结构框图；

图11为又一个实施例中用户选取装置的结构框图；

图12为一个实施例中聚类中心计算模块的结构框图；

图13为一个实施例中特征权值向量获取模块的结构框图；

图14为再一个实施例中用户选取装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例所提供的用户选取方法可应用于如图1所示的应用场景中。参考图1所示，客户终端110可通过预先设置的网络与服务器120进行交互。客户终端110为需要向用户发送推送信息的服务商的终端，包括但不限于具有通信功能的智能手机、平板电脑、掌上电脑等设备。服务器120为存储有大量的用户信息的社交、即时通信或购物等平台的服务器，该大量的用户即构成一个潜在用户群。服务器120中的每个潜在用户均具有多个特征信息，根据该多个特征信息可构成特征标签向量，通过该特征标签向量可反映用户的特征。客户终端110可向服务器120发送用于选取合适的用户的选取请求，以便于向所选取的用户发送相关的推送信息。服务器120可根据该请求来获取每个种子用户的特征标签向量，种子用户一般为购买过或收藏过服务商的相关产品的用户；根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心。其中，第一数量与该服务商准备推荐的信息所包含的种类数量相匹配，每种类别的信息均对应具有一个聚类中心。服务器120中还设有与特征标签向量对应的特征权值向量，根据潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；然后从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户，从而实现了对用户的选取。

在一个实施例中，图1中的服务器120的内部结构如图2所示，该服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中，该服务器的存储介质存储有操作系统、数据库和一种用户选取装置。数据库用于存储数据，如存储每个潜在用户的特征标签向量、每个类别的信息的聚类中心以及特征权值向量等。该操作系统用于实现一种用户选取方法。该服务器的处理器用于提供计算和控制能力，支撑整个接入服务器的运行。该服务器的内存为存储介质中的用户选取系统的运行提供环境。该服务器的网络接口用于与外部的终端或服务器通过网络连接通信，比如接收终端110发送的选取请求或向所选取的用户对应的终端发送推送信息等。

在一个实施例中，如图3所示，提供了一种用户选取方法，该方法可应用于如图1所示的服务器中，具体包括以下步骤：

步骤302，获取每个种子用户的特征标签向量。

本实施例中，服务器可预先接收服务商的客户终端所发送的用户选取请求，该用户选取请求中包含服务商所需推送信息的具体分类、以及一定数量的种子用户的特征信息，并根据服务商所提供的种子用户的特征信息构建对应的特征标签向量。其中，该推送信息可为任意信息，对推送信息所分的类别的数量即为第一数量。以推送信息为服装信息为例，当该具体分类被分为男士服装、女士服装和儿童服装三类时，则相应的第一数量即为3。以推送信息为体育用品为例，当该具体分类被分为篮球、足球、排球和网球四类时，则相应的第一数量即为4。

种子用户为服务器所提供的样本用户，种子用户一般为购买过或收藏过服务商的相关产品的用户，种子用户的数量可为10000、50000等任意数量，所有数量的种子用户则构成一个种子用户群。特征信息可包括用户的年龄、性别、职业、收入、学历、所在城市以及购物习惯等其中的一种或多种。服务器可按照预设量化规则对每个种子用户的特征信息进行相应的量化，根据预设的所需类型的特征标签构建对应种子用户的特征标签向量。特征标签向量是具有一定长度的维度，其每个维度上的参数均对应表征种子用户的一种特征信息，即该特征标签向量由所选取种子用户的多个特征信息构成。

设所选取的特征信息的种类为n，对于第i个种子用户的特征标签向量，其表示方式可为(y_i1,y_i2,...y_in)，其中，参数y_im用于表征第i个种子用户的第m个特征信息，举例来说，所选取的特征信息的种类分别包括年龄、性别、职业、收入、学历、所在城市这6种，则n为6。依次按照该种类顺序构建相应的特征标签向量，则y_i1至y_i6分别表征第i个种子用户的年龄、性别、职业、收入、学历、所在城市这些具体的特征信息。

步骤304，根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心。

本实施例中，服务器可根据所分类的具体的信息类别，将每个种子用户也进行相应的分类，使得对种子用户的分类与信息类别的分类相对应，从而可形成第一数量的聚类，每个聚类分别与信息的种类一一对应。特征标签向量反映在空间坐标系中则为一个具体的点，被划分为相同类别的种子用户的特征标签向量则处于同一聚类中，服务器可根据由所有种子用户的特征标签向量所形成的第一数量的聚类，计算出每个聚类的中心点，将该中心点作为该类别的信息的聚类中心。其中，每个聚类分别与信息的种类一一对应。具体的，可根据预设的聚类算法计算出每个类别的信息对应的聚类中心，该聚类算法可为K-means、K-medoids或Clara等任意一种聚类算法。

所计算出的聚类中心是用于表征某一类别的信息对应的种子用户所共有的特征信息，聚类中心的形式与特征标签向量相同，具有与特征标签向量相同长度的维度，其每个维度上的参数均对应表征种子用户所共有的一种特征信息。反映在空间坐标系中则为一个具体的点。对于第k类的信息的n维聚类中心，其表示方式可为(x_k1,x_k2,...x_kn)，其中，参数x_km用于表征第k类的信息对应的种子用户所共有的第m个特征信息。

如图4所示，为一个实施例中对特征标签向量进行聚类的示意图。图中的每一个点表示对应一个种子用户的特征标签向量，处于同一圆圈中的点构成了一个聚类，通过该圆圈中的所有点，可计算出对应的中心点，该中心点即为相应类别信息的聚类中心。

举例来说，推送信息为服装信息，该信息分类被分为男士服装信息、女士服装信息和儿童服装信息三类时，服务器可按照预设的聚类算法将形成的如图4中上方、左下方、右下方的聚类分别与男士服装信息、女士服装信息和儿童服装信息对应。所计算出的三个聚类中心分别为与男士服装信息、女士服装信息和儿童服装信息对应的聚类中心。

步骤306，获取每个类别的信息对应的特征权值向量。

本实施例中，服务器还根据所需推送信息的具体分类设置了对应第一数量的特征权值向量，每个特征权值向量与相应的类别的信息一一对应。其中，不同类别的信息的聚类中心对应的特征权值向量可相同或者不同。同样的，特征权值向量的维数与特征标签向量的维数相同。特征权值向量的每个参数为特征标签向量中对应特征标签向量的参数的权值。其表示方式可为(w_k1,w_k2,...w_kn)，其中，w_ki用于反映对应于第k类信息的特征标签向量第i个参数y_i所占的权重。特征标签向量中不同参数对应的权值可相同或不同，对于与待推送的类型的信息关联度较大的特征信息，可对应设置较大的权值。举例来说，当信息类别为男士服装信息、女士服装信息和儿童服装信息三类，且特征向量标签中表示年龄、性别和职业等参数，可分别将与男士服装信息、女士服装信息对应的特征权值向量中反映性别的参数设置一个相对较大的权值，而将与儿童服装信息对应的特征权值向量中反映性别的参数设置一个相对较小的权值。

步骤306，获取潜在用户群中的每个潜在用户的特征标签向量。

本实施例中，服务器中存储有大量的用户，该用户即为可被适用于推送信息的潜在用户，服务器中所存储的用户即构成相应的潜在用户群。同样的，潜在用户也同样具有包括年龄、性别、职业、收入、学历、所在城市以及购物习惯等其中的一种或多种的特征信息。服务器可按照种子用户的特征标签向量的构建方式，构建潜在用户的特征标签向量，潜在用户的特征标签向量与种子用户的特征标签向量以及聚类中心的形式均相同，且三者中的参数所表示的含义也相同。

在一个实施例中，上述的步骤302～304、306以及308之间的执行顺序可不做限定，即对于聚类中心的计算、特征权值向量以及潜在用户的特征标签向量的获取的顺序不做限定。

步骤310，根据潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离。

本实施例中，服务器可对潜在用户群中的潜在用户，计算其与每个聚类中心的距离。可将某一具体的潜在用户的特征标签向量中的每个参数，其与一个类别信息的聚类中心中的对应参数相减，得到差值，然后将该差值进行平方运算，将该平方值与该类别信息所对应的特征权值向量中对应的参数相乘，得到相应的乘积。再对每个参数的乘积进行求和，所得到的数值即为相应类别的聚类中心的第一距离。

具体的，可通过公式

来计算第一距离。其中，d_kj表示第j个潜在用户与第k类信息对应的聚类中心的第一距离，n表示特征标签向量、特征权值向量以及聚类中心的维度，w_kj表示第k类信息对应的n维特征权值向量中的第j个参数，z_ij表示第i可潜在用户的n维特征标签向量中第j个参数，y_kj表示第k类信息的n维聚类中心的第j个参数。通过上述的计算公式，分别可计算出每个潜在用户和每个类别的聚类中心的第一距离。

步骤312，从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户。

本实施例中，第一距离的大小可反映出是否适合向该潜在用户发送对应类别信息的匹配程度。即若所计算出的距离越小，则说明该潜在用户与对应类别信息的聚类中心越接近，则与对应类别信息的匹配程度越高，从而也就越适合向该用户发送相应类别的信息。

继续以信息分类为男士服装信息、女士服装信息和儿童服装信息三类为例来说明，则可分别计算出每个用户的特征标签向量分别与男士服装信息的聚类中心的第一距离、与女士服装信息的聚类中心的第一距离、与儿童服装信息的聚类中心的第一距离。针对一个具体的潜在用户，若这三个第一距离中，与女士服装信息的聚类中心的第一距离的数值最小，则判断该用户在此三类的信息中，最适合向其推送女士服装信息。针对处于潜在用户群中的所有潜在用户，可对每一类的第一距离进行大小排名，从其中选取预设数量的在对应类型中的第一距离最小的潜在用户，作为用于推送与该类型相匹配的推送信息。

在一个实施例中，第二数量可为预先设置的数量，即预先设置了要获取的目标用户的数量。服务器可对所计算出所有第一距离进行排名，根据该排名选取出对应数量的最小的第一距离，将其对应的用户作为目标用户，从而可向该目标用户发送相应的推送信息。

在另一个实施例中，服务器中还可不设置第二数量，转而设置距离阈值，将小于距离阈值的第一距离对应的潜在用户设置为目标用户。统计所设置的目标用户的数量，该数量即作为第二数量。

本实施例所提供的用户选取方法，通过根据所获取的每个种子用户的特征向量以及预设的第一数量的信息类别，计算出每个类别的信息对应的聚类中心，然后根据潜在用户的特征标签向量、特征权值向量以及所计算出的聚类中心，计算潜在用户和每个类别的聚类中心的第一距离；再从所计算出的所有潜在用户的第一距离中选取距离最短的第二数量的潜在用户，作为可向该目标用户发送相应的推送信息的目标用户。由于该方法预先信息进行了分类，且计算出的第一距离可反映出对应潜在用户与相应类别信息的匹配程度，距离越小，则说明越适合向该用户发送相应类别的信息，从而使得所选取出的目标用户更加精准。

在一个实施例中，根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心的步骤，包括：当种子用户的信息中包含类别标识时，根据类别标识确定对应种子用户的特征标签向量所归属的类别，形成第一数量的类别的聚类；计算每个聚类的中心点，将该中心点作为对应类别的信息的聚类中心。

本实施例中，服务器在接收到用户选取请求后，可检测种子用户的信息中是否包含类别标识，该类别标识用于标识对应种子用户所收藏或购买服务商的相关产品或者该产品的所属类别。

当种子用户的信息中包含类别标识时，可根据该类别标识获知对应种子用户所收藏或购买的服务商的相关产品或者该产品的所属类别，从而可确定与该产品或者产品的所属类别相匹配的推送信息的类别。然后将该种子用户的特征标签向量划分到所确定的类别的信息的聚类之中。服务器可对每个种子用户的特征标签向量的进行类别的划分，从而形成了第一数量的类别的聚类。

在形成了第一数量的类别的聚类之后，可根据每个聚类中所包含的特征标签向量，计算出相应的中心点，该中心点即为对应类别的信息的聚类中心。具体的，可对每个聚类中的特征标签向量进行算术平均，将所得到的平均值作为相应的聚类中心。

由于种子用户的信息中包含了类别标识，因而根据该类别标识可准确对相应的种子用户进行聚类，从而可提高所计算出的聚类中心的准确度。且由于第一距离与聚类中心相关，因而还可提高后续对第一距离的计算的准确度，进而提高了对目标用户选取的精准度。

在一个实施例中，如图5所示，根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心的步骤，包括：

步骤502，当种子用户的信息中不包含类别标识时，从种子用户群中选取第一数量的特征标签向量，将所选取出的每个特征标签向量分别作为其中一个类别的信息的初始聚类中心，使得每个类别的信息均具有一个初始聚类中心。

当种子用户的信息中不包含类别标识时，服务器可从种子用户群中选取出与信息类别的数量等同的种子用户的特征标签向量，并分别将所选取的每个特征标签向量作为对应一种类别的信息的初始聚类中心，使得每个类别的信息均具有一个初始聚类中心。其中，服务器可采取预设的随机函数来选取第一数量的特征标签向量，并随机地将每个选取出的特征标签向量作为对应的一个初始聚类中心。

步骤504，计算种子用户群的每个特征标签向量与每个类别的信息的上一次聚类中心的第二距离，根据第二距离确定对应的特征标签向量所归属的类别，形成第一数量的类别的聚类。

在每个类别的信息均具有了聚类中心之后，则分别计算剩下的种子用户的特征标签向量与每个初始聚类中心的第二距离，根据第二距离确定与种子用户最近的一个初始聚类中心，然后将该种子用户的特征标签向量划分到该初始聚类中心所对应类别之中。服务器可对每个种子用户的特征标签向量的进行类别的划分，从而形成了第一数量的类别的聚类。

其中，第一次的聚类中心即为初始聚类中心，对于后续需再次执行步骤504的时候，每个类别的上一次的聚类中心即为在步骤506中所计算出的对应聚类的中心点。

步骤506，计算每个聚类的中心点。

本实施例中，在形成了第一数量的类别的聚类之后，可根据每个聚类中所包含的特征标签向量，计算出相应的中心点，该中心点即为对应类别的信息的聚类中心。具体的，可对每个聚类中的特征标签向量进行算术平均，将所得到的平均值作为相应的聚类中心。

步骤508，判断聚类的中心点是否已收敛。若是，则执行步骤510，否则，继续执行步骤504～508，直至判断结果为是。

具体的，判断所计算出的新的中心点与前一次的中心点之间的差值是否小于预设距离值。若是，则判断所计算出的中心点收敛，否则，判断不收敛。

本实施例中，服务器中对应预设有一个距离值，该预设距离值用于作为判断对应中心点是否收敛的标准。当其中的一个或多个聚类的中心点不收敛时，可继续执行步骤504，将每个类别的信息，进行重新聚类。该每个聚类的中心点即为对应类别的信息的上一次的聚类中心。若所计算出的新的中心点与前一次的差值处于小于该预设距离值，则说明所计算出的新的中心点收敛，可将其作为该类别的信息最终的聚类中心。

步骤510，将该中心点作为对应类别的信息的聚类中心。

当在判断出所有聚类的中心点已均经收敛时，则可将该中心点作为对应类别的信息最终的聚类中心。

本实施例中，通过判断所形成的聚类中心是否收敛，若否，则循对每个类别的信息进行聚类，根据所形成的新的聚类重新计算中心点，直至每个类别的中心点均收敛，则可将该中心点作为对应类别的信息最终的聚类中心，从而也可提高所计算出的聚类中心的准确度，进而提高了对目标用户选取的精准度。

在一个实施例中，如图6所示，获取每个类别的信息对应的特征权值向量的步骤，包括：

步骤602，将种子用户群中的特征标签向量作为正样本特征标签向量。

本实施例中，可将种子用户群中的所有种子用户或选取出部分种子用户的特征标签向量，将其作为正样本特征标签向量，作为正样本，形成正样本向量集。

步骤604，从潜在用户群中获取与种子用户数量相同的特征标签向量，作为负样本特征标签向量。

其中，可采用预设的随机函数选取中与正样本特征标签向量数量等同的负样本特征标签向量，作为负样本，形成负样本向量集。

在一个实施例中，步骤602和步骤604的执行顺序可不做限定。

步骤606，根据正样本特征标签向量和负样本特征标签向量，按照预设分类模型进行训练学习，生成特征权值向量。

本实施例中，该预设分类模型可为任意的二分类模型，具体的，可为逻辑回归分类模型。服务器可基于正样本向量集和负样本向量集进行二分类模型训练，进而可获得各聚类下的特征权值向量。即该特征权值向量是训练二分类模型之后得到的，是二分类模型训练之后获得的参数。

本实施例中，通过上述的预设模型可提高所获取的特征权值向量的准确度，从而也相应提高了对第一距离的计算的准确度，同样提高了对目标用户选取的精准度。

在一个实施例中，根据潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离的步骤，包括：根据分类模型对潜在用户群中的特征标签向量进行筛选；计算筛选出的每个潜在用户和每个类别的聚类中心的第一距离。

本实施例中，分类模型与上述步骤606中的分类模型相同，可为任意的二分类模型。服务器可将潜在用户群中的潜在用户的特征标签向量输入到该分类模型中，并计算输出结果。若输出结果为1，则表示对应的潜在用户与推送信息具有一定的匹配度，为可投放推送信息的用户。若输出结果为0，则表示对应的潜在用户与推送信息不相符，可将其剔除，不作为投放推送信息的用户。其中，计算结果为1的潜在用户即为筛选出的潜在用户。服务器可仅对所筛选出的每个潜在用户的特征标签向量、特征权值向量以及聚类中心，计算对应潜在用户和每个类别的聚类中心的第一距离。

本实施例中，服务器可对所存储的海量的潜在用户在求取第一距离之前，进行筛选，以将剔除一部分与推送信息不匹配的潜在用户，使得无需再对该部分潜在用户进行第一距离的计算，从而可减少计算量，降低了对资源的占用，提高了对目标用户的选取效率。

在一个实施例中，从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤，包括：对第一距离进行总的排名；从总的排名中选取排名靠前的对应数量的潜在用户，作为用于推送信息的目标用户。

本实施例中，所述总的排名为不考虑分类而进行的混合排名，通过进行总的排名，可使得所选取的目标用户为所有潜在用户中，与准备推送的信息的某一个或多个种类的匹配度均是最高的，从而提高了目标用户选取的精准度。

在一个实施例中，从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤，包括：分别对每个类别对应的第一距离进行单独排名；从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为目标用户。

本实施例中，服务器还可直接提取每个类别下的潜在用户对应的第一距离，针对每个类别进行单独排名，分别从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为目标用户。

进一步的，服务器还可在计算出对应潜在用户和每个类别的聚类中心的第一距离后，可在该每个类别的聚类中心的第一距离中选取出最小第一距离，作为第三距离。并将该潜在用户设置一个与该最小第一距离对应的类别信息的类别标识。通过该类别标识，可获知对应潜在用户与那种类别的信息最匹配。

服务器可分别针对具有同一类别标识的所有潜在用户的第三距离进行排名，并从每种类别标识对应的潜在用户中选取出距离最小的对应数量的潜在用户，将其作为用于推送信息的目标用户。

其中，该对应数量既可根据不同类别的信息的需求进行配置。还可以根据针对每个类别信息对应设置一个距离阈值，并选取出对应类别中，小于该距离阈值的第三距离对应的潜在用户，将所选取出的潜在用户作为目标用户。所选取出的目标用户的数量即为第二数量。

本实施例中，通过针对每个类别对应的第一距离进行单独排名，并从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为目标用户，使得所选取的目标用户的数量可按照待推送的信息的类型进行合理的配置。

在一个实施例中，在从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤之后，还包括：向目标用户的终端发送与对应类别相匹配的推送信息。

本实施例中，服务器在选取出目标用户后，可对该目标用户设置相应的类别标识，并从准备推荐的信息中，选取与该类别标识相匹配的类别的信息，作为推送信息发送给目标用户。其中，服务器可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息。由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户所接受的概率也相对较高。

在一个实施例中，在从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤之后，还包括：将目标用户的信息发送给客户终端，以使客户终端推送信息至目标用户的终端。

本实施例中，服务器可将所选取出的目标用户的信息发送给服务商的客户终端，目标用户的信息包括目标用户的联系电话、邮箱以及与服务器对应的应用的使用账号(比如即时通讯账号)等其中的一种或多种，还包括对应的类别标识，使得客户终端在接收到该目标用户的信息后，可根据该类别标识获知与对应目标用户相匹配的推荐信息，进而可自己将相匹配的推荐信息发送给目标用户。同样的，客户终端也可采用短信或邮件等一种或多种推送方式向目标用户的终端发送与对应类别相匹配的推送信息，由于所选取的目标用户的精准度高，从而向目标用户发送对应的推送信息后，被目标用户所接受的概率也相对较高。

在一个实施例中，在向目标用户的终端发送与对应类别相匹配的推送信息的步骤之后，还包括：获取目标用户的反馈信息；根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量。

本实施例中，目标用户的反馈信息包括对应目标用户对所推荐的信息是否感兴趣的信息。目标用户的终端在接收到服务商的推荐信息后，可向服务器发送对该推荐信息感兴趣或者不感兴趣的反馈信息，服务器可接收目标用户的终端所发送的反馈信息，根据该反馈信息可获知目标用户对该推荐信息是否感兴趣。

进一步的，服务器可检测所获取的目标用户的反馈信息的数量是否达到预设数量，当反馈信息的数量达到预设数量时，则执行根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量。

对于有反馈信息的目标用户，可获取对该目标用户所划分的聚类。若该反馈信息表示目标用户对推荐信息感兴趣，则将该目标用户归类到对应类别的种子用户群中，根据归类后的种子用户群中对应用户的特征标签向量来更新对应的种子中心。若该反馈信息表示目标用户对推荐信息不感兴趣，则可将该目标用户的特征标签向量划分到负样本向量集中，并根据新形成的种子用户群中的特征标签向量所构成的正样本向量集，按照预设分类模型进行训练学习，生成新的特征权值向量。从而实现了对聚类中心和特征权值向量的更新，使获得的聚类中心和特征权值向量更加准确，从而在后续再次选取目标用户时，可使得所选取的目标用户更加精准。

在一个实施例中，如图7所示，根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤，包括：

步骤702，根据反馈信息确定目标用户是否为种子用户。

本实施例中，当该反馈信息表示目标用户对推荐信息感兴趣时，则可将该目标用户作为种子用户，将其归入到种子用户群中；当反馈信息表示目标用户对推荐信息不感兴趣时，则不将该目标用户归入到种子用户群中。

步骤704，当目标用户为种子用户时，将目标用户的特征标签向量加入到对应类别的聚类中。

对于划分为种子用户的目标用户，可根据该目标用户的类别标识获取到对应的信息的类别，并将该目标用户的特征标签向量加入到对应类别的聚类中，该聚类为由服务商所提供的种子用户的特征标签向量所形成的聚类。

步骤706，更新聚类的中心点，将更新后的中心点作为对应类别信息的聚类中心。

具体的，可按照上述的步骤510的计算方法，计算出相应的中心点，将该中心点作为对应类别的信息的聚类中心。通过更新聚类中心，可使得所确定的聚类中心的准确度更高，从而使得根据该聚类中心所选取的目标用户更加精准。

在一个实施例中，如图8所示，根据反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤，包括：

步骤802，根据反馈信息对目标用户划分所属样本向量集。

本实施例中，服务器可分别筛选出反馈信息表示对推荐信息感兴趣以及不感兴趣的目标用户，将所筛选出的感兴趣的目标用户的特征标签向量作为正样本，增加到正样本向量集中，将所筛选出的不感兴趣的目标用户的特征标签向量作为负样本，增加到负样本向量集中。

检测正样本向量集和负样本向量集中的样本数量是否相同，若不相同，可对正样本向量集或负样本向量集中的样本进行增加或删减，以使得正样本数量与负样本数量相同。

具体的，当负样本向量集的样本数量大于正样本向量集中的样本数量时，可对从负样本向量集中删减出超过数量的样本，其中，可优先删减之前的潜在用户群中获取的负样本特征标签向量。当负样本向量集的样本数量小于正样本向量集中的样本数量时，则可从潜在用户群中继续选取一定数量的潜在用户的特征标签向量，作为负样本，增加到负样本向量集中，以保持正样本数量与负样本数量相同。

步骤804，根据划分后的样本向量集，按照预设分类模型进行训练学习，更新特征权值向量。

分类模型与上述步骤606中的分类模型相同，可为任意的二分类模型。服务器可基于新的正样本向量集和负样本向量集进行二分类模型训练，重新计算各聚类下的特征权值向量，将重新计算出的特征权值向量作为对应类别的信息的特征权值向量。

本实施例中，通过根据反馈信息重新对相应的目标用户进行正负样本向量集的划分，并根据划分后的样本向量集来重新计算特征权值向量，使得所计算出的特征权值向量更能反映出对应特征标签所占的比重，从而使得根据该特征权值向量所选取的目标用户更加精准。

在一个实施例中，如图9所示，提供了一种用户选取装置，该装置包括：

特征标签向量获取模块902，用于获取每个种子用户的特征标签向量。

聚类中心计算模块904，用于根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心。

特征权值向量获取模块906，用于获取特征权值向量。

特征标签向量获取模块902还用于获取潜在用户群中的每个潜在用户的特征标签向量。

第一距离计算模块908，用于根据潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离。

目标用户选取模块910，用于从第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户。

在一个实施例中，第一距离计算模块908还用于根据分类模型对潜在用户群中的特征标签向量进行筛选；计算筛选出的每个潜在用户和每个类别的聚类中心的第一距离。

在一个实施例中，目标用户选取模块910还用于分别对每个类别对应的第一距离进行单独排名；从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为目标用户。

在一个实施例中，如图10所示，提供了另一种用户选取装置，该装置还包括：

信息推送模块912，用于向目标用户的终端发送与对应类别相匹配的推送信息。

在一个实施例中，如图11所示，提供了又一种用户选取装置，该装置还包括：

反馈信息获取模块914，用于获取目标用户的反馈信息。

聚类中心计算模块904还用于根据反馈信息更新每个类别的信息对应的聚类中心。

特征权值向量获取模块906还用于根据反馈信息更新每个类别的信息对应的特征权值向量。

在一个实施例中，如图12所示，聚类中心计算模块904还包括：

种子用户确定单元1202，用于根据反馈信息确定目标用户是否为种子用户；

聚类更新单元1204，用于当目标用户为种子用户时，将目标用户的特征标签向量加入到对应类别的聚类中；

聚类中心更新单元1206，用于更新聚类的中心点，将更新后的中心点作为对应类别信息的聚类中心。

在一个实施例中，如图13所示，特征权值向量获取模块906还包括：

样本向量集划分单元1302，用于根据反馈信息对目标用户划分所属样本向量集；

特征权值向量更新单元1304，用于根据划分后的样本向量集，按照预设模型进行训练学习，更新特征权值向量。

在一个实施例中，如图14所示，提供了再一种用户选取装置，该装置还包括：

目标用户推送模块916，用于将目标用户的信息发送给客户终端，以使客户终端推送信息至目标用户的终端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种用户选取方法，其特征在于，所述方法包括：

接收服务商的客户终端发送的用户选取请求，所述用户选取请求中包含服务商所需推送信息的具体分类、以及一定数量的种子用户的特征信息，并根据所述服务商提供的种子用户的特征信息构建对应的特征标签向量，所述种子用户为购买过或收藏过服务商的相关产品的用户；

根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心；所述第一数量与所述服务商准备推荐的信息所包含的种类数量相匹配，所述第一数量为对所述推送信息所分的类别的数量；所述聚类中心用于表征每个类别的信息对应的种子用户所共有的特征信息；

获取所述每个类别的信息对应的特征权值向量；

获取潜在用户群中的每个潜在用户的特征标签向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个潜在用户的特征标签向量、特征权值向量以及聚类中心，计算潜在用户和每个类别的聚类中心的第一距离的步骤，包括：

根据分类模型对所述潜在用户群中的特征标签向量进行筛选；

计算筛选出的每个潜在用户和每个类别的聚类中心的第一距离。

3.根据权利要求1所述的方法，其特征在于，所述从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤，包括：

分别对每个类别对应的第一距离进行单独排名；

从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为所述目标用户。

4.根据权利要求1所述的方法，其特征在于，在所述从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤之后，还包括：

向所述目标用户的终端发送与对应类别相匹配的推送信息。

5.根据权利要求4所述的方法，其特征在于，在所述向所述目标用户发送与对应类别相匹配的推送信息的步骤之后，还包括：

获取所述目标用户的反馈信息；

根据所述反馈信息更新每个类别的信息对应的聚类中心和特征权值向量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤，包括：

根据所述反馈信息确定所述目标用户是否为种子用户；

当所述目标用户为种子用户时，将所述目标用户的特征标签向量加入到对应类别的聚类中；

更新所述聚类的中心点，将更新后的中心点作为对应类别信息的聚类中心。

7.根据权利要求5所述的方法，其特征在于，所述根据所述反馈信息更新每个类别的信息对应的聚类中心和特征权值向量的步骤，包括：

根据所述反馈信息对所述目标用户划分所属样本向量集；

根据划分后的样本向量集，按照预设模型进行训练学习，更新特征权值向量。

8.根据权利要求1所述的方法，其特征在于，在所述从所述第一距离中选取距离最短的第二数量的潜在用户，作为用于推送信息的目标用户的步骤之后，还包括：

将所述目标用户的信息发送给客户终端，以使所述客户终端推送信息至所述目标用户的终端。

9.一种用户选取装置，其特征在于，所述装置包括：

特征权值向量获取模块，用于接收服务商的客户终端发送的用户选取请求，所述用户选取请求中包含服务商所需推送信息的具体分类、以及一定数量的种子用户的特征信息，并根据所述服务商提供的种子用户的特征信息构建对应的特征标签向量，所述种子用户为购买过或收藏过服务商的相关产品的用户；

聚类中心计算模块，用于根据所有种子用户的特征标签向量计算预设的第一数量的信息类别中，每个类别的信息对应的聚类中心；所述第一数量与所述服务商准备推荐的信息所包含的种类数量相匹配，所述第一数量为对所述推送信息所分的类别的数量；所述聚类中心用于表征每个类别的信息对应的种子用户所共有的特征信息；

10.根据权利要求9所述的装置，其特征在于，

所述第一距离计算模块还用于根据分类模型对所述潜在用户群中的特征标签向量进行筛选；计算筛选出的每个潜在用户和每个类别的聚类中心的第一距离。

11.根据权利要求9所述的装置，其特征在于，

所述目标用户选取模块还用于分别对每个类别对应的第一距离进行单独排名；从每个类别的排名中选取排名靠前的对应数量的潜在用户，作为所述目标用户。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

信息推送模块，用于向所述目标用户的终端发送与对应类别相匹配的推送信息。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

反馈信息获取模块，用于获取所述目标用户的反馈信息；

所述聚类中心计算模块还用于根据所述反馈信息更新每个类别的信息对应的聚类中心；

所述特征权值向量获取模块还用于根据所述反馈信息更新每个类别的信息对应的特征权值向量。

14.根据权利要求13所述的装置，其特征在于，所述聚类中心计算模块还包括：

种子用户确定单元，用于根据所述反馈信息确定所述目标用户是否为种子用户；

聚类更新单元，用于当所述目标用户为种子用户时，将所述目标用户的特征标签向量加入到对应类别的聚类中；

聚类中心更新单元，用于更新所述聚类的中心点，将更新后的中心点作为对应类别信息的聚类中心。

15.根据权利要求13所述的装置，其特征在于，所述特征权值向量获取模块还包括：

样本向量集划分单元，用于根据所述反馈信息对所述目标用户划分所属样本向量集；

特征权值向量更新单元，用于根据划分后的样本向量集，按照预设模型进行训练学习，更新特征权值向量。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

目标用户推送模块，用于将所述目标用户的信息发送给客户终端，以使所述客户终端推送信息至所述目标用户的终端。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。