CN113538029A

CN113538029A - 用户行为数据预测方法、装置、设备及介质

Info

Publication number: CN113538029A
Application number: CN202010320438.3A
Authority: CN
Inventors: 应嶒珺; 何怡; 陈晨
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-10-22

Abstract

本发明公开了一种用户行为数据预测方法、装置、设备及介质。获取目标用户的历史行为数据及身份特征数据；将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果；将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果。根据本发明实施例，能够提高用户行为数据预测的准确性。

Description

用户行为数据预测方法、装置、设备及介质

技术领域

本发明属于计算机技术领域，尤其涉及一种用户行为数据预测方法、用户行为数据预测装置、用户行为数据预测设备及计算机可读存储介质。

背景技术

用户的行为数据是企业各种经营活动的向导。从市场营销角度来看，当企业掌握用户的行为数据后，例如用户的通信消费及其用量，例如流量、通话量等，就可以合理、有针对性地向用户推荐相关商品，提高销售量。因此，研究用户的用户行为数据是市场营销研究的重要内容，对正确引导居民消费和指导企业制定科学合理的推荐策略都具有重要的理论和现实意义。

然而目前对用户行为数据的预测还不够准确，因此，亟需一种新的用户行为数据预测方案。

发明内容

本发明实施例提供一种用户行为数据预测方法、装置、设备及介质，能够提高用户行为数据预测的准确性。

第一方面，本发明实施例提供一种用户行为数据预测方法，方法包括：

获取目标用户的历史行为数据及身份特征数据；

将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；

将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果；

将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果。

在第一方面一种可能的实施方式中，该方法还包括训练聚类模型；训练聚类模型，包括：

获取训练样本集及测试样本集，训练样本集及测试样本集包括多个用户数据，每个用户数据包括用户历史行为数据及用户身份特征数据；

利用训练样本集及测试样本集对聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的聚类模型。

在第一方面一种可能的实施方式中，利用训练样本集及测试样本集对聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的聚类模型，包括：

利用训练样本集及测试样本集对聚类模型进行初始训练，得到初始训练后的聚类模型；

将训练样本集输入初始训练后的聚类模型，得到多个聚类族；其中，每个聚类族为一个用户类别；

针对每个聚类族构建第一分类器；

利用各第一分类器的学习结果，训练第二分类器；

利用第二分类器的Kappa系数对初始训练后的聚类模型进行迭代训练，直至满足预设的训练停止条件，得到最终训练后的聚类模型。

在第一方面一种可能的实施方式中，聚类模型为基于谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法构建的，利用训练样本集及测试样本集训练聚类模型，包括：

将谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法聚类族的数量设置为相同数值；

利用谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对训练样本集进行聚类；

利用Calinski-Harabasz指数法及测试样本集，优化谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法中除聚类族的数量之外的参数，得到优化后的谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法。

在第一方面一种可能的实施方式中，将训练样本集输入初始训练后的聚类模型，得到多个聚类族，包括：

用优化后的谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对训练样本集进行聚类，得到谱聚类算法对应的第一聚类族编号信息、Birch聚类算法对应的第二聚类族编号信息及Agglomerative Clustering聚类算法对应的第三聚类族编号信息；

分别计算第二聚类族编号信息及第三聚类族编号信息与第一聚类族编号信息的重合度，并保留重合度最大的第二聚类族编号信息及第三聚类族编号信息；

利用投票机制从第一聚类族编号信息、重合度最大的第二聚类族编号信息及第三聚类族编号信息中确定最终的聚类族编号信息；

对应的，针对每个聚类类别信息构建第一分类器，包括：

针对每个最终的聚类族编号信息及每个聚类族内的用户历史行为数据，构建第一分类器。

在第一方面一种可能的实施方式中，针对每个聚类族构建第一分类器，包括：

针对每个聚类族，基于逻辑回归、决策树、随机森林及多层感知器构建第一分类器。

在第一方面一种可能的实施方式中，利用第二分类器的Kappa系数对聚类模型进行迭代训练，直至满足预设的训练停止条件，得到最终训练后的聚类模型，包括：

设置聚类族数量的取值区间及迭代步长，计算各数量下的第二分类器的Kappa系数；

将各Kappa系数中最大的Kappa系数对应的数量作为聚类模型的最优聚类族数量，得到最终训练后的聚类模型。

第二方面，本发明实施例提供了一种用户行为数据预测装置，装置包括：

数据获取模块，用于获取目标用户的历史行为数据及身份特征数据；

类别确定模块，用于将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；

第一预测模块，用于将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果；

第二预测模块，用于将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果。

第三方面，本发明实施例提供了一种用户行为数据预测设备，设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的用户行为数据预测方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的用户行为数据预测方法。

本发明实施例提供的用户行为数据预测方法、装置、设备及计算机存储介质，通过将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；进一步的将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果，并最终将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果，得到目标用户行为数据最终预测结果。一方面，针对不同用户类别间具有差异性，每个用户类别均具有对应的第一分类器，利用与目标用户所属的用户类别相匹配的第一分类器对目标用户行为数据进行初始预测，所得初始预测结果更符合目标用户的行为特点，进而所得初始预测结果更准确；另一方面，利用两级分类器对目标用户行为数据进行二级预测，所得最终预测结果更准确，从而提高用户行为数据预测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的用户行为数据预测方法的流程示意图；

图2是本发明一个实施例提供的对聚类模型训练的逻辑示意图；

图3是本发明另一个实施例提供的对聚类模型训练的逻辑示意图；

图4是本发明一个实施例提供的第一分类器及第二分类器的预测流程示意图；

图5是本发明一个实施例提供的用户行为数据预测装置的结构示意图；

图6是本发明一个实施例提供的用户行为数据预测设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于个体用户通信消费及其用量(例如流量、通话量)的预测，有助于运营商做出适当的商业调整，完成经营目标。但是目前的技术方案中，在对通信用户的消费进行预测时，存在只能预测总体值，没有考虑到用户群的差异，不能就个人情况进行分析，无法选取出重点关注用户群等问题。

为了解决现有技术问题中的至少一个，本发明实施例提供了一种用户行为数据预测方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的用户行为数据预测方法进行介绍。

图1示出了本发明一个实施例提供的用户行为数据预测方法的流程示意图。如图1所示，本发明实施例提供的用户行为数据预测方法包括以下步骤：

步骤110，获取目标用户的历史行为数据及身份特征数据；

步骤120，将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；

步骤130，将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果；

步骤140，将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果。

根据本发明实施例提供的用户行为数据预测方法，通过将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；进一步的将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果，并最终将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果，得到目标用户行为数据最终预测结果。一方面，针对不同用户类别间具有差异性，每个用户类别均具有对应的第一分类器，利用与目标用户所属的用户类别相匹配的第一分类器对目标用户行为数据进行初始预测，所得初始预测结果更符合目标用户的行为特点，进而所得初始预测结果更准确；另一方面，利用两级分类器对目标用户行为数据进行二级预测，所得最终预测结果更准确，从而提高用户行为数据预测的准确性。

在一些可选的实施例中，本发明实施例提供的用户行为预测该方法还可以包括训练聚类模型；具体的，训练聚类模型可以包括：获取训练样本集及测试样本集，训练样本集及测试样本集包括多个用户数据，每个用户数据包括用户历史行为数据及用户身份特征数据；利用训练样本集及测试样本集对聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的聚类模型。

示例性的，以通信用户为例进行说明，用户的历史行为数据可以包括用户的信令数据，信令数据能够较为合理的评估用户的物理活跃水平；用户身份特征数据可以包括用户年龄、网龄、性别等，用户身份特征数据可以区分用户的消费模式。

示例性的，可以从大数据平台抽样较多数量的用户，例如抽取10万个用户的历史行为数据及身份特征数据，并按照训练样本集与测试样本集为2:1的比例进行聚类模型的训练。

示例性的，训练样本集及测试样本集可以是均用户的历史行为数据及身份特征数据。例如，历史行为数据为用户的历史信令数据，用户的历史信令数据比较敏感脱敏成产生的轨迹条数，最远点距离，并将用户标识加密处理。可以把用户的历史信令数据中用户的消费量的连续型变量处理成三分类变量，分别为用量提升、用量下降、用量在其5％的波动区间内。用量可以是用户使用流量、通话量等。可以选取相关用量指标的前三个月平均、前半年至前三个月平均、前一年至前半年平均及前一年之前的平均作为聚类模型的输入变量。

示例性的，可以利用训练样本集不断调整聚类模型的初始参数，利用测试样本集测试聚类模型在初始参数下的聚类结果是否符合测试样本集的实际情况，若不符合，则不断调整聚类模型的初始参数，直至利用测试样本集测试聚类模型在调整后的初始参数下的聚类结果符合测试样本集的实际情况。

图2是本发明一个实施例提供的对聚类模型训练的逻辑示意图。如图2所示，本发明实施例可以对多个用户在同一时间的消费情况形成聚类分布，一个用户在网龄期间的消费情况形成个体生命曲线，而具有类似个体生命曲线的用户群组成同类生命曲线用户群，例如生命曲线A、生命曲线B、生命曲线C等，同类生命曲线的用户在时间轴的消费表现上将体现出相似性，进而适合分别用分类器模型来拟合。图2中一个生命曲线可以理解为一个用户类别。

另外，用户消费量的生命曲线可以有多种形状，在一个横截面数据中，虽然截面数据只能体现出一个时间点的用户情况，但是用户的生命曲线与聚类均受到用户身份特征数据(如年龄、性别、职业等)及当前的用户信令数据的影响，因此，根据本发明实施例的聚类模型能够很好的模拟用户属于的生命曲线的类别，即能够准确的确定待预测的目标用户所属的用户类别。

在一些可选的实施例中，利用训练样本集及测试样本集对聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的聚类模型，可以包括：利用训练样本集及测试样本集对聚类模型进行初始训练，得到初始训练后的聚类模型；将训练样本集输入初始训练后的聚类模型，得到多个聚类族；其中，每个聚类族为一个用户类别；针对每个聚类族构建第一分类器；利用各第一分类器的学习结果，训练第二分类器；利用第二分类器的Kappa系数对初始训练后的聚类模型进行迭代训练，直至满足预设的训练停止条件，得到最终训练后的聚类模型。

可以理解为各第一分类器及第二分类器构成了可监督的集成模型。第一分类器可以是弱分类器，第二分类器可以是强分类器。

请参考图2和图3，本发明利用自主学习技术及集成技术来预测用户的消费量变化情况，用信令数据(评估用户的物理活跃水平)、用户年龄、网龄、性别等输入变量，形成用户初始聚类，对不同类别客户构建集成可监督模型的第一分类器，在集成学习过程中独立的第一分类器的输出作为特征成为可监督模型的第二分类器的输入，通过整个可监督模型的输出结果，用于动态调整聚类模型参数，实现动态优化过程，最终获得预测准确率的提升。

在一些可选的实施例中，聚类模型为基于谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法构建的，利用训练样本集及测试样本集训练聚类模型，可以包括：将谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法聚类族的数量设置为相同数值；利用谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对训练样本集进行聚类；利用Calinski-Harabasz指数法及测试样本集，优化谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法中除聚类族的数量之外的参数，得到优化后的谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法。

鉴于单一聚类模型只能拟合部分生命曲线形状的模型，在此分别选择处理稀疏矩阵和高维矩阵效果较好的谱聚类算法，擅长处理大量数据的Birch聚类算法以及原理最为简单但可以通过调整参数适应各种数据集的Agglomerative Clustering聚类算法。

以上三种聚类算法的共同特点是，都可以为其指定聚类个数，可以通过给与三种算法共同的聚类族数量(n_clusters)值，在利用第二分类器的Kappa系数对初始训练后的聚类模型进行迭代训练的过程中，可以对多个n_clusters值进行遍历，得到Kappa值，评估聚类模型效果，从中选出最优的n_clusters值。

示例性的，可以单独对各个聚类算法构建的聚类模型进行测试，调整除聚类族数量n_clusters外的其他参数。可以使用轮廓系数Calinski-Harabasz Index评估模型聚类效果，Calinski-Harabasz Index的表达式(1)如下：

s(k)＝(tr(Bk)/tr(Wk))*((m-k)/(k-1)) (1)

其中，m为训练样本集的数量，k为聚类族的数量。Bk为聚类族之间的协方差矩阵，Wk为聚类族内部数据的协方差矩阵，tr为矩阵的迹。

针对数据集，可以将Agglomerative Clustering聚类算法中的affinity参数置为'euclidean'，linkage参数置为'complete'；可以将Birch聚类算法中branching_factor参数置为5000，threshold参数置为10；可以将谱聚类中的gamma参数置为0.01。

在所有参数设置完毕之后，可以分别使用这三种聚类算法对用户进行聚类，输出聚类结果。

根据本发明实施例，采用多种聚类算法构建聚类模型，能够更好地拟合各种生命曲线特征的用户，从而提高聚类的准确性。

在一些实施例中，将训练样本集输入初始训练后的聚类模型，得到多个聚类族，可以包括：用优化后的谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对训练样本集进行聚类，得到谱聚类算法对应的第一聚类族编号信息、Birch聚类算法对应的第二聚类族编号信息及Agglomerative Clustering聚类算法对应的第三聚类族编号信息；分别计算第二聚类族编号信息及第三聚类族号信息与第一聚类族编号信息的重合度，并保留重合度最大的第二聚类族号信息及第三聚族编号信息；利用投票机制从第一聚类族编号信息、重合度最大的第二聚类族编号信息及第三聚类族编号信息中确定最终的聚类族编号信息；对应的，针对每个聚类类别信息构建第一分类器，包括：针对每个最终的聚类族编号信息及每个聚类族内的用户历史行为数据，构建第一分类器。

由于每个聚类算法构建的聚类模型对数据的编号存在差异，在此处可以以谱聚类聚类算法的编号为基准，分别对Birch聚类算法和Agglomerative Clustering聚类算法的所有编号结果进行遍历，保留重合度最高的一种编号结果。示例性的，假设将数据一共分为三类，Birch聚类算法和谱聚类聚类算法的初始分类重合度仅为10％，将Birch聚类的编号(1，2，3)类改为(2，1，3)类后，重合度提升至50％；将Birch聚类的(1，2，3)类改为(3，1，2)类后，重合度降至5％；将Birch聚类的(1，2，3)类改为(1，3，2)类后，重合度降至8％；将Birch聚类的(1，2，3)类改为(3，2，1)类后，重合度提升至40％；将Birch聚类的(1，2，3)类改为(2，3，1)类后，重合度提升至90％。由此将Birch聚类结果的所有1编号改为2，将所有2编号改为3，将所有3编号改为1。

此后，根据三种编号结果，对每一条数据进行投票，如果一共存在两种编号结果，则选择数量较多的那种；如果三种编号结果皆不同，则以谱聚类的编号结果为准。最终得出每一条数据的聚类编号，从而进一步提高聚类的准确性。

进一步的，可以记录聚类模型的输出结果。输出结果可以包括聚类族标识Cluster1，Cluster2，Cluster3等，及聚类族大小N_C1，N_C2，N_C3等输出变量。聚类族大小可以理解为聚类族包含的用户数量。

在一些可选的实施例中，针对每个聚类族构建第一分类器，可以包括：针对每个聚类族，基于逻辑回归、决策树、随机森林及多层感知器构建第一分类器。

第一分类器选择逻辑回归，决策树，随机森林及多层感知器分类器实现。其中，二元逻辑回归公式(1)如下：

P(y＝1|x,θ)＝hθ(x)＝1/(1+e-xθ)＝exθ/(1+exθ)

P(y＝0|x,θ)＝1-hθ(x)＝1/(1+exθ) (2)

其中x是样本特征值，θ代表样本编号，y取值{0，1}代表正例与负例。

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。

随机森林算法在bagging算法基础上，使用CART决策树作为基学习器，从原始数据集中随机抽取N个子样本，并随机选取M个特征，从中选择最优的特征来切分节点，从而降低模型方差，提高模型准确率。

多层感知机(Multilayer Perceptron，MLP)，也叫人工神经网络(ArtificialNeural Network，ANN)，由全连接的输入层、隐藏层、输出层构成，公式(3)如下：

f(x)＝G(b⁽²⁾+W⁽²⁾(s(b⁽¹⁾+W⁽¹⁾x)))， (3)

其中，G为softmax，W为权重，b为偏置。

在调用各个分类器时，可以选择最优的参数。申请人经过多次试验得到，在调用决策树时，可以使用“gini”作为评判标准，将最小叶节点置为10，随机数字发生器置为0；在调用随机森林算法时，可以使用“gini”作为评判标准，将最小叶节点置为10，随机数字发生器置为1；在调用多层感知机时，可以使用“relu”作为激活函数，使用“adam”作为solver来优化权重，将正则化项参数alpha置为0.0001。

根据本发明实施例，基于逻辑回归、决策树、随机森林及多层感知器构建第一分类器，能够提高第一分类器的准确性。

在一些实施例中，利用第二分类器的Kappa系数对初始训练后的聚类模型进行迭代训练，直至满足预设的训练停止条件，得到最终训练后的聚类模型，可以包括：设置聚类族数量的取值区间及迭代步长，计算各数量下的第二分类器的Kappa系数；将各Kappa系数中最大的Kappa系数对应的数量作为聚类模型的最优聚类族数量，得到最终训练后的聚类模型。

在介绍利用Kappa系数对聚类模型进行训练之前，以下先介绍第一分类器及第二分类器的预测过程。

第一分类器及第二分类器构成可监督的集成模型，将第一分类器结合策略，构建第二分类器。可以将第一分类器对训练样本集的学习结果作为第二分类器的输入，将训练样本集的输出作为第二分类器的输出，来训练第二分类器，得到对待预测的目标用户行为数据的最终预测结果。例如，预测结果可以包括用户未来消费水平变化情况，最终预测的分类变量可以为用户消费量降低，用户消费量上升及用户消费量维持原有水平。示例性的，用户消费量波动在5％以内，视为用户消费量维持原有水平。

图4是本发明一个实施例提供的第一分类器及第二分类器的预测流程示意图。示例性的，聚类结果信息包括Cluster_N个聚类族，对应的则具有N个第一分类器，每个第一分类器针对对应的聚类族分别利用逻辑回归预测出第一预测结果P1、利用决策树预测出第二预测结果P2、利用随机森林预测出第三预测结果P3、利用多层感知机预测出第四预测结果P4。进一步的，第二分类器根据第一分类器的第一预测结果P1、第二预测结果P2、第三预测结果P3、第四预测结果P4，得到最终预测结果Pf。示例性的，可以训练第一预测结果P1、第二预测结果P2、第三预测结果P3、第四预测结果P4各自对应的权重系数。这里，最终预测结果Pf可以仍旧是每个个体判准率的计算。

另外，可以使用支持向量机作为第二分类器。第二分类器可以理解为元分类器。支持向量机(Support Vector Machine,SVM)是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。模型根据场景不同总共可分为三类：当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机。可以调用svm函数，并多次训练，选择最优的参数，可以将惩罚系数置为0.1以增加泛化能力，使用高斯核作为核函数。

至此有了初始训练后的聚类模型及其输出，以及监督模型(第一分类器和第二分类器)及其初始化输出，可以利用迭代过程训练聚类模型的参数。由于聚类模型属于多分类模型，无法简单地用混淆矩阵来衡量模型，本发明实施例采用Kappa系数作为评价标准。

示性的，利用Kappa系数对聚类模型具体可以包括：首先，可以设置初始化聚类族数量k＝2；利用公式(4)计算在k＝2的分类下，可监督模型中第二分类器的Kappa系数；

其中，Po表示预测正确的比例，Pe表示每一项的预测值和每一项的实际值的乘积之和除以总数的平方。Po的计算式(5)及Pe计算式(6)可以分别如下：

Po＝Σi(matrix[i][i])/sum(matrix) (5)

Pe＝Σi(sum(matrix[i,:])*sum(matrix[:,i]))/(n*n) (6)

其中，matrix代表矩阵，i是矩阵中的位置，n是总样本数。

进一步的，设置k的取值区间，考虑到聚类族的数量会影响到监督模型中第一分类器的数量，可以设定k从2开始，步长为1，迭代20次。遍历k，计算在聚类族的数量参数下的Kappa系数。可以取Max(Kappa(k))下的k，得到在此迭代下的最优结果。最后可根据上述公式(4)求得评价系数Kappa。

另外，最终预测效果可利用传统的判准率方法来判断。用抽样测试数据验证，平均指标判准率提升8.7％。

至此根据本发明实施例，首先聚类形成不同类别客户，再构建集成可监督模型，可监督模型包括第一分类器和第二分类器，通过整个可监督模型的输出结果，再用于动态调整聚类模型参数，从而实现动态优化过程，提高了对用户行为数据的预测准确性。并且，考虑了用户群内的生命周期曲线的相似性及群间的差异性，聚类后分别构建第一分类器。

图5是本发明一个实施例提供的用户行为数据预测装置的结构示意图。如图5所示，本发明实施例提供的用户行为数据预测装置包括以下模块：

数据获取模块501，用于获取目标用户的历史行为数据及身份特征数据；

类别确定模块502，用于将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；

第一预测模块503，用于将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果；

第二预测模块504，用于将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果。

在一些可选的实施例中，该装置还可以包括训练模块，训练模块具体可以用于：

在一些可选的实施例中，训练模块具体可以用于：

针对每个聚类族构建第一分类器；

利用各第一分类器的学习结果，训练第二分类器；

在一些可选的实施例中，聚类模型为基于谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法构建的，利用训练样本集及测试样本集训练聚类模型，训练模块具体可以用于：

在一些可选的实施例中，训练模块具体可以用于：

对应的，针对每个聚类类别信息构建第一分类器，包括：

在一些可选的实施例中，训练模块具体可以用于：

本发明实施例提供的用户行为数据预测装置，通过将目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到目标用户所属的用户类别；进一步的将目标用户的历史行为数据输入与目标用户所属的用户类别对应的第一分类器，得到目标用户行为数据初始预测结果，并最终将目标用户行为数据初始预测结果输入第二分类器，得到目标用户行为数据最终预测结果，得到目标用户行为数据最终预测结果。一方面，针对不同用户类别间具有差异性，每个用户类别均具有对应的第一分类器，利用与目标用户所属的用户类别相匹配的第一分类器对目标用户行为数据进行初始预测，所得初始预测结果更符合目标用户的行为特点，进而所得初始预测结果更准确；另一方面，利用两级分类器对目标用户行为数据进行二级预测，所得最终预测结果更准确，从而提高用户行为数据预测的准确性。

图6示出了本发明实施例提供的用户行为数据预测设备的硬件结构示意图。

在用户行为数据预测设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关容灾设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种用户行为数据预测方法。

在一个示例中，用户行为数据预测设备还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将用户行为数据预测设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该用户行为数据预测设备可以执行本发明实施例中的用户行为数据预测方法，从而实现结合图1和图5描述的用户行为数据预测方法和装置。

另外，结合上述实施例中的用户行为数据预测方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户行为数据预测方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种用户行为数据预测方法，其特征在于，包括：

获取目标用户的历史行为数据及身份特征数据；

将所述目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到所述目标用户所属的用户类别；

将所述目标用户的历史行为数据输入与所述目标用户所属的用户类别对应的第一分类器，得到所述目标用户行为数据初始预测结果；

将所述目标用户行为数据初始预测结果输入第二分类器，得到所述目标用户行为数据最终预测结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括训练所述聚类模型；所述训练所述聚类模型，包括：

获取训练样本集及测试样本集，所述训练样本集及测试样本集包括多个用户数据，每个所述用户数据包括用户历史行为数据及用户身份特征数据；

利用所述训练样本集及测试样本集对所述聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的所述聚类模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述训练样本集及测试样本集对所述聚类模型进行迭代训练，直至满足预设的训练停止条件，得到训练后的所述聚类模型，包括：

利用所述训练样本集及所述测试样本集对所述聚类模型进行初始训练，得到初始训练后的所述聚类模型；

将所述训练样本集输入初始训练后的所述聚类模型，得到多个聚类族；其中，每个所述聚类族为一个所述用户类别；

针对每个所述聚类族构建第一分类器；

利用各所述第一分类器的学习结果，训练所述第二分类器；

利用所述第二分类器的Kappa系数对初始训练后的所述聚类模型进行迭代训练，直至满足所述预设的训练停止条件，得到最终训练后的所述聚类模型。

4.根据权利要求3所述的方法，其特征在于，所述聚类模型为基于谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法构建的，所述利用所述训练样本集及所述测试样本集训练所述聚类模型，包括：

将所述谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法聚类族的数量设置为相同数值；

利用所述谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对所述训练样本集进行聚类；

利用Calinski-Harabasz指数法及所述测试样本集，优化所述谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法中除所述聚类族数量之外的参数，得到优化后的所述谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法。

5.根据权利要求4所述的方法，其特征在于，所述将所述训练样本集输入初始训练后的所述聚类模型，得到多个聚类族，包括：

用优化后的所述谱聚类算法、Birch聚类算法及Agglomerative Clustering聚类算法分别对所述训练样本集进行聚类，得到所述谱聚类算法对应的第一聚类族编号信息、所述Birch聚类算法对应的第二聚类族编号信息及Agglomerative Clustering聚类算法对应的第三聚类族编号信息；

分别计算所述第二聚类族编号信息及所述第三聚类族编号信息与所述第一聚类族编号信息的重合度，并保留重合度最大的所述第二聚类族编号信息及所述第三聚类族编号信息；

利用投票机制从所述第一聚类族编号信息、重合度最大的所述第二聚类族编号信息及所述第三聚类族编号信息中确定最终的聚类族编号信息；

对应的，所述针对每个所述聚类类别信息构建所述第一分类器，包括：

针对每个所述最终的聚类族编号信息及每个所述聚类族内的所述用户历史行为数据，构建所述第一分类器。

6.根据权利要求3所述的方法，其特征在于，所述针对每个所述聚类族构建所述第一分类器，包括：

针对每个所述聚类族，基于逻辑回归、决策树、随机森林及多层感知器构建所述第一分类器。

7.根据权利要求3所述的方法，其特征在于，所述利用所述第二分类器的Kappa系数对初始训练后的所述聚类模型进行迭代训练，直至满足所述预设的训练停止条件，得到最终训练后的所述聚类模型，包括：

设置所述聚类族数量的取值区间及迭代步长，计算各数量下的所述第二分类器的Kappa系数；

将各所述Kappa系数中最大的Kappa系数对应的数量作为所述聚类模型的最优聚类族数量，得到最终训练后的所述聚类模型。

8.一种用户行为数据预测装置，其特征在于，所述装置包括：

类别确定模块，用于将所述目标用户的历史行为数据及身份特征数据输入训练后的聚类模型，得到所述目标用户所属的用户类别；

第一预测模块，用于将所述目标用户的历史行为数据输入与所述目标用户所属的用户类别对应的第一分类器，得到所述目标用户行为数据初始预测结果；

第二预测模块，用于将所述目标用户行为数据初始预测结果输入第二分类器，得到所述目标用户行为数据最终预测结果。

9.一种用户行为数据预测设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的用户行为数据预测方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的用户行为数据预测方法。