CN109858974A

CN109858974A - 已购车用户识别模型构建方法及识别方法

Info

Publication number: CN109858974A
Application number: CN201910123326.6A
Authority: CN
Inventors: 王茜竹; 韦青霞; 范兴容; 杨晓雅; 许国良; 雒江涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-07

Abstract

本发明公开了一种已购车用户识别模型构建方法及识别方法，本发明针对已购车用户特征维度高，数据量大，为了保证特征信息最大化的同时降低训练复杂度，引入了特征分层处理思想，并利用了xgboost训练属性重要性分数来进行特征选择，达到了数据降维的目的，构建基于xgboost的学习模型动态特征提取，其次考虑特征的全面性，构建特征组合来提升分类的效果。针对xgboost参数的调优，利用pso的全局搜索以及记忆特点来弥补xgboost算法多个参数调优收敛速度慢，易陷入局部最优解和正确率波动大的缺陷，并应用最优参数组合来构建基于pso_xgb的已购车用户识别模型对已购车用户特征进行训练，提升了模型的准确度。

Description

已购车用户识别模型构建方法及识别方法

技术领域

本发明涉及移动用户画像以及计算机应用技术领域，更具体地说，涉及一种已购车用户识别模型构建方法及识别方法。

背景技术

用户画像是指根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。随着我国经济社会持续快速发展，群众购车刚性需求旺盛，汽车保有量持续呈快速增长趋势。据统计，截至2018年9月，全国机动车保有量达3.22亿辆，其中汽车2.35亿辆，占机动车总量的72.91％；第三季度新注册登记机动车达741万辆，其中新注册登记汽车达652万辆；机动车驾驶人达4.03亿人，其中汽车驾驶人达3.63亿人。一方面，汽车服务行业如车险、汽车保养等需要聚焦已购车用户群体从而开展业务推广；另一方面，已购车用户通常意味着较高收入人群，锁定此类群体可谓商机无限。而目前仅有少部分机构能够掌握已购车用户信息，对于未掌握已购车用户信息而又有此方面需求的机构来说具有相当大的困扰，如果通过技术手段能够进行已购车用户的自动识别就能够打通这些机构与已购车用户之间交互的壁垒，于是已购车用户的自动识别就成为了一个亟需解决的技术问题。

发明内容

为解决上述技术问题，本发明提供一种已购车用户识别模型构建方法及识别方法。

本发明采用的技术方案是：

一种已购车用户识别模型构建方法，包括：

S1：获取目标用户群中各目标用户的已购车用户识别数据，所述已购车用户识别数据具有多个特征；

S2：对所述特征进行分类，得到动态特征和静态特征；

S3：基于极值梯度提升xgboost模型得到每一所述动态特征在所述xgboost模型中的重要性得分，筛选出重要性得分满足预设条件的动态特征作为目标动态特征；

S4：利用所述目标动态特征和所述静态特征进行组合产生新的组合特征；

S5：利用粒子群优化pso算法确定xgboost模型的学习参数的取值；

S6：使用所述组合特征和所述学习参数的取值构建分类器模型，得到已购车用户识别模型。

可选的，步骤S1包括：

S11：获取目标用户群中各目标用户的与已购车行为相关的原始数据；

S12：对所述原始数据进行预处理得到已购车用户识别数据。

可选的，步骤S12包括：

S121：对所述原始数据进行数据清洗；

S122：针对清洗后的数据，对其进行数值型处理和类别型处理从而得到已购车用户识别数据。

可选的，所述动态特征包括应用程序APP使用特征、位置信息特征、短信交互特征以及语音交互特征中的至少一种，所述静态特征包括性别以及年龄。

可选的，步骤S3中将各动态特征的重要性得分按照由高到低的顺序进行排列，筛选出重要性得分排序在前的预设数量的动态特征作为目标动态特征。

可选的，步骤S5包括：

S51：将xgboost模型的每一学习参数抽象成一个粒子，并设置每一粒子的初始位置和初始速度；

S52：基于各个粒子的目标函数，根据各个粒子当前的位置和速度计算出每一粒子当前的个体最优位置和n个粒子当前的群体最优位置；

S53：更新各个粒子的速度和位置；

S54：基于各个粒子的目标函数，根据各个粒子更新后的位置和速度计算出每一粒子当前的个体最优位置和n个粒子当前的群体最优位置；

S55：判断是否达到终止条件，如是，转至S56，否则，转至S53继续进行迭代；

S56：根据各个粒子当前对应的位置确定其对应的学习参数的取值。

可选的，步骤S52和步骤S54中，针对每一粒子，根据其当前的位置特点确定其对应的xgboost模型结构，将样本数据输入所述xgboost模型结构后，根据目标函数计算该粒子的适应值，其中，y_i代表期望结果，Y_i代表实际结果，N代表样本总数，并选取迭代过程中最小适应值对应的位置作为该粒子的个体最优位置。

可选的，步骤S55中判断是否达到终止条件包括：判断迭代次数是否达到预设迭代次数阈值，或判断n个粒子的整体适应值是否小于等于预设整体适应值阈值。

可选的，步骤S53中根据公式更新每一粒子的速度，根据公式更新每一粒子的位置；

其中，x_i＝(x_i1,x_i2,…,x_is)表示粒子i的位置，υ_i＝(υ_i1,υ_i2,…,υ_is)表示粒子i的速度，pbest_is＝(p_i1,p_i2,…,p_is)表示粒子i个体经过的最优位置，gbest_s＝(g₁,g₂,…,g_s)表示群体经历的最优位置，表示第k次迭代粒子i飞行速度矢量的第d维分量，表示第k次迭代粒子i位置矢量的第d维分量，γ₁和γ₂表示在0-1之间的随机数，1≤d≤s，w表示惯性权重，c₁和c₂表示学习因子。

进一步地，本发明还提供一种已购车用户识别方法，包括：

获取待识别用户的已购车用户识别数据；

将该已购车用户识别数据输入上述任意一种已购车用户识别模型中，并根据该模型的输出结果确定所述待识别用户为已购车用户还是未购车用户。

本发明利用已购车用户识别模型构建方法及识别方法识别出已购车用户，已购车用户是指已经发生过购买车辆行为的用户，以此为依据来提供标签给金融行业进行产品的营销，如ETC信用卡、购车贷款等产品，高价值的用户画像标签对金融行业营销存在着重要现实意义；本发明将移动数据价值最大化同时寻找精确的已购车用户特征指标，设备要求相对简单，从海量数据中挖掘已购车用户，可应用于行业精准营销等领域，来对不同类型的用户实现定位产品营销。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例提供的已购车用户识别模型构建方法的流程示意图；

图2为利用pso算法确定xgboost模型的学习参数的取值的流程示意图；

图3为已购车用户识别方法的流程示意图；

图4为本实施例提供的构建已购车用户识别模型的整体流程框图；

图5为本实施例提供的行为库的示意图。

具体实施方式

应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

移动大数据具有丰富的用户行为特征，目前利用移动大数据的各种应用也在不断的开发，如金融、旅游、教育等，移动的高价值数据与人们的行为轨迹相互紧扣，利用移动大数据变现，通过更多维度了解用户行为特征，实现用户画像的挖掘建模，可以提供给第三方合作伙伴，扩大数据价值至最大化，这也是数据时代一直追求的效应。本实施例提供一种基于xgboost的已购车用户识别模型构建方法，其充分利用移动大数据进行用户画像的挖掘，识别出已购车用户以提供给第三方合作方，本实施例提供的已购车用户识别模型构建方法的流程图可以参见图1所示，包括：

S1：获取目标用户群中各目标用户的已购车用户识别数据，已购车用户识别数据具有多个特征。

本实施例中可以基于移动用户多元数据的行为匹配，根据已购车用户行为调研，提取出相关目标用户群进行模型训练。本实施例中的已购车用户识别数据由多个特征描述，且每个特征都有其对应的特征值。

本实施例中的步骤S1包括以下步骤：

S12：对原始数据进行预处理得到已购车用户识别数据。

所谓预处理包括以下过程：对原始数据进行数据清洗，检测数据一致性，处理无效值，剔除部分脏数据，针对清洗后的数据，对其进行数值型处理和类别型处理从而得到已购车用户识别数据。

S2：对特征进行分类，得到动态特征和静态特征。

本实施例中动态特征是指其特征值随时可能会发生变化的特征，比如包括但不限于是APP使用特征、位置信息特征、短信交互特征以及语音交互特征中的至少一种，静态特征是用户的一些基本属性特征，其基本不会发生变化，比如可以是用户的性别以及年龄。

S3：基于xgboost模型得到每一动态特征在xgboost模型中的重要性得分，筛选出重要性得分满足预设条件的动态特征作为目标动态特征。

步骤S3中通过模型学习训练得到每个动态特征的重要性得分，属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性重要性，由节点负责加权w和记录次数n。最终将一个属性在所有提升树中的结果进行加权求和后再平均，得到重要性得分score

本步骤中可以将各动态特征的重要性得分按照由高到低的顺序进行排列，筛选出重要性得分排序在前的预设数量的动态特征作为目标动态特征。

S4：利用目标动态特征和静态特征进行组合产生新的组合特征。

利用xgboost学习模型提取的目标动态特征与静态特征构建组合特征，通过现有数据发现其中隐性规律，找到规律并产生新的特征。由于针对的是多个类别型变量，这里采用所有可能值交叉组合，设提取后的动态特征集合{A₁，A₂，A₃，…A_s}，静态特征集合{B₁，B₂，B₃,…B_t}，如对于动态特征A₁，静态特征B₁，B₂，形成新的组合特征A₁&B₁，A₁&B₂。

S5：利用pso算法确定xgboost模型的学习参数的取值。

请参见图2所示，步骤S5包括以下子步骤：

S51：将xgboost模型的每一学习参数抽象成一个粒子，并设置每一粒子的初始位置和初始速度。

步骤S51中可以通过随机算法设置每一个粒子的初始位置。

S52：基于各个粒子的目标函数，根据各个粒子当前的位置和速度计算出每一粒子当前的个体最优位置和n个粒子当前的群体最优位置。

S53：更新各个粒子的速度和位置。

步骤S53中根据公式更新每一粒子的速度，根据公式更新每一粒子的位置；

其中，粒子i的位置表示为x_i＝(x_i1,x_i2,…,x_is)，粒子i的速度表示为υ_i＝(υ_i1,υ_i2,…,υ_is)，pbest_is＝(p_i1,p_i2,…,p_is)表示粒子i个体经过的最优位置，gbest_s＝(g₁,g₂,…,g_s)表示群体经历的最优位置，表示第k次迭代粒子i飞行速度矢量的第d维分量，表示第k次迭代粒子i位置矢量的第d维分量，γ₁和γ₂表示在0-1之间的随机数，1≤d≤s，w表示惯性权重，c₁和c₂表示学习因子，w、c₁以及c₂可以根据经验设定。

S54：基于各个粒子的目标函数，根据各个粒子更新后的位置和速度计算出每一粒子当前的个体最优位置和n个粒子当前的群体最优位置。

步骤S52和步骤S54中，针对每一粒子，根据其当前的位置特点确定其对应的xgboost模型结构，具体的，这里是根据粒子当前的位置确定对应学习参数当前的取值，所以可以得到对应的xgboost模型结构，将样本数据输入xgboost模型结构后，根据目标函数计算该粒子的适应值，其中，y_i代表期望结果，Y_i代表实际结果，N代表样本总数，并选取迭代过程中最小适应值对应的位置作为该粒子的个体最优位置。应当说明的是，这里的样本数据可以是步骤S1中使用的目标用户的数据，也可以是另外的专门用于此步骤测试的数据。

S55：判断是否达到终止条件，如是，转至S56，否则，转至S53继续进行迭代。

本实施例中将每一学习参数抽象成了一个粒子，并根据学习参数的取值设置了相应粒子的位置，所以根据逆运算，也可由粒子的位置确定出相应学习参数的取值。

步骤S55中可以通过以下方式判断是否达到终止条件：

判断迭代次数是否达到预设迭代次数阈值，如是，则判定当前达到了终止条件，否则，判定当前未达到终止条件；

或，

判断n个粒子的整体适应值是否小于等于预设整体适应值阈值，如是，则表明当前满足最小训练误差，判定当前达到了终止条件，否则，判定当前未达到终止条件。

需要说明的是，这里的整体适应值可以由n个粒子的平均适应值来表示，或者也可以由n个粒子中的每一粒子的权重值与对应适应值之积的和来表示。

S6：使用组合特征和学习参数的取值构建分类器模型，得到已购车用户识别模型。

本实施例中在构建已购车用户识别模型后，可以对该模型分类的准确性进行评估。本发明关注模型中已购车用户真实的识别比例，真实购车用户类为正类，未购车用户类为负类，分类器在测试数据集上的预测可能正确也可能不正确，预测结果包含以下四种情况：

TP(真正例)—将正类预测为正类数；

FN(假反例)—将正类预测为负类数；

FP(假正例)—将负类预测为正类数；

TN(真反例)—将负类预测为负类数。

则精确率定义为：

召回率定义为：

此外，F1值作为精确率和召回率的调和均值，也是分类模型性能评估指标，计算方式如下：

由此构造出混淆矩阵，比较分类结果和实例的真实信息，结合ROC曲线，更直观的观察模型性能的情况。

本实施例还提供一种已购车用户识别方法，请参见图3所示，包括：

S31：获取待识别用户的已购车用户识别数据。

S32：将该已购车用户识别数据输入已购车用户识别模型中，并根据该模型的输出结果确定待识别用户为已购车用户还是未购车用户。

这里的已购车用户识别模型也即是上述实施例中介绍的模型。

本实施例中利用xgboost训练特征重要性分数来进行特征选择，同时达到数据降维的目的，构建基于xgboost的学习模型动态特征提取；其次考虑特征的全面性，构建特征组合来提升分类的效果。针对xgboost参数的调优，利用pso的全局搜索以及记忆特点来弥补xgboost算法多个参数调优收敛速度慢，易陷入局部最优解和正确率波动大的缺陷，并应用最优参数组合来构建基于pso_xgb的已购车用户识别模型对已购车用户特征进行训练，进而提升模型的准确度，其对应的整体流程框图请参见图4所示。

由于运营商底层数据的隐晦性，需要将数据进行转化。所以首先对用户上网日志数据、轨迹数据、短信数据以及语音数据进行规范化处理，分别构建用户数据库，再利用爬虫数据分别构建行为库，最后如图5所示，进行用户数据-行为库匹配。这里的爬虫数据，比如有关购车APP、各类汽车服务类APP、重庆市各大购车部的位置和名称等。短信语音行为库主要包括重庆违章短信发布平台等，将运营商底层数据转化为可理解性的内容。

以下为本发明指标的获取提供一些数据移动用户多元数据处理方式：

获取用户的语音信息，建立语音维度表，设置语音端口号TYPE_ID加以区分用户收到的不同语音信息来源；

其中，所述语音来源包括三类号码，设置端口号TYPE_ID为v1、v2、v3，以区分所述三类号码：

v1：包括车险专线及违章咨询电话；

v2：包括全国高速公路报警救援电话；

v3：包括车险、汽车品牌4s店电话；

其中，根据需求语音来源需求，用户语音维度表设计如表1：

表1语音维度表

在通过端口号码匹配基础上，识别一段时间内与语音维度表中端口号TYPE_ID有过交互的用户，并统计用户与各端口的交互次数，各语音端口该段时间内总的交互次数；

其中，短信维度是根据如下获得：

获取手机用户的短信信息，建立短信维度表，设置端口号TYPE_ID加以区分用户收到的不同短信来源；

其中，所述短信来源包括两类号码，设置短信端口号TYPE_ID为s1、s2，以区分所述两类号码：

s1：包括违章短信发布平台、交巡警平台，ETC专用端口；

s2：包括交通服务热线；

其中，根据需求，用户短信信息维表设计如表2：

表2短信维度表

在通过端口号码匹配基础上，识别一段时间内与短信维度表中端口号TYPE_ID有过交互的用户，并统计用户与各端口的交互次数，各短信端口该段时间内总的交互次数；

其中，根据需求，Apps信息维表设计如表3：

表3已购车用户Apps信息维表

获取用户使用的已购车类Apps的上网数据，建立Apps维度表，将Apps分为n类，识别出使用过Apps的用户，并统计其使用相应App的次数Fre；

其中，根据轨迹行为信息信息需求要求，设计的4S店的基站信息维表，如表4所示。

表4 4S店信息维表

根据用户信令数据识别周期内与4S基站lac-ci有过交互的用户，并统计用户在4S店的滞留时间T以及4S店个数。

其中，根据轨迹行为信息信息需求要求，设计的加油站的基站信息维表，如表5所示。

表5加油站信息维表

根据用户信令数据识别周期内与加油站基站lac-ci有过交互的用户，并统计用户在加油站的频次F以及加油站个数。

结合移动用户数据利用以上的分析方法识别出已购车用户，针对本实施例中已购车用户特征维度高，数据量大，为了保证特征信息最大化的同时降低训练复杂度，引入了特征分层处理思想，并利用了xgboost训练属性重要性分数来进行特征选择，达到了数据降维的目的，构建基于xgboost的学习模型动态特征提取，其次考虑特征的全面性，构建特征组合来提升分类的效果。针对xgboost参数的调优，利用pso的全局搜索以及记忆特点来弥补xgboost算法多个参数调优收敛速度慢，易陷入局部最优解和正确率波动大的缺陷，并应用最优参数组合来构建基于pso_xgb的已购车用户识别模型对已购车用户特征进行训练，进而提升模型的准确度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种已购车用户识别模型构建方法，其特征在于，包括：

S2：对所述特征进行分类，得到动态特征和静态特征；

2.如权利要求1所述的已购车用户识别模型构建方法，其特征在于，步骤S1包括：

S12：对所述原始数据进行预处理得到已购车用户识别数据。

3.如权利要求2所述的已购车用户识别模型构建方法，其特征在于，步骤S12包括：

S121：对所述原始数据进行数据清洗；

4.如权利要求1所述的已购车用户识别模型构建方法，其特征在于，所述动态特征包括应用程序APP使用特征、位置信息特征、短信交互特征以及语音交互特征中的至少一种，所述静态特征包括性别以及年龄。

5.如权利要求1所述的已购车用户识别模型构建方法，其特征在于，步骤S3中将各动态特征的重要性得分按照由高到低的顺序进行排列，筛选出重要性得分排序在前的预设数量的动态特征作为目标动态特征。

6.如权利要求1-5任一项所述的已购车用户识别模型构建方法，其特征在于，步骤S5包括：

S53：更新各个粒子的速度和位置；

7.如权利要求6所述的已购车用户识别模型构建方法，其特征在于，步骤S52和步骤S54中，针对每一粒子，根据其当前的位置特点确定其对应的xgboost模型结构，将样本数据输入所述xgboost模型结构后，根据目标函数计算该粒子的适应值，其中，y_i代表期望结果，Y_i代表实际结果，N代表样本总数，并选取迭代过程中最小适应值对应的位置作为该粒子的个体最优位置。

8.如权利要求7所述的已购车用户识别模型构建方法，其特征在于，步骤S55中判断是否达到终止条件包括：判断迭代次数是否达到预设迭代次数阈值，或判断n个粒子的整体适应值是否小于等于预设整体适应值阈值。

9.如权利要求6所述的已购车用户识别模型构建方法，其特征在于，步骤S53中根据公式更新每一粒子的速度，根据公式更新每一粒子的位置；

10.一种已购车用户识别方法，其特征在于，包括：

获取待识别用户的已购车用户识别数据；

将该已购车用户识别数据输入如权利要求1-9中任一项所述的已购车用户识别模型中，并根据该模型的输出结果确定所述待识别用户为已购车用户还是未购车用户。