CN116629926A

CN116629926A - 一种复购预测模型训练方法、复购预测方法及装置

Info

Publication number: CN116629926A
Application number: CN202310633222.6A
Authority: CN
Inventors: 杨旭光; 陈晓; 王磊; 齐媛媛
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-22

Abstract

本申请提供一种复购预测模型训练方法、复购预测方法及装置，该复购预测模型训练方法包括：获取训练样本数据集，训练样本数据集中包括包括多个正样本数据和多个负样本数据，正样本数据为已完成复购用户对应的特征数据，负样本数据为复购失败用户对应的特征数据；根据训练样本数据集对基础模型进行训练，得到复购预测模型，复购预测模型的输入为训练样本数据集中每一用户对应的特征数据，输出为每一用户对应的复购意愿值，正样本数据对应的复购意愿值为第一预设值，负样本数据对应的复购意愿值为第二预设值。本申请可以提升训练得到的模型的预测准确性，便于基于该复购预测模型进行复购预测，对复购意愿高的用户进行主动触达，提高复购成交率。

Description

一种复购预测模型训练方法、复购预测方法及装置

技术领域

本申请涉及数据分析技术领域，特别是涉及一种复购预测模型训练方法、复购预测方法及装置。

背景技术

随着汽车的普及，绝大多数刚需用户已经购买了汽车，尚未购买汽车的新用户占比越来越小，复购就逐渐成为汽车销售的主要增长点。所以，企业如何高效地在现有的海量用户中识别出复购意愿比较高的用户，主动触达，努力提高复购成交率，从而扩大销量，就日益受到汽车厂家的关注。

发明内容

本申请实施例提供了一种复购预测模型训练方法、复购预测方法及装置，以解决如何提高用户复购意愿的预测结果准确性问题。

第一方面，本申请实施例提供了一种复购预测模型训练方法，所述方法包括：

获取训练样本数据集，所述训练样本数据集中包括多个正样本数据和多个负样本数据，所述正样本数据为已完成复购用户对应的特征数据，所述负样本数据为复购失败用户对应的特征数据；

根据所述训练样本数据集对基础模型进行训练，得到复购预测模型，所述复购预测模型的输入为所述训练样本数据集中每一用户对应的特征数据，输出为所述每一用户对应的复购意愿值，所述正样本数据对应的复购意愿值为第一预设值，所述负样本数据对应的复购意愿值为第二预设值。

第二方面，本申请实施例还提供一种复购预测方法，所述方法包括：

获取用户集合对应的特征数据集合；

将所述特征数据集合输入至复购预测模型，得到所述用户集合中每一用户对应的复购意愿值；

将所述复购意愿值大于预设意愿阈值的用户确定为目标用户；

其中，所述复购预测模型通过上述的复购预测模型训练方法得到。

第三方面，本申请实施例还提供一种复购预测模型训练装置，所述装置包括：

第一获取模块，用于获取训练样本数据集，所述训练样本数据集中包括多个正样本数据和多个负样本数据，所述正样本数据为已完成复购用户对应的特征数据，所述负样本数据为复购失败用户对应的特征数据；

训练模块，用于根据所述训练样本数据集对基础模型进行训练，得到复购预测模型，所述复购预测模型的输入为所述训练样本数据集中每一用户对应的特征数据，输出为所述每一用户对应的复购意愿值，所述正样本数据对应的复购意愿值为第一预设值，所述负样本数据对应的复购意愿值为第二预设值。

第四方面，本申请实施例还提供一种复购预测装置，所述装置包括：

第二获取模块，用于获取用户集合对应的特征数据集合；

第一处理模块，用于将所述特征数据集合输入至复购预测模型，得到所述用户集合中每一用户对应的复购意愿值；

第一确定模块，用于将所述复购意愿值大于预设意愿阈值的用户确定为目标用户；

其中，所述复购预测模型通过上述的复购预测模型训练装置得到。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的复购预测模型训练方法或者上述的复购预测方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的复购预测模型训练方法或者上述的复购预测方法。

本申请实施例至少包括以下技术效果：

本申请实施例的技术方案，通过基于包括了正样本数据和负样本数据的训练样本数据集进行模型训练，得到复购预测模型，由于在确定样本数据时，将已完成复购用户对应的特征数据确定为正样本数据、将复购失败用户对应的特征数据确定为负样本数据，可以提升训练得到的模型的预测准确性，便于基于该复购预测模型进行复购预测，对复购意愿高的用户进行主动触达，提高复购成交率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的复购预测模型训练方法的流程示意图；

图2是本申请实施例提供的复购预测方法的流程示意图；

图3是本申请实施例提供的复购预测系统的结构示意图；

图4是本申请实施例提供的复购预测模型训练装置的结构示意图；

图5是本申请实施例提供的复购预测装置的结构示意图；

图6为本申请实施例提供的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例提供一种复购预测模型训练方法，应用于复购预测系统中的服务器，如图1所示，该方法包括：

步骤101，获取训练样本数据集，所述训练样本数据集中包括多个正样本数据和多个负样本数据，所述正样本数据为已完成复购用户对应的特征数据，所述负样本数据为复购失败用户对应的特征数据。

本实施例中用于进行模型训练的训练样本数据集中包括多个正样本数据和多个负样本数据，优选地，正样本数据和负样本数据的数量相近，其中，正样本数据为已完成复购用户对应的特征数据，可以将正样本数据对应的复购意愿值设为第一预设值，负样本数据为复购失败用户对应的特征数据，将负样本数据对应的复购意愿值设为第二预设值，具体的，第一预设值可以为1，第二预设值可以为0，那么复购意愿值的取值在0和1之间，复购意愿值越大，对应的用户的复购可能性越大，复购意愿值越小，对应的用户的复购可能性越小。

具体的，这里的用户复购的对象可以是商品也可以是服务，在下面的实施例中将以商品为目标品牌的车辆为例进行介绍，针对已经购买了车辆的基础用户群体，本申请实施例从基础用户群体中筛选出已经再次购买目标品牌下任一车辆的用户，再次购买的车辆可以与先购买的车辆型号相同也可以与先购买的车辆型号不同，获取这一类用户的特征数据，并将其确定为正样本数据，可选的，为了提高模型训练的准确性，针对两次购车的时间间隔小于预设阈值(例如6个月)的用户，考虑到其比较特殊，不具有普遍性，可以将其从正样本数据中剔除。从基础用户群体中筛选出已经购买其他品牌的车辆或者明确表示不会购买目标品牌车辆的用户，获取这一类用户的特征数据，并将其确定为负样本数据。

步骤102，根据所述训练样本数据集对基础模型进行训练，得到复购预测模型，所述复购预测模型的输入为所述训练样本数据集中每一用户对应的特征数据，输出为所述每一用户对应的复购意愿值。

服务器在获取到训练样本数据集之后，通过该训练样本数据集对基础模型进行训练，得到复购预测模型，其中复购预测模型的输入为训练样本集中每一用户对应的特征数据，输出为每一用户对应的复购意愿值。

这里的基础模型是指还未进行训练的具有分类功能的模型，基础模型可以选用任意一种模型结构，可以包括但不限于：逻辑回归(Logistic Regression，LR)模型、K最近邻(k-Nearest Neighbor，KNN)模型、朴素贝叶斯(Naive Bayes，NB)模型、决策树模型(如随机森林、梯度提升决策树(Gradient Boosted Decision Tree，GBDT)等集成模型)、支持向量机(Support Vector Machine，SVM)模型、深度神经网络等以及上述模型的集成，等等。

优选地，综合考虑特征数据状况，可解释性，开发效率及经过实际尝试，可以将基础模型设置为轻量级梯度提升机(Light Gradient Boosting Machine，LGBM)模型。LGBM模型除了具有梯度提升树模型可以建模非线性关系，可解释性强，预测效果好等优点外，还具有以下优点：由于使用了基于直方图的算法，具有更快的训练速度和更高的效率；由于使用离散的箱子(bins)保存并替换连续值，占用内存少；相比于其他提升算法，通过leaf-wise分裂方法产生比level-wise分裂方法更复杂的树，具有更高的准确率；支持并行学习。

进一步需要说明的是，LGBM模型按照Gini指数最小化准则来选择最佳分裂特征及最佳分裂点，假设分布有K类，样本点属于第k类的概率为p_k，则概率分布定义的Gini指数为：

给定样本集合D，其Gini指数为：

这里的Ck是样本集合D中属于第k类的样本子集，K是类的个数。|D|为样本集合D中的样本数。

如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，即

D₁＝(x，y)∈D|A(x)＝a}，D₂＝D-D₁

在特征A的条件下，样本集合D的Gini指数定义为：

在生成树的过程中，在所有可能的特征A以及它们所有可能的切分点a中，选择Gini指数最小的特征及其对应的切分点作为最优特征和最优切分点，从而将当前节点分裂成两个子结点，将训练数据集中的样本依特征分配到两个子结点中去，重复分裂过程直至满足停止条件。

本申请实施例，通过基于包括了正样本数据和负样本数据的训练样本数据集进行模型训练，得到复购预测模型，由于在确定样本数据时，将已完成复购用户对应的特征数据确定为正样本数据、将复购失败用户对应的特征数据确定为负样本数据，可以提升训练得到的模型的预测准确性，便于基于该复购预测模型进行复购预测，进而对复购意愿高的用户进行主动触达，提高复购成交率。

在本申请一可选实施例中，所述方法还包括：

获取测试样本数据集，所述测试样本数据集中包括多个正样本数据和多个负样本数据；

将所述测试样本数据集中每一用户对应的特征数据输入至所述复购预测模型，得到所述每一用户对应的预测复购意愿值；

根据所述测试样本数据集中每一用户对应的真实复购意愿值和每一用户对应的预测复购意愿值，对所述复购预测模型进行评估。

本实施例中，在将训练得到的复购预测模型部署到服务器应用到实际场景之前，还需要对复购预测模型进行测试，评估复购预测模型的准确率。具体的，在获取样本数据集时，可以将样本数据集按照预设比例(如6∶4)分为两部分，一部分作为训练样本数据集，另一部分作为测试样本数据集。利用训练样本数据集对基础模型进行训练以得到复购预测模型，然后利用测试样本数据集对复购预测模型进行测试。

具体的，在进行测试时，将测试样本数据集中每一用户对应的特征数据输入至复购预测模型，得到每一用户对应的预测复购意愿值，然后将每一用户对应的预测复购意愿值与该用户对应的实际复购意愿值进行比较，对复购预测模型进行评估。

需要说明的是，用于评估复购预测模型的评估指标可以包括但不限于以下至少一项：准确率、精确率、召回率、F1分数和曲线下面积(Area Under Curve，AUC)，本申请实施例可以选取以上至少一种评估指标来对复购预测模型进行评估，确定该复购预测模型是否能够部署到服务器上、在实际场景中应用。

本申请上述实施方案，通过测试样本数据集对复购预测模型进行测试，根据复购预测模型输出预测复购意愿值和实际复购意愿值对复购预测模型进行评估，可以有效保证复购预测模型的准确性。

在本申请一可选实施例中，所述方法还包括：

获取包括多个已完成复购用户和多个复购失败用户分别对应的历史数据的初始数据集，所述历史数据对应的数据类型包括用户属性、车辆属性、交易数据类型、维修保养数据类型、保险数据类型、互动数据类型、车联网数据类型和线索数据类型中的至少一项，每一所述数据类型包括至少一种数据；

对所述初始数据集进行处理得到样本数据集；

将所述样本数据集中已完成复购用户对应的样本数据确定为所述正样本数据；

将所述样本数据集中复购失败用户对应的样本数据确定为所述负样本数据。

本申请实施例在获取训练样本数据集和测试样本数据集时，需要获取多个正样本数据和多个负样本数据，正样本数据中包括已完成复购用户对应的特征数据，正样本数据中包括复购失败用户对应的特征数据。

需要说明的是，服务器可以通过获取已完成复购用户对应的历史数据以及复购失败用户对应的历史数据，得到包括了多个已完成复购用户和多个复购失败用户分别对应的历史数据的初始数据集。这里的历史数据对应的数据类型包括用户属性、车辆属性、交易数据类型、维修保养数据类型、保险数据类型、互动数据类型、车联网数据类型和线索数据类型中的至少一项，每一数据类型包括至少一种数据，例如，在数据类型是用户属性时，对应的数据包括年龄、性别、职业和领域等，在数据类型是车辆属性时，对应的数据包括品牌、型号和车辆排量等，在数据类型是交易数据类型时，对应的数据包括销售时间、交易价格和支付方式等，在数据类型是维修保养数据类型时，对应的数据包括维修保养时间、维修保养地点、维修保养类型、维修保养金额、累计维修保养次数以及累计维修保养金额等，在数据类型是保险数据类型时，对应的数据包括投保项目、保险使用次数、保险使用内容和保险变更情况等，在数据类型是互动数据类型时，对应的数据包括用户在目标应用或目标网站上的行为数据，在数据类型为车联网数据类型时，对应的数据包括整车状态、车辆各部件状态以及用户用车情况等，在数据类型为线索数据时，对应的数据包括线索来源、线索时间、线索内容等。

考虑到初始数据集中数据种类偏多，直接作为训练数据来训练模型存在训练时间长，还会使模型的复杂度增加，故需要对初始数据集进行处理得到样本数据集，然后将样本数据集中已完成复购用户对应的样本数据确定为正样本数据，将样本数据集中复购失败用户对应的样本数据确定为负样本数据。

本申请上述实施方案，通过对包括多个已完成复购用户和多个复购失败用户分别对应的历史数据的初始数据集进行处理得到样本数据集，进而确定正样本数据和负样本数据，用于模型训练的样本数据中的特征数据来源于历史数据，可以满足复购预测模型的需求场景，另外通过对初始数据集进行处理，可以加快模型训练速度，降低模型的复杂度。

在本申请一可选实施例中，对所述初始数据集进行处理得到样本数据集，包括：

按照预设规则，对所述初始数据集包括的数据字段进行筛选，得到第一数据字段和包括所述第一数据字段的第一数据集；

对所述第一数据集中的每一所述第一数据字段对应的空值进行填充，得到第二数据集；

对所述第二数据集中的每一所述第一数据字段对应的异常值进行处理，得到第三数据集；

对所述第三数据集中连续型的每一所述第一数据字段对应的数据进行离散化处理、对所述第三数据集中类别型的每一所述第一数据字段对应的数据进行编码处理，得到第四数据集；

通过IV分析法对连续型的每一所述第一数据字段进行筛选、通过卡方检验法对类别型的每一所述第一数据字段进行筛选，确定特征数据；

提取出所述第四数据集中每一用户对应的所述特征数据，并确定为所述样本数据集。

具体的，针对初始数据集中包括的众多数据字段，为了减小最终得到的样本数据集的大小，加快模型训练速度，减少模型的复杂度，避免过度拟合，首先按照预设规则，对初始数据集包括的数据字段进行筛选，得到第一数据字段，通过对数据字段进行筛选，可以减少初始数据集包括的数据字段的数量，保留下来的数据字段为第一数据字段，包括所述第一数据字段的数据集为第一数据集。

在确定第一数据字段和第一数据集之后，需要对第一数据字段的填充率小于100％的字段进行填充，也就是对第一数据集中的每一第一数据字段对应的空值进行填充，填充后得到的数据集为第二数据集。

在确定第二数据集之后，为了避免一些异常值对模型的准确性造成影响，需要对第二数据集中的每一第一数据字段对应的异常值进行处理，处理后得到的数据集为第三数据集。

在确定第三数据集之后，考虑到连续型数据字段的取值众多，为了避免取值的微小变化对模型的准确性造成影响，增强模型的泛化能力，加速模型训练的收敛速度，对第三数据集中连续型的每一第一数据字段对应的数据进行离散化处理，进一步的，还可以对第三数据集中类别型的每一第一数据字段对应的数据进行编码处理，得到第四数据集。

具体的，可以通过分桶对连续型的第一数据字段对应的数据进行离散化处理，例如对于有默认的分段习惯的数据字段，可以按约定俗成的规则进行分桶，同时兼顾桶的数量和每个桶的容量(包含的样本数)，如年龄特征，习惯按5年或10年的长度进行划分，对于时间长度类数据一般习惯于按月、季度、半年、年等来划分，具体区间长度需视样本的取值分布情况而定，桶的数目不宜过多，也不宜过少，一般以10～20个为宜。另外每个桶的容量(包含的样本数)也不宜相差过大，对样本数过大的分桶，可以进一步细分；而对于样本数过小的桶，可以和相邻的桶进行适当合并。对于其他特征，可以计算该特征取值的分位数(如10分位)，并将其取整后做为桶的边界，进行分桶。

针对类别型的第一数据字段对应的数据，如只取有限个离散值的类别型数据，可以根据选择的模型做相应的编码处理。例如，针对随机森林、GBDT、XGBOOST、神经网络等模型，需要对数据进行独热编码，编码后，一个有N个可能取值的特征，将被转化为N个特征，其中只有一个特征为1(对应其取值)，其余N-1个特征全部为0。如果特征及其取值众多的话，独热编码只适用于无序离散特征的处理，另外可能会造成数据稀疏的问题。除独热编码外，还可以采用整数编码，具体为将数据对应的离散值排序后，一次赋予相邻的整数(0，1，2…)，这样有n个取值的类别特征，编码后，有n个取值的类别特征，被编码为取值范围为0，1，…，n-1的整数，有序离散特征一般采用此编码方式。

在得到第四数据集之后，还可以进一步对第一数据字段进行筛选，确定特征数据，具体的，可以通过IV分析法对连续型的每一所述第一数据字段进行筛选、通过卡方检验法对类别型的每一所述第一数据字段进行筛选，得到与预测结果相关性较强的特征数据用于进行模型训练，以取得更好的预测效果。

具体的，针对连续型的第一数据字段，在离散化处理之后，可以采用IV(Information Value)值分析法遴选出对预测比较重要的特征数据。

其中，y_i、n_i分别为第i个分桶中正、负样本的数目，y_s、n_s分别为正、负样本的总数，n为分桶数。

只选取IV值介于0.02～0.5的特征进行后续的模型训练，因为IV值在该范围内，表明该特征数据有较好的分类(预测)能力。

对于类别型的第一数据字段，采用卡方检验法，判断该第一数据字段与目标变量(即复购意愿值)是否相关。只选择与目标变量(即复购意愿值)相关的特征进行后续的模型训练。

在确定特征数据之后，提取出第四数据集中每一用户对应的特征数据，得到所述样本数据集。

本申请上述实施方案，通过对初始数据集进行处理得到样本数据集，可以减小最终得到的样本数据集的大小，加快模型训练速度，减少模型的复杂度，避免过度拟合，通过对异常值、连续性数据以及类别性数据进行处理，可以避免对模型的准确性造成影响。

在本申请一可选实施例中，按照预设规则，对所述初始数据集包括的数据字段进行筛选，得到第一数据字段和包括所述第一数据字段的第一数据集，包括：

获取所述初始数据集中的每一数据字段对应的填充率和每一数据字段对应的复购相关度；

将所述初始数据集包括的数据字段中所述填充率小于预设填充率阈值且所述复购相关度小于预设复购相关度的数据字段删除，得到所述第一数据字段和包括所述第一数据字段的第一数据集。

由于初始数据集中包括的历史数据字段众多且质量和填充率差异较大，为了减少样本数据大小，加快模型训练速度，降低模型复杂度，避免过拟合，需要从众多数据字段中，初步筛选出直观上可能对用户复购意愿有影响(即复购相关度大于或等于预设复购相关度)且填充率达到填充率阈值(即填充率大于或等于预设填充率阈值，这里的预设填充率阈值可以为70％)的数据字段。

具体的，首先获取初始数据集中的每一数据字段对应的填充率和每一数据字段对应的复购相关度，然后将初始数据集包括的数据字段中填充率小于预设填充率阈值且复购相关度小于预设复购相关度的数据字段删除，得到第一数据字段和包括第一数据字段的第一数据集。

本申请上述实施方案，通过对初始数据集包括的数据字段进行初步筛选，可以减少样本数据大小，加快模型训练速度，降低模型复杂度，避免过拟合。

在本申请一可选实施例中，对所述第一数据集中的每一所述第一数据字段对应的空值进行填充，得到第二数据集，包括：

在所述第一数据字段对应的数据为数值型时，获取所述第一数据字段对应的数据的均值，用所述均值填补所述第一数据字段对应的空值；

在所述第一数据字段对应的数据为离散型且分布均匀时，从所述第一数据字段对应的数据中随机选取数值填补所述第一数据字段对应的空值；

在所述第一数据字段对应的数据为离散型且分布不均匀时，获取所述第一数据字段对应的数据中出现次数最多的值填补所述第一数据字段对应的空值。

本申请上述实施方案，通过对每一第一数据字段对应的空值进行填补，可以保证填补后的第二数据集中每一数据字段的数据的完整性，防止空值的存在对模型的准确性产生影响。

在本申请一可选实施例中，对所述第二数据集中的每一所述第一数据字段对应的异常值进行处理，得到第三数据集，包括：

在所述第一数据字段对应的数据为数值型时，获取所述第一数据字段对应的数据的均值和标准差；

将所述第一数据字段对应的数据中距离所述均值超过3个所述标准差的值确定为异常值；

将包括所述异常值的样本删除，或者选取所述均值正负3个所述标准差范围内的值替换所述异常值，得到所述第三数据集。

为了避免异常值对模型造成重大影响，需要对一些数值型的异常值进行处理。数值型特征取值分布一般应符合正态分布，根据正态分布的3σ原则(三西格玛准则)，距离均值超过正负3个标准差方差的取值识别为异常值，将包括该异常值的样本剔除或者选取均值的正负3个标准差范围内的值替换异常值，

本申请上述实施方案，通过消除第二数据集中的数值型数据中的异常值，可以防止异常值对模型的准确性产生影响。

本申请实施例提供一种复购预测方法，应用于复购预测系统中的服务器，如图2所示，该方法包括：

步骤201，获取用户集合对应的特征数据集合。

本申请实施例中用户复购的对象可以是商品也可以是服务，在下面的实施例中将以商品为目标品牌的车辆为例进行介绍。用户集合中的用户是已经购买车辆但未复购车辆的用户，特征数据集合包括了用户集合中每一用户的特征数据，这里的特征数据为进行复购预测模型训练时采用的特征数据。

步骤202，将所述特征数据集合输入至复购预测模型，得到所述用户集合中每一用户对应的复购意愿值。

在获取到特征数据集合之后，将特征数据集合输入至复购预测模型中，可以得到用户集合中每一用户对应的复购意愿值。复购意愿值的取值在第一预设值和第二预设值之间，具体的，第一预设值可以为1，第二预设值可以为0，那么复购意愿值的取值在0和1之间，复购意愿值越大，对应的用户的复购可能性越大，复购意愿值越小，对应的用户的复购可能性越小。

步骤203，将所述复购意愿值大于预设意愿阈值的用户确定为目标用户。

在获取到用户集合中每一用户对应的复购意愿值之后，将复购意愿值大于预设意愿阈值的用户确定为目标用户，这里的预设意愿阈值可以是0.7，具体可以根据实际应用场景进行确定，本申请不做具体限定。在确定目标用户后，可以将目标用户对应的清单发送至车辆销售中心，进而实现对复购意愿高的用户进行主动触达。

本申请实施例，通过将特征数据集合输入至复购预测模型，可以得到用户集合中每一用户对应的复购意愿值，进而可以对复购意愿高的目标用户进行主动触达，提高复购成交率。

在本申请一可选实施例中，在得到所述用户集合中每一用户对应的复购意愿值之后，所述方法还包括：

对所述用户集合中的用户按照所述复购意愿值从高到低进行排序，得到所述用户集合对应的排序结果；

将所述排序结果中位于前预设数量的用户确定为目标用户。

具体的，在得到所述用户集合中每一用户对应的复购意愿值之后，确定目标用户还可以通过以下方案：对用户集合中的用户按照所述复购意愿值从高到低进行排序，得到用户集合对应的排序结果；将排序结果中位于前预设数量的用户确定为目标用户。

本申请上述实施方案，通过将排序结果中位于前预设数量的用户确定为目标用户，进而可以对复购意愿排序靠前的目标用户进行主动触达，提高复购成交率。

在本申请一可选实施例中，所述方法还包括：

判断所述目标用户是否为投诉清单中的用户；

在所述目标用户为所述投诉清单中的用户时，将所述目标用户剔除。

具体的，服务器上设置有用于存放投诉过目标品牌的用户的投诉清单，针对该投诉清单中的用户，服务器在得到目标用户之后，需要进一步判断目标用户是否为投诉清单中的用户，若目标用户是投诉清单中的用户，则将该目标用户剔除。

本申请上述实施方案，通过剔除目标用户中投诉清单中的用户，可以进一步提升复购预测的准确性。

在本申请一可选实施例中，所述将所述复购意愿值大于预设阈值的用户确定为目标用户之后，所述方法还包括：

通过情感分析模型获取所述目标用户对应的负面评分；

在所述负面评分大于预设评分阈值时，将所述目标用户剔除。

具体的，服务器在获取到目标用户之后，可以通过预先设置的情感分析模型获取该目标用户对应的负面评分，这里的负面评分是用户针对目标品牌的负面评分，负面评分越高表明该用户对目标品牌的好感度越低，针对过去预设时间段内(如近两年)曾经在公司相关平台(APP、门户网站等)上发表过帖子、评论等的用户，该情感分析模型可以对其发送的帖子评论等进行情感分析，得到对应的负面评分，针对负面评分大于预设评分阈值时，将该目标用户剔除。

本申请上述实施方案，通过剔除目标用户中对应的负面评分较高的用户，可以进一步提升复购预测的准确性。

在本申请一可选实施例中，所述方法还包括：

对所述目标用户进行跟踪，获取所述目标用户对应的复购结果；

将所述复购结果和所述目标用户对应的特征数据添加到模型优化清单中；

通过所述模型优化清单对所述复购预测模型进行优化。

具体的，通过对目标用户进行跟踪，可以获取到该目标用户对应的复购结果，若完成复购，则对应的复购意愿值为第一预设值，若复购失败，则对应的复购意愿值为第二预设值，这里的复购失败是指已经购买其他品牌的车辆或者明确表示不会购买目标品牌车辆。将复购结果也就是复购意愿值和目标用户对应的特征数据添加到模型优化清单中，服务器可以定期获取该型优化清单中获取样本数据，然后基于样本数据对复购预测模型进行优化。

本申请上述实施方案，通过对目标用户的复购情况进行跟踪，可以得到对应的真实的复购意愿值，从而将其作为正样本数据或负样本数据，实现对复购预测模型的优化，提升复购预测模型的预测准确性。

本申请实施例所提供的复购预测模型训练方法和复购预测方法应用于复购预测系统，如图3所示，该系统包括：服务器、中间数据库、线索下发平台、店铺、用户关系管理系统(Customer Relationship Management System，CRMS)和数据中台。

其中，在复购预测模型训练完成之后，将其部署在服务器上，启动定时任务，定期运行复购预测模型，并输出一批复购意愿较高的客户名单到中间数据库，线索下发平台定期从该中间数据库拉取模型预测结果，并自动下发到店铺，由相应店铺的员工进行触达，跟踪。CRMS定期对复购结果进行分析，监控复购预测模型预测结果变化，适时对复购预测模型进行优化。

以上介绍了本申请实施例提供的复购预测模型训练方法和复购预测方法，下面将结合附图介绍本申请实施例提供的复购预测模型训练装置和复购预测装置。

如图4所示，本发明实施例还提供了一种复购预测模型训练装置，所述装置包括：

第一获取模块401，用于获取训练样本数据集，所述训练样本数据集中包括多个正样本数据和多个负样本数据，所述正样本数据为已完成复购用户对应的特征数据，所述负样本数据为复购失败用户对应的特征数据；

训练模块402，用于根据所述训练样本数据集对基础模型进行训练，得到复购预测模型，所述复购预测模型的输入为所述训练样本数据集中每一用户对应的特征数据，输出为所述每一用户对应的复购意愿值，所述正样本数据对应的复购意愿值为第一预设值，所述负样本数据对应的复购意愿值为第二预设值。

可选的，所述装置还包括：

第三获取模块，用于获取测试样本数据集，所述测试样本数据集中包括多个正样本数据和多个负样本数据；

第二处理模块，用于将所述测试样本数据集中每一用户对应的特征数据输入至所述复购预测模型，得到所述每一用户对应的预测复购意愿值；

评估模块，用于根据所述测试样本数据集中每一用户对应的真实复购意愿值和每一用户对应的预测复购意愿值，对所述复购预测模型进行评估。

可选的，所述装置还包括：

第四获取模块，用于获取包括多个已完成复购用户和多个复购失败用户分别对应的历史数据的初始数据集，所述历史数据对应的数据类型包括用户属性、车辆属性、交易数据类型、维修保养数据类型、保险数据类型、互动数据类型、车联网数据类型和线索数据类型中的至少一项，每一所述数据类型包括至少一种数据；

第三处理模块，用于对所述初始数据集进行处理得到样本数据集；

第二确定模块，用于将所述样本数据集中已完成复购用户对应的样本数据确定为所述正样本数据；

第三确定模块，用于将所述样本数据集中复购失败用户对应的样本数据确定为所述负样本数据。

可选的，所述第三处理模块包括：

第一筛选子模块，用于按照预设规则，对所述初始数据集包括的数据字段进行筛选，得到第一数据字段和包括所述第一数据字段的第一数据集；

填充子模块，用于对所述第一数据集中的每一所述第一数据字段对应的空值进行填充，得到第二数据集；

异常处理子模块，用于对所述第二数据集中的每一所述第一数据字段对应的异常值进行处理，得到第三数据集；

处理子模块，用于对所述第三数据集中连续型的每一所述第一数据字段对应的数据进行离散化处理、对所述第三数据集中类别型的每一所述第一数据字段对应的数据进行编码处理，得到第四数据集；

第二筛选子模块，用于通过IV分析法对连续型的每一所述第一数据字段进行筛选、通过卡方检验法对类别型的每一所述第一数据字段进行筛选，确定特征数据；

第一确定子模块，用于提取出所述第四数据集中每一用户对应的所述特征数据，并确定为所述样本数据集。

可选的，所述第一筛选子模块包括：

第一获取单元，用于获取所述初始数据集中的每一数据字段对应的填充率和每一数据字段对应的复购相关度；

删除单元，用于将所述初始数据集包括的数据字段中所述填充率小于预设填充率阈值且所述复购相关度小于预设复购相关度的数据字段删除，得到所述第一数据字段和包括所述第一数据字段的第一数据集。

可选的，所述填充子模块包括：

第二获取单元，用于在所述第一数据字段对应的数据为数值型时，获取所述第一数据字段对应的数据的均值，用所述均值填补所述第一数据字段对应的空值；

第一填补单元，用于在所述第一数据字段对应的数据为离散型且分布均匀时，从所述第一数据字段对应的数据中随机选取数值填补所述第一数据字段对应的空值；

第二填补单元，用于在所述第一数据字段对应的数据为离散型且分布不均匀时，获取所述第一数据字段对应的数据中出现次数最多的值填补所述第一数据字段对应的空值。

可选的，所述异常处理子模块包括：

第三获取单元，用于在所述第一数据字段对应的数据为数值型时，获取所述第一数据字段对应的数据的均值和标准差；

第一确定单元，用于将所述第一数据字段对应的数据中距离所述均值超过3个所述标准差的值确定为异常值；

处理单元，用于将包括所述异常值的样本删除，或者选取所述均值正负3个所述标准差范围内的值替换所述异常值，得到所述第三数据集。

本申请提供的复购预测模型训练装置，通过基于包括了正样本数据和负样本数据的训练样本数据集进行模型训练，得到复购预测模型，由于在确定样本数据时，将已完成复购用户对应的特征数据确定为正样本数据、将复购失败用户对应的特征数据确定为负样本数据，可以提升训练得到的模型的预测准确性，便于基于该复购预测模型进行复购预测，进而对复购意愿高的用户进行主动触达，提高复购成交率。

如图5所示，本发明实施例还提供了一种复购预测装置，所述装置包括：

第二获取模块501，用于获取用户集合对应的特征数据集合；

第一处理模块502，用于将所述特征数据集合输入至复购预测模型，得到所述用户集合中每一用户对应的复购意愿值；

第一确定模块503，用于将所述复购意愿值大于预设意愿阈值的用户确定为目标用户；

可选的，所述装置还包括：

第四确定模块，用于对所述用户集合中的用户按照所述复购意愿值从高到低进行排序，得到所述用户集合对应的排序结果；

第五确定模块，用于将所述排序结果中位于前预设数量的用户确定为目标用户。

可选的，所述方法还包括：

判断模块，用于判断所述目标用户是否为投诉清单中的用户；

第一剔除模块，用于在所述目标用户为所述投诉清单中的用户时，将所述目标用户剔除。

可选的，所述装置还包括：

第五获取模块，用于通过情感分析模型获取所述目标用户对应的负面评分；

第二剔除模块，用于在所述负面评分大于预设评分阈值时，将所述目标用户剔除。

可选的，所述装置还包括：

第六获取模块，用于对所述目标用户进行跟踪，获取所述目标用户对应的复购结果；

添加模块，用于将所述复购结果和所述目标用户对应的特征数据添加到模型优化清单中；

优化模块，用于通过所述模型优化清单对所述复购预测模型进行优化。

本申请提供的复购预测装置，通过将特征数据集合输入至复购预测模型，可以得到用户集合中每一用户对应的复购意愿值，进而可以对复购意愿高的目标用户进行主动触达，提高复购成交率。

本申请实施例还提供一种电子设备，包括：处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述的复购预测模型训练方法实施例或复购预测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

举例如下，图6示出了一种电子设备的实体结构示意图。

如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，处理器610用于执行上述的复购预测模型训练方法实施例或复购预测方法实施例的各个过程。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述复购预测模型训练方法实施例或复购预测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种复购预测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的复购预测模型训练方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的复购预测模型训练方法，其特征在于，所述方法还包括：

对所述初始数据集进行处理得到样本数据集；

4.根据权利要求3所述的复购预测模型训练方法，其特征在于，对所述初始数据集进行处理得到样本数据集，包括：

5.根据权利要求4所述的复购预测模型训练方法，其特征在于，按照预设规则，对所述初始数据集包括的数据字段进行筛选，得到第一数据字段和包括所述第一数据字段的第一数据集，包括：

6.根据权利要求4所述的复购预测模型训练方法，其特征在于，对所述第一数据集中的每一所述第一数据字段对应的空值进行填充，得到第二数据集，包括：

7.根据权利要求4所述的复购预测模型训练方法，其特征在于，

对所述第二数据集中的每一所述第一数据字段对应的异常值进行处理，得到第三数据集，包括：

8.一种复购预测方法，其特征在于，所述方法包括：

获取用户集合对应的特征数据集合；

其中，所述复购预测模型通过权利要求1至7中任一项所述的复购预测模型训练方法得到。

9.根据权利要求8所述的复购预测方法，其特征在于，在得到所述用户集合中每一用户对应的复购意愿值之后，所述方法还包括：

将所述排序结果中位于前预设数量的用户确定为目标用户。

10.根据权利要求8或9所述的复购预测方法，其特征在于，所述方法还包括：

判断所述目标用户是否为投诉清单中的用户；

11.根据权利要求8或9所述的复购预测方法，其特征在于，所述将所述复购意愿值大于预设阈值的用户确定为目标用户之后，所述方法还包括：

通过情感分析模型获取所述目标用户对应的负面评分；

12.根据权利要求8或9所述的复购预测方法，其特征在于，所述方法还包括：

通过所述模型优化清单对所述复购预测模型进行优化。

13.一种复购预测模型训练装置，其特征在于，包括：

14.一种复购预测装置，其特征在于，包括：

第二获取模块，用于获取用户集合对应的特征数据集合；

其中，所述复购预测模型通过权利要求13所述的复购预测模型训练装置得到。