CN114820074A

CN114820074A - 基于机器学习的目标用户群体预测模型构建方法

Info

Publication number: CN114820074A
Application number: CN202210528067.7A
Authority: CN
Inventors: 段定康; 赵凡; 郭松超; 屈行行; 杨翀
Original assignee: Zhengzhou Jianxin Software Technology Co ltd
Current assignee: Zhengzhou Jianxin Software Technology Co ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-29

Abstract

本发明公开了一种基于机器学习的目标用户群体预测模型构建方法，包括下列步骤：S1.选取或构造样本用户数据集，所述样本用户数据集包括样本的人口属性、兴趣特征、消费特征、位置特征、设备属性、行为数据、社交数据；S2.对步骤S1得到的目标用户数据集进行数据集的预处理工作，形成用户特征数据集；S3.基于步骤S2得到的样本用户特征数据集，使用70%‑90%的数据集作为训练集进行预测模型训练；S4.对训练得到的预测模型进行模型评估。本发明构建的基于机器学习的目标用户群体预测模型，适应变化能力强，既能满足快速训练出数据模型以供业务系统使用外，也能根据数据集特点的变化快速演进，避免模型过时。

Description

基于机器学习的目标用户群体预测模型构建方法

技术领域

本发明涉及用户群体数据分析和预测技术领域，具体涉及一种基于机器学习的目标用户群体预测模型构建方法。

背景技术

目前在用户群体数据分析和预测技术领域内，常用方法是通过固定的数据模型，进行用户分类，在数据模型建立初期，是简单高效的，由于数据模型的静态性，此数据模型会因环境、数据参数、市场等因素的变化，导致准确性越来越低，当发现准确性降低时，通过人为调整大量数据模型又会增加许多工作量，且不能保证数据模型的客观准确。

发明内容

本发明要解决的技术问题是提供一种基于机器学习的目标用户群体预测模型构建方法，用于解决现有数据模型预测结果准确率低和工作量大的问题，实现准确高效的目标用户群体预测。

为解决上述技术问题，本发明采用如下技术方案：

设计一种基于机器学习的目标用户群体预测模型构建方法，包括下列步骤：

S1.选取或构造样本用户数据集，所述样本用户数据集包括样本的人口属性、兴趣特征、消费特征、位置特征、设备属性、行为数据、社交数据等；

S2.对步骤S1得到的目标用户数据集进行数据集的预处理工作，形成用户特征数据集；

预处理后的用户特征数据集分为两部分，其中70％-90％的数据集作为训练集用来训练模型，10％-30％的数据集作为测试集用来评估模型效果；

S3.基于步骤S2得到的样本用户特征数据集，使用其中70-90％的数据集作为训练集进行模型训练；

使用决策树CART分析法，采用基尼系数(gini)作为特征划分的度量；预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果；通过CART剪枝算法从完全生长的决策树底端减去一些子树，使决策树模型简化，从而能够对未知数据有更准确的预测；

S4.对训练得到的预测模型进行模型评估；

基于步骤S3得到的目标用户群体预测模型，使用10-30％的数据集作为测试集用来评估模型效果；

模型训练完成之后利用这个模型对测试集进行分类识别，即进行模型评估过程处理，模型评估的指标为：准确率、精确度、召回率和F分数；通过计算对应指标的数值来决定此预测模型是否可投入到实际使用场景；

S5.将通过步骤S4评估后所得的预测用户模型应用于实际使用场景，输入目标用户特征指标即可得出预测数据。

优选的，步骤S1中所述样本数据集的获取方式包括连接数据库单元和数据导入单元两种构建方式，连接数据库单元包含对接用户特征数据库源获取实时数据，数据导入单元是将不同渠道整理所得的历史数据导入至用户特征数据集内。

优选的，所述步骤S2中数据集的预处理过程包括：

S21.使用数据清洗技术消除偏离期望值的数据、纠正同一编码在不同表中出现不同值的错误数据并填充缺失值；

S22.使用数据降维技术，通过线型降维和非线性降维的方式，利用数据的监督方式来达到目标数据的降维效果；

S23.使用文本清洗技术，删除冗余特征或聚类消除多余数据；

S24.使用数据离散化技术，降低数据存储所需占用的大量内存空间，为特定的机器学习方法将连续值转换为类别特征；

S25.使用数据归一化处理技术，对步骤S24处理的特征向量features vector进行归一化处理，数据归一函数使用Sigmoid函数；

通过上述步骤S21-S25，构建目标样本数据集，生成目标用户特征数据集。

优选的，所述步骤S4中：

准确率为预测正确的结果占总样本的百分比，公式为：准确率＝(TP+TN)/(TP+TN+FP+FN)，准确率越高则模型也越好；

精确度为所有被预测为正的样本中实际为正的样本的概率，公式为：精确度＝TP/(TP+FP)，精确度即为识别目标正确的比例；

召回率为实际为正的样本中被预测为正样本的概率，其公式为：召回率＝TP/(TP+FN)，其中实际总正例等于识别对了的正例加上识别错了的负例；

其中：TP表示真正,True Positive，为被模型预测为正的正样本数量；

TN表示真负,True Negative，为被模型预测为负的负样本数量；

FP表示假正,False Positive，为被模型预测为正的负样本数量；

FN表示假负,False Negative，为被模型预测为负的正样本数量；

综合评价指标F-Measure又称F-Score，是召回率和精确度的加权调和平均。

优选的，该方法还包括步骤S6：在模型使用过程中，阶段性地搜集数据集，并重新进行步骤S3中的模型训练、步骤S4中的模型评估，从而实现模型的优化和自更新。

本发明的有益效果在于：

1.本发明技术方案通过数据处理中的数据模型使用的不断优化，动态进行参数的优化和数据处理，并不断优化达到精准预测。

2.与现有人工构建模型的技术相比，利用机器学习的方法，能够加快模型构建的速度，并且可以全天7×24小时不间断运行。

3.通过机器学习的方式，能够避免人为的输入错误、设置错误，减少人为的主观情感判断，从而避免人为干扰，减少错误，达到更高的准确率和精确度。

4.本发明构建出的基于机器学习的目标用户群体预测模型，适应变化能力强，既能满足快速训练出数据模型以供业务系统使用外，也能根据数据集特点的变化快速演进，避免模型过时。

附图说明

图1是本发明基于机器学习的目标用户群体预测模型构建方法的流程图；

图2是本发明步骤S2中数据集预处理过程的流程图；

图3是步骤S25中的Sigmoid函数示例图；

图4为步骤S4中PR曲线的示例图。

具体实施方式

下面结合实施例来说明本发明的具体实施方式，但以下实施例只是用来详细说明本发明，并不以任何方式限制本发明的范围。在以下实施例中所涉及的设备元件如无特别说明，均为常规设备元件。

实施例1：一种基于机器学习的目标用户群体预测模型构建方法，参见图1，包括下列步骤：

S1.选取或构造样本用户数据集，所述样本用户数据集包括样本的人口属性、兴趣特征、消费特征、位置特征、设备属性、行为数据、社交数据等。

步骤S1中所述样本数据集的获取方式包括连接数据库单元和数据导入单元两种构建方式，连接数据库单元包含对接用户特征数据库源获取实时数据，数据导入单元是将不同渠道整理所得的历史数据导入至用户特征数据集内。

S2.对步骤S1得到的目标用户数据集进行数据集的预处理工作，形成用户特征数据集。

参见图2，数据集的预处理过程包括：

S21.通过数据清洗技术，填充缺失值，检查并清除噪声值和异常值；

使用数据清洗技术消除偏离期望值的数据、纠正同一编码在不同表中出现不同值的错误数据并填充缺失值；

S22.通过数据降维技术，利用数据的监督方式来达到目标数据的降维效果；

使用数据降维技术，通过线型降维和非线性降维的方式，利用数据的监督方式来达到目标数据的降维效果，一方面可以解决“维数灾难”，缓解信息丰富、知识贫乏的现状，降低复杂度，另一方面可以更好地认识和理解数据。

S23.通过文本清洗技术，删除冗余特征或聚类消除多余数据；

S24.通过数据离散化技术，降低数据存储空间，为特定的机器学习方法将连续值转换为类别特征；

使用数据离散化技术，降低数据存储所需占用的大量内存空间，为特定的机器学习方法将连续值转换为类别特征。

S25.通过数据归一化处理技术，对抽取出来的特征向量features vector进行归一化处理；

对步骤S24处理后的目标用户样本数据集进行数据归一化处理，数据归一函数使用Sigmoid函数；参见图3，Sigmoid函数是一个具有S形曲线的函数，是良好的阈值函数，在(0,0.5)处中心对称，在(0,0.5)附近有比较大的斜率，而当数据趋向于正无穷和负无穷的时候，映射出来的值就会无限趋向于1和0，根据公式的改变，就可以改变分割阈值。

Sigmoid函数的LaTex公式为：{x}_{normalization}＝\frac{1}{1+{e}^{-x}}，该函数具有以下基本性质：

定义域：(-∞,+∞)(-∞,+∞)；

值域：(-1,1)(-1,1)；

函数在定义域内为连续和光滑函数；

处处可导，导数为：f′(x)＝f(x)(1-f(x))。

通过上述步骤S21-S21，构建目标样本数据集，生成目标用户特征数据集。

预处理后的用户特征数据集分为两部分，其中70-90％的数据集作为训练集用来训练模型，10-30％的数据集作为测试集用来评估模型效果。

S3.基于步骤S2得到的样本用户特征数据集，使用其中70％-90％的数据集作为训练集进行预测模型训练；

使用决策树CART分析法，采用基尼系数(gini)作为特征划分的度量。预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果。通过CART剪枝算法从完全生长的决策树底端减去一些子树，使决策树模型变简单，从而能够对未知数据有更准确的预测。

基于CART算法预测模型步骤为：

1、CART分类树生成算法

输入：训练数据集D，停止计算的条件；

输出：CART分类树。

根据训练数据集D，从根结点开始，递归地对每个结点进行以下操作，构建二叉决策树：

(1)设结点的训练数据集为D，计算现有特征对该数据集的基尼指数。此时，对每个特征A，对其可能取的每个值a，根据样本点对A＝a的测试为“是”或“否”，将D分割成D1和D2两部分，计算A＝a时的基尼指数：

(2)在所有可能的特征A以及它们的所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去。

(3)对两个子结点递归调用(1)和(2)，直到满足停止条件(结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值，或没有更多特征)。

(4)生成CART分类树。

2、CART剪枝算法

输入：CART算法生成的决策树；

输出：最优决策树T_α。

(1)设k＝0，T＝T₀；

(2)设α＝+∞；

(3)自下而上地对各内部结点t计算：对训练数据的预测误差C(T_t)，T_t的叶结点个数|T_t|(T_t表示t为根结点的子树)，以及：

α＝min(α，g(t))

(4)对g(t)＝α的内部结点t进行剪枝，并对叶结点t以多数表决法决定其类，得到树T；

(5)设k＝k+1，α_k＝α，T_k＝T；

(6)若T_k不是由根结点及两个叶结点构成的数，则回到步骤(2)，否则令T_k＝T_n；

(7)采用交叉验证法在子树序列T₀，T₁，...，T_n中选取最优子树T_α。

上述模型训练处理完成后，进行模型评估过程处理。

S4.对训练得到的预测模型进行模型评估；

基于步骤S3得到的目标用户群体预测模型，使用其中10％-30％的数据集作为测试集用来评估模型效果；模型训练完成之后利用这个模型进行用户群体识别，即进行模型评估过程处理，模型评估的指标为：准确率、精确度P、召回率R和F分数。通过计算对应指标的数值来决定此预测模型是否可投入到实际使用场景。

首先做如下定义：

TP(真正，True Positive)为被模型预测为正的正样本数量；

TN(真负，True Negative)为被模型预测为负的负样本数量；

FP(假正，False Positive)为被模型预测为正的负样本数量；

FN(假负，False Negative)为被模型预测为负的正样本数量。

准确率为预测正确的结果占总样本的百分比，公式为：准确率＝(TP+TN)/(TP+TN+FP+FN)，准确率越高则模型也越好。

精确度P为所有被预测为正的样本中实际为正的样本的概率，公式为：精确度＝TP/(TP+FP)，精确度即为识别目标正确的比例。

召回率R为实际为正的样本中被预测为正样本的概率，其公式如下：召回率＝TP/(TP+FN)，其中实际总正例等于识别对了的正例加上识别错了的负例(真正例+伪负例)。其中，正例：所关注的识别目标就是正例。负例：正例以外就是负例。

精确度与召回率都与TP值紧密相关，TP值越大，精确度、召回率就越高。理想情况下，精确度、召回率越高越好。但单独的高精确度或高召回率，都不足以体现模型的高性能。

实际中，精确度与召回率是相互影响的，通常，精确度高时，召回率就会往往偏低，而召回率高时，精确度则会偏低。

精确度代表目标样本查找的准确率，召回率代表目标对象查找的全面度，若要精确度高，即模型给出的目标都正确，则需提高阈值门槛，阈值提高，符合要求的目标减少，必然会导致召回率降低。

相反，若要召回率高，即目标样本都找到，则需降低阈值门槛，才能查找到所有目标，与此同时会查到到部分伪目标，从而导致精确度降低。

PR曲线即是以召回率R为横轴，精确度P为纵轴画出的曲线，参见图4。公式为：F1＝(2×P×R)/(P+R)。

AP(average precision)值，PR曲线下的面积称为AP，表示召回率从0-1的平均精确度值。PR曲线下的面积越大，模型性能则越好。性能优的模型应是在召回率R增长的同时保持精确度P值都在一个较高的水平，而性能较低的模型需要降低P值才能换来R值的提高。

mAP(Mean Average Precison)值，AP是衡量模型在单个类别上平均精确度的好坏，mAP则是衡量模型在所有类别上平均精确度的好坏，每一个类别对应有一个AP，假设有n个类别，则有n个AP，分别为：AP1，AP2，…，APn,mAP就是取所有类别AP的平均值。

综合评价指标F-Measure又称F-Score，是召回率R和精确度P的加权调和平均，能够调和召回率R和精确度P之间增减反向的矛盾。

如果模型评估的结果达到预期，则进行步骤S5；如果模型评估的结果未达到预期，则重新进行步骤S1，选取或构造更多的样本用户数据集，基于新的数据集再进行步骤S2-S4，直到模型评估达到预期标准。

S5.将通过步骤S4评估后所得的预测用户模型应用于实际使用场景，输入目标用户指标即可得出预测数据。

随着模型使用，系统数据集会持续增大，增加的数据集会随着时间的变化和市场形势的变化而变化，在这个过程中，原先训练好的模型的精确度会越来越低。

因此，进一步地，还包括步骤S6：在模型使用过程中，阶段性地搜集数据集，并重新进行步骤S3中的模型训练、步骤S4中的模型评估，从而实现模型的优化和自更新。这一步就是针对数据或者标签的变化或者参数的变化进行的不断优化的过程，也是强化机器学习的深度和数据预测的精准度。

本发明适用于某一特定产品或者症状的筛选和确认，也可以用于零售行业进行客户预测用于精准营销；也可以用于对于消费者人群的筛选预测，然后进行匹配营销广告等；也可基于企业涉税/工商/司法/知识产权等信息向第三方提供实时的企业征信预测，辅助政府、银行等三方机构进行决策审批。本发明构建的基于机器学习的目标用户群体预测模型，适应变化能力强，既能满足快速训练出数据模型以供业务系统使用外，也能根据数据集特点的变化快速演进，避免模型过时。

上面结合实施例对本发明作了详细的说明，但是所属技术领域的技术人员能够理解，在不脱离本发明宗旨的前提下，还可以对上述实施例中的各个具体参数进行变更，形成多个具体的实施例，均为本发明的常见变化范围，在此不再一一详述。

Claims

1.一种基于机器学习的目标用户群体预测模型构建方法，其特征在于，包括下列步骤：

S1.选取或构造样本用户数据集，所述样本用户数据集包括样本的人口属性、兴趣特征、消费特征、位置特征、设备属性、行为数据、社交数据；

预处理后的用户特征数据集分为两部分，其中70%-90%的数据集作为训练集用来训练模型，10%-30%的数据集作为测试集用来评估模型效果；

S3.基于步骤S2得到的样本用户特征数据集，使用70-90%的数据集作为训练集进行预测模型训练；

使用决策树CART分析法，采用基尼系数作为特征划分的度量；预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果；通过CART剪枝算法从完全生长的决策树底端减去一些子树，使决策树模型简化，从而能够对未知数据有更准确的预测；

S4.对训练得到的预测模型进行模型评估；

基于步骤S3得到的预测模型，使用10-30%的数据集作为测试集用来评估模型效果；模型训练完成之后利用这个模型进行用户群体分类，即进行模型评估过程处理；模型评估的指标为：准确率、精确度、召回率和F分数，通过计算对应指标的数值来决定此预测模型是否可投入到实际使用场景；

S5.将通过步骤S4评估后所得的预测模型应用于实际使用场景，输入目标用户特征指标即可得出预测数据。

2.根据权利要求1所述的基于机器学习的目标用户群体预测模型构建方法，其特征在于，步骤S1中所述样本数据集的获取方式包括连接数据库单元和数据导入单元两种构建方式，连接数据库单元包含对接用户特征数据库源获取实时数据，数据导入单元是将不同渠道整理所得的历史数据导入至用户特征数据集内。

3.根据权利要求1所述的基于机器学习的目标用户群体预测模型构建方法，其特征在于，所述步骤S2中数据集的预处理过程包括：

S23.使用文本清洗技术，删除冗余特征或聚类消除多余数据；

4.根据权利要求1所述的基于机器学习的目标用户群体预测模型构建方法，其特征在于，所述步骤S4中：

准确率为预测正确的结果占总样本的百分比，公式为：准确率=（TP+TN）/（TP+TN+FP+FN），准确率越高则模型也越好；

精确度为所有被预测为正的样本中实际为正的样本的概率，公式为：精确度=TP/（TP+FP），精确度即为识别目标正确的比例；

召回率为实际为正的样本中被预测为正样本的概率，其公式为：召回率=TP/（TP+FN），其中实际总正例等于识别对了的正例加上识别错了的负例；

其中：TP表示真正, True Positive，为被模型预测为正的正样本数量；

TN表示真负, True Negative，为被模型预测为负的负样本数量；

FP表示假正, False Positive，为被模型预测为正的负样本数量；

FN表示假负, False Negative，为被模型预测为负的正样本数量；

5.根据权利要求1所述的基于机器学习的目标用户群体预测模型构建方法，其特征在于，还包括步骤S6：

在模型使用过程中，阶段性地搜集数据集，并重新进行步骤S3中的模型训练、步骤S4中的模型评估，从而实现模型的优化和自更新。