CN117114735A

CN117114735A - 一种市场营销数据统计方法及装置

Info

Publication number: CN117114735A
Application number: CN202311132448.4A
Authority: CN
Inventors: 栾红旭
Original assignee: Jilin Institute of Chemical Technology
Current assignee: Jilin Institute of Chemical Technology
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-11-24

Abstract

本发明公开了一种市场营销数据统计方法及装置，包括：步骤1：收集市场营销数据；步骤2：使用训练集数据建立决策树模型；步骤3：使用随机森林算法建立模型；步骤4：使用正则化线性回归模型，正则化项将模型系数限制在一定范围内，防止过度拟合；步骤5：使用测试集数据评估模型性能，比较不同算法的性能，选择在新数据上表现较好的模型；步骤6：通过投票将决策树模型、随机森林模型和正则化线性回归模型进行集成，得到预测结果。本发明可以减少模型的过度拟合问题，提高在新数据上的泛化能力，从而更好地应对市场营销数据的挑战。

Description

一种市场营销数据统计方法及装置

技术领域

本发明涉及数据统计技术领域，特别涉及一种市场营销数据统计方法装置。

背景技术

市场营销数据统计是指收集、整理、分析和解释与市场营销活动相关的各种数据的过程。这些数据可以来自各种渠道，包括消费者行为、销售数据、市场趋势、竞争对手信息等。市场营销数据统计的目的是为了帮助企业更好地了解市场环境，做出更明智的决策，优化营销策略，提升销售业绩。市场营销数据统计过程中，可能会遇到各种问题，比如过度拟合：在使用机器学习算法时，可能出现过度拟合的情况，即模型在训练数据上表现良好，但在新数据上表现不佳。

发明内容

为了解决以上问题，本发明提供了一种市场营销数据统计方法。

为实现上述目的，本发明所采用的技术方案如下：

一方面，本申请公开一种市场营销数据统计方法，包括如下步骤：

步骤1：收集市场营销数据，包括消费者行为、销售数据，对数据进行清洗，处理缺失值、异常值，将数据划分为训练集和测试集；

步骤2：使用训练集数据建立决策树模型，决策树通过基尼不纯度来划分节点，选择最佳特征，通过控制决策树的深度，限制模型的复杂性，避免过度拟合；

步骤3：使用随机森林算法建立模型，随机森林通过随机选择特征和样本来训练多个决策树，以减少单一模型的过拟合风险，通过投票预测结果，综合多个决策树的预测；

步骤4：使用正则化线性回归模型，正则化项将模型系数限制在一定范围内，防止过度拟合；

步骤5：使用测试集数据评估模型性能，比较不同算法的性能，选择在新数据上表现较好的模型；

步骤6：通过投票将决策树模型、随机森林模型和正则化线性回归模型进行集成，得到预测结果。

进一步的：步骤1包括：

收集市场营销数据；

对于市场营销数据的特征x，缺失的数据点用x_missing表示，计算该特征的均值mean(x)，使用以下公式：

其中，xi是特征x在样本i中的取值，n是样本数量，将缺失的数据点用特征的均值填充，得到填充后的值x_illed：

X_filled＝mean(x)

对于特征x，其均值为mean(x)，标准差为stddev(x)，设定阈值k，对于样本i，计算其与均值的差的绝对值：

deviation＝∣x_i-mean(x)∣

判断样本i是否为异常值：Outlier＝deviation＞k×stddev(x)，如果Outlier为真，表示样本i是一个异常值。

进一步的：所述步骤2包括：

计算基尼不纯度，计算公式如下：

其中，C是类别的数量，p_i是第i个类别的样本比例；

在划分节点时，计算每个可能的划分的加权基尼不纯度，对于特征A的划分，加权基尼不纯度的计算公式如下：

其中，S是当前节点的样本集，S_v是特征A的某个划分对应的子样本集；

选择能够使加权基尼不纯度最小化的划分特征作为当前节点的划分特征；

对于每个划分出的子节点，重复上述步骤，直到满足终止条件为止。

进一步的：所述步骤3包括：

建立随机森林：随机选择一定数量的样本作为训练集，构建一个决策树，对于每个决策树，随机选择一部分特征作为候选特征，以增加模型的多样性，重复上述步骤多次，建立多个决策树，形成随机森林；

进行投票预测：对于分类问题，使用投票策略来进行预测，对于每个样本，在随机森林中的每个决策树上进行预测，然后选择得票最多的类别作为最终预测结果，对于分类，使用投票预测公式：

其中，P_treei表示第i个决策树的预测结果；

对于回归问题，计算多个决策树的预测平均值作为最终预测结果；

模型评估和选择：使用测试集数据评估随机森林模型的性能，比较不同模型的性能，选择在新数据上表现较好的模型。

进一步的：所述步骤4包括：

正则化线性回归目标函数：引入L1正则化项，用于约束模型的系数，防止过度拟合，回归的目标函数如下：

其中，N是样本数量，p是特征数量，y_i是第i个样本的目标值，x_ij是第i个样本在特征j上的取值，β₀是截距项，β_j是特征j的系数，λ是正则化参数，控制正则化项的强度；

优化目标函数：通过最小化Lasso回归的目标函数来求解模型的系数；

调节正则化参数：通过调节正则化参数λ，可以控制正则化项的影响，其中，较大的λ可以使模型系数更加稀疏，减少过度拟合的风险；

模型评估和选择：使用测试集数据评估正则化线性回归模型的性能，比较不同模型的性能，选择在新数据上表现较好的模型。

进一步的：所述步骤5包括：

预测和真实标签：使用训练好的模型，对测试集数据进行预测，得到预测结果，同时，获取测试集中的真实标签；

计算混淆矩阵：根据预测结果和真实标签，构建混淆矩阵，混淆矩阵为：

	预测正类	预测负类
			实际正类	TP	FN
实际负类	FP	TN

其中，TP是真正例数量，FP是假正例数量，FN是假负例数量，TN是真负例数量；

计算性能指标：根据混淆矩阵，计算以下性能指标：

精度：预测为正类的样本中真正为正类的比例

召回率：真实为正类的样本中被预测为正类的比例

F1分数：综合考虑精度和召回率的调和平均

模型评估和选择：根据性能指标的大小，选择在测试集上表现较好的模型作为最终选择。

进一步的：所述步骤6包括：

对新数据进行预测：对于新的市场营销数据，分别使用三个模型进行预测，得到各个模型的预测结果；

投票集成：对于分类问题，采用投票策略，对于每个样本，在三个模型的预测结果中，选择得票最多的类别作为最终集成模型的预测结果；

投票集成预测公式：

Ensemble Prediction＝Majority Vote(P_{Decision Tree},P_{Random Forest},P_{Regularized Linear Regression})

其中P_{Decision Tree},P_{Random Forest},P_{Regularized Linear Regression}分别是三个模型的预测结果；

解释模型的预测结果：通过分析各个模型的预测过程，可以得到特征的重要性信息，帮助理解影响市场营销的因素。

另一方面，本申请公开一种市场营销数据统计装置，包括：

数据准备和预处理模块：收集市场营销数据，包括消费者行为、销售数据，对数据进行清洗，处理缺失值、异常值，将数据划分为训练集和测试集；

决策树模型建立模块：使用训练集数据建立决策树模型，决策树通过基尼不纯度来划分节点，选择最佳特征，通过控制决策树的深度，限制模型的复杂性，避免过度拟合；

随机森林模型建立模块：使用随机森林算法建立模型，随机森林通过随机选择特征和样本来训练多个决策树，以减少单一模型的过拟合风险，通过投票预测结果，综合多个决策树的预测；

正则化线性回归模型建立建模块：使用正则化线性回归模型，正则化项将模型系数限制在一定范围内，防止过度拟合；

模型评估和选择模块：使用测试集数据评估模型性能，比较不同算法的性能，选择在新数据上表现较好的模型；

模型集成和结果解释模块：通过投票将决策树模型、随机森林模型和正则化线性回归模型进行集成，得到预测结果。

本发明与现有技术相比，所取得的技术进步在于：

本综合应用了决策树、随机森林和正则化线性回归三种不同类型的模型。这种模型的集成可以克服每个单一模型的局限性，提高预测的稳定性和准确性。通过使用随机森林和正则化线性回归等算法，对决策树模型进行集成和正则化，能够有效减少模型的过度拟合风险，从而提高模型的泛化能力。随机森林和决策树可以计算特征的重要性，帮助理解哪些因素对市场营销具有显著影响。这有助于决策者更好地理解市场的动态和趋势。这种方法的模型组合和集成方式相对灵活，适用于不同类型的市场数据和业务场景。

决策树通过根据特征划分数据，能够捕捉数据中的非线性关系，具有很好的解释性。然而，单一决策树容易过拟合。在本方法中，决策树作为基本模型，通过后续的随机森林和正则化处理，能够一定程度上减少其过拟合问题。

随机森林利用多个决策树的集成，通过随机特征选择和样本有放回采样，提高了模型的泛化性能。它能够更好地应对过度拟合，通过投票集成方法，整合多个决策树的预测，增强了模型的稳定性和准确性。

正则化线性回归通过L1和L2正则化项，限制了模型参数的大小，从而防止过拟合。在本方法中，它作为另一种模型的补充，可以处理线性关系的数据，并且通过控制正则化参数，调整模型复杂性。

本发明结合了决策树、随机森林和正则化线性回归，充分利用了它们各自的优势，对解决过度拟合问题起到了协同作用。随机森林通过集成多个决策树，抑制了决策树的过度拟合，而正则化线性回归则通过对线性模型的参数施加约束，提供了对线性关系的更好建模。整体而言，本方法在市场营销数据分析中能够提供更加鲁棒和解释性强的预测结果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明的流程图。

具体实施方式

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

一方面，如图1所示的，本发明公开一种市场营销数据统计方法，包括如下步骤：

步骤1数据准备和预处理：收集市场营销数据，包括消费者行为、销售数据等。对数据进行清洗，处理缺失值、异常值等。将数据划分为训练集和测试集，通常采用70-30或80-20的比例。

步骤2建立决策树模型：使用训练集数据建立决策树模型。决策树算法可通过信息增益或基尼不纯度来划分节点，选择最佳特征。通过控制决策树的深度，限制模型的复杂性，避免过度拟合。

步骤3建立随机森林模型：使用随机森林算法建立模型，随机森林是多个决策树的集成。随机森林通过随机选择特征和样本来训练多个决策树，减少单一模型的过拟合风险。通过投票预测结果，综合多个决策树的预测。

步骤4建立正则化线性回归模型：使用正则化线性回归算法，在本实施例中使用Lasso回归。正则化项(L1或L2范数)将模型系数限制在一定范围内，防止过度拟合。通过调节正则化参数来控制模型的复杂性。

步骤5模型评估和选择：

使用测试集数据评估模型性能，包括精度、召回率、F1分数等指标。比较不同算法的性能，选择在新数据上表现较好的模型。

步骤6模型集成和结果解释：通过投票将决策树模型、随机森林模型和正则化线性回归模型进行集成。对于新数据，将集成模型应用于市场营销数据，得到预测结果。解释模型的预测结果，提取重要特征，理解影响市场营销的因素。

具体的，步骤1包括：

1.收集市场营销数据

2.数据清洗和处理

2.1均值填充：

对于某个特征x，缺失的数据点点用x_missing表示。

计算该特征的均值mean(x)，可以使用以下公式：

X_filled＝mean(x)

2.2异常值判定：

对于某个特征x，其均值为mean(x)，标准差为stddev(x)。

设定阈值k，通常取值为2或3，以控制判定的严格程度。

对于样本i，计算其与均值的差的绝对值：

deviation＝∣x_i-mean(x)∣

3.数据集划分

将数据分为训练集和测试集，例如采用80-20的比例。

训练集大小：Train Size＝0.8×Total Data Size

测试集大小：Test Size＝0.2×Total Data Size

通过以上步骤，可以确保准备好干净、合适的数据，分成训练集和测试集以供后续的算法建模和评估使用。注意，实际数据清洗和处理的方法可能因数据类型、质量和业务需求而有所不同。

具体的，步骤2包括：

1.计算基尼不纯度

基尼不纯度用于衡量一个数据集中的样本混合程度，计算公式如下：

其中，C是类别的数量，pi是第i个类别的样本比例。

2.计算加权基尼不纯度

在划分节点时，需要计算每个可能的划分的加权基尼不纯度。对于特征A的某个划分，加权基尼不纯度的计算公式如下：

其中，S是当前节点的样本集，S_v是特征A的某个划分对应的子样本集。

3.选择最佳划分特征

选择能够使加权基尼不纯度最小化的划分特征作为当前节点的划分特征。

4.递归划分

对于每个划分出的子节点，重复步骤2和步骤3，直到满足终止条件(如达到最大深度、样本数量过小等)为止。

具体的，步骤3包括：

1.建立随机森林

随机森林是通过建立多个决策树并将它们集成在一起来减少过度拟合的风险。

随机选择一定数量的样本(有放回地采样)作为训练集，构建一个决策树。

对于每个决策树，随机选择一部分特征作为候选特征，以增加模型的多样性。

重复上述步骤多次，建立多个决策树，形成随机森林。

2.进行投票预测

对于分类问题，使用投票策略来进行预测。对于每个样本，在随机森林中的每个决策树上进行预测，然后选择得票最多的类别作为最终预测结果。

对于分类问题，使用投票预测公式：

其中，P_treei表示第i个决策树的预测结果。

对于回归问题，可以计算多个决策树的预测平均值作为最终预测结果。

3.模型评估和选择

使用测试集数据评估随机森林模型的性能，比较不同模型的性能，选择在新数据上表现较好的模型。

通过使用投票预测，随机森林能够整合多个决策树的预测结果，从而提高模型的稳定性和泛化能力，有效地防止过度拟合。

通过使用基尼不纯度来划分节点，决策树会尝试在每个节点处选择最能减少类别混杂度的特征，从而构建一个具有较好泛化能力的模型，以防止过度拟合。

具体的，步骤4包括：

1.正则化线性回归目标函数(Lasso回归)

Lasso回归引入了L1正则化项，用于约束模型的系数，防止过度拟合。Lasso回归的目标函数如下：

其中，N是样本数量，p是特征数量，y_i是第i个样本的目标值，x_ij是第i个样本在特征j上的取值，β₀是截距项，β_j是特征j的系数，λ是正则化参数，控制正则化项的强度。

通过使用Lasso回归，正则化线性回归能够通过约束模型的系数来防止过度拟合，并且可以通过调节正则化参数来控制模型的复杂性。

2.优化目标函数

通过最小化Lasso回归的目标函数来求解模型的系数。这可以使用梯度下降等优化方法来实现。具体如下：

2.1初始化模型参数

初始化模型的系数β_j，截距项β₀，以及学习率α(步长)。

2.2迭代更新模型参数

重复以下步骤直至收敛(达到一定迭代次数或误差变化很小)：

对于每个模型参数β_j，计算梯度下降的更新量：

对于截距项β₀，更新方式与普通线性回归类似：

其中，是样本i的预测值。

2.3更新系数

更新模型参数β_j，将每个系数减去相应的更新量Δβ_j。

2.4调整学习率

可以根据需要，逐渐减小学习率α，以便在逼近最优解时收敛更快。

梯度下降方法通过迭代调整模型参数，使得目标函数逐渐减小，从而逼近最优解。通过不断更新模型参数，最终得到一组使得Lasso回归的目标函数达到最小值的系数，这些系数即为模型的最终参数。

3.调节正则化参数

通过调节正则化参数λ，可以控制正则化项的影响。较大的λ可以使模型系数更加稀疏，减少过度拟合的风险。

4.模型评估和选择

使用测试集数据评估正则化线性回归模型的性能，比较不同模型的性能，选择在新数据上表现较好的模型。

4.1预测

使用训练好的正则化线性回归模型，对测试集数据进行预测，得到预测值

4.2.计算性能指标

根据预测值和实际值，计算模型的性能指标，比如均方误差。均方误差的计算公式：

其中，N是测试集样本数量，yi是第i个样本的实际值，是预测值。

4.3选择性能较好的模型

根据性能指标的大小，选择在测试集上表现较好的模型作为最终选择。通常情况下，较小的均方误差(MSE)或较大的决定系数(R-squared)意味着模型的预测效果较好。通过对不同模型的性能评估和比较，可以选择性能最佳的模型，以在新数据上表现更好并有效防止过度拟合。

具体的，步骤5包括：

1.预测和真实标签

使用训练好的模型，对测试集数据进行预测，得到预测结果(如分类标签)。同时，获取测试集中的真实标签。

2.计算混淆矩阵

根据预测结果和真实标签，构建混淆矩阵，以便计算精度、召回率和F1分数等指标。混淆矩阵的一般形式：

	预测正类	预测负类
			实际正类	TP	FN
实际负类	FP	TN

3.计算性能指标：根据混淆矩阵，计算以下性能指标：

精度：预测为正类的样本中真正为正类的比例

召回率：真实为正类的样本中被预测为正类的比例

F1分数：综合考虑精度和召回率的调和平均

4.选择性能较好的模型

根据性能指标的大小，选择在测试集上表现较好的模型作为最终选择。

通过对不同模型的性能评估和比较，可以选择性能最佳的模型，以在新数据上表现更好。这些指标能够帮助判断模型的分类能力以及是否有效地防止过度拟合。

具体的，步骤6包括：

1.建立单个模型

分别按照之前的步骤建立决策树、随机森林和正则化线性回归模型。

2.对新数据进行预测

对于新的市场营销数据，分别使用这三个模型进行预测，得到各个模型的预测结果。

3.投票集成

对于分类问题，可以采用投票策略。对于每个样本，在这三个模型的预测结果中，选择得票最多的类别作为最终集成模型的预测结果。投票集成预测公式：

Ensemble Prediction＝Majority Vote(P_{Decision Tree},P_RandomForest,P_{Regularized Linear Regression})

其中P_DecisionTree,P_RandomForest,P_{Regularized Linear Regression}分别是三个模型的预测结果。

4.解释模型的预测结果

对于集成模型的预测结果，可以进行以下操作：

通过分析各个模型的预测过程，可以得到特征的重要性信息，帮助理解影响市场营销的因素。

通过模型集成，能够结合不同模型的优势，从而获得更准确和稳健的预测结果，并且可以通过解释模型的预测结果来理解市场营销的关键因素。

实施例二

另一方面，本申请公开一种市场营销数据统计装置，包括如下模块：

模型集成和结果解释模块：通过投票将决策树模型、随机森林模型和正则化线性回归模型进行集成，得到预测结果。上述模块用于实现实施例1中的内容。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行同替换。凡在本发明的精神和原则之内，所作的任何修改、同替换、改进，均应包含在本发明权利要求保护的范围之内。

Claims

1.一种市场营销数据统计方法，其特征在于，包括如下步骤：

步骤1：收集市场营销数据，处理缺失值、异常值，将数据划分为训练集和测试集；

2.根据权利要求1所述的一种市场营销数据统计方法，其特征在于，所述步骤1包括：

收集市场营销数据；

X_filled＝mean(x)

deviation＝∣x_i-mean(x)∣

3.根据权利要求2所述的一种市场营销数据统计方法，其特征在于，所述步骤2包括：

计算基尼不纯度，计算公式如下：

其中，C是类别的数量，p_i是第i个类别的样本比例；

4.根据权利要求3所述的一种市场营销数据统计方法，其特征在于，所述步骤3包括：

其中，P_treei表示第i个决策树的预测结果；

5.根据权利要求4所述的一种市场营销数据统计方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的一种市场营销数据统计方法，其特征在于，所述步骤5包括：

预测正类预测负类实际正类 TP FN 实际负类 FP TN

计算性能指标：根据混淆矩阵，计算以下性能指标：

精度：预测为正类的样本中真正为正类的比例

召回率：真实为正类的样本中被预测为正类的比例

F1分数：综合考虑精度和召回率的调和平均

7.根据权利要求6所述的一种市场营销数据统计方法，其特征在于，所述步骤6包括：

投票集成预测公式：

8.一种基于权利要求1-7任一项所述的一种市场营销数据统计装置，其特征在于，包括：