CN116822989A

CN116822989A - 烟草市场治理效果评价的模型训练方法、系统和装置

Info

Publication number: CN116822989A
Application number: CN202310742403.2A
Authority: CN
Inventors: 徐从虎
Original assignee: Anhui Province Tobacco Co Bengbu City Branch
Current assignee: Anhui Province Tobacco Co Bengbu City Branch
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-29

Abstract

本发明公开了烟草市场治理效果评价的模型训练方法、系统和装置，包括：采集区域内烟草市场管理数据，并将对应的烟草市场管理数据的历史数据作为样本数据；对样本数据进行预处理，将预处理后的样本数据组成样本集合，将历史采样时间分为相同的采样时间段，将每个采样时间段对应的样本数据分为样本子集合；将样本子集合的数据输入不同的数据分析模型进行训练，通过不同的数据分析模型进行下一时间段的样本数据的预测，并使用下一采样时间段的样本组数据进行验证；筛选出拟合优度最好的数据分析模型；便于提高模型预测精度；对于不同的数据集，损失函数对数据分析模型进行校正，从而使模型更好地适应于不同类型的数据。

Description

烟草市场治理效果评价的模型训练方法、系统和装置

技术领域

本发明涉及烟草行业数字化管理技术领域，具体涉及烟草市场治理效果评价的模型训练方法、系统和装置。

背景技术

烟草市场治理效果评价指的是根据烟草市场的烟草销售数据、税收数据、烟草产品质量数据以及未成年人吸烟率数据等具有反应烟草市场情况的数据，提供对为了数据的预测分析，有助于帮助监管部门发现问题和不足之处，从而针对性地改进和完善治理措施，进一步提高烟草市场管理水平。

烟草市场治理效果评价是通过模型训练对数据进行预测，便于反应出烟草市场治理效果。效果评价模型训练方法通常是指机器学习中的一种方法，通过对已有数据进行训练和学习，让机器学会如何根据输入数据进行评估和分类，从而实现对新数据的预测和判断。现有的烟草市场治理效果评价技术在进行训练过程中易出现历史数据过拟合的状况，难以保证评价模型的预测精度和鲁棒性，也难以使得模型适应于不同类型的数据。

发明内容

本发明的目的在于提供烟草市场治理效果评价的模型训练方法、系统和装置，解决以下技术问题：

现有的烟草市场治理效果评价技术在进行训练过程中易出现历史数据过拟合的状况，难以保证评价模型的预测精度和鲁棒性，也难以使得模型适应于不同类型的数据。

本发明的目的可以通过以下技术方案实现：

烟草市场治理效果评价的模型训练方法，包括：

S1：采集区域内烟草市场管理数据，并将对应的烟草市场管理数据的历史数据作为样本数据；

S2：对样本数据进行预处理，将预处理后的样本数据组成样本集合，将历史采样时间分为相同的采样时间段，将每个采样时间段对应的样本数据分为样本子集合；

S3：将样本子集合的数据输入不同的数据分析模型进行训练，通过不同的数据分析模型进行下一时间段的样本数据的预测，并使用下一采样时间段的样本组数据进行验证，直至所有采样时间段的样本组数据均验证完成；

筛选出拟合优度最好的数据分析模型；

S4：将所有样本数据输入到筛选出的数据分析模型，对筛选出的数据分析模型进行测试，并利用损失函数对筛选出的数据分析模型进行校正，得到最终的评价模型。

作为本发明进一步的方案：烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。

作为本发明进一步的方案：所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。

作为本发明进一步的方案：数据分析模型包括：多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。

作为本发明进一步的方案：所述步骤S3包括以下步骤：

将样本子集合的数据输入不同的数据分析模型进行训练，通过不同的数据分析模型进行下一时间段的样本数据的预测，并使用下一采样时间段的样本组数据进行验证，直至所有采样时间段的样本组数据均验证完成，得到不同数据分析模型在每个采样时间段的预测偏差；

将历史采样时间分为相同的检测时间段，比较不同数据分析模型在每个检测时间段的预测偏差，排除历史采样时间中最新的检测时间段中预测偏差最大的数据分析模型，并在其余的数据分析模型中筛选出拟合优度最好的数据分析模型；

其中，检测时间段大于采样时间段。

作为本发明进一步的方案：所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正，包括以下步骤：

将所述步骤S3筛选出的数据分析模型表示为：

y＝f(x；θ)

其中，x为样本数据，y是模型对样本的预测值，θ是模型参数；

通过均方误差法作为损失函数对数据分析模型进行校正，均方误差MSE表示为：

其中，n是样本总数，y_i是样本i的真实值，f(x；θ)是模型对样本i的预测值；

通过梯度下降算法得到均方误差MSE的最小值时，f(x；θ)中对应的的参数值θ，得到参数校正后的数据分析模型；

将所有样本数据作为数据集，将数据集分为训练集和测试集，通过训练集和测试集对参数校正后的数据分析模型进行交叉验证，确定最佳的正则化参数值；

根据最佳的正则化参数值对模型进行Elastic Net正则化处理。

烟草市场治理效果评价系统,包括：

数据收集模块，定期采集区域内不同特征因素的数据，并将采集的样本数据发送至数据清洗模块；

数据清洗模块，用于对样本数据进行预处理；

特征提取模块，用于通过设定的特征因素，对数据进行特征提取；

模型训练模块，用于根据特征提取的结果，分别通过多元线性回归模型、非线性回归模型、决策树模型和神经网络模型，对不同的特征因素进行模型训练，筛选出模型训练模块中拟合优度最好的数据分析模型；

数据分析模块，将所有样本数据输入到筛选出的数据分析模型，对筛选出的数据分析模型进行测试，并利用损失函数对筛选出的数据分析模型进行校正，得到最终的评价模型，通过最终的评价模型对不同特征因素的进行评价预测。

作为本发明进一步的方案：特征因素包括：烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。

作为本发明进一步的方案：烟草市场治理效果评价系统，还包括：

行业政策收集模块，用于收集烟草行业相关的新闻和资讯组成新闻库；

烟草行业政策展示模块，用于从新闻库中抓取包含特征因素关键词的烟草行业政策，并将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上。

烟草市场治理效果评价设备，包括：

存储器，所述存储器存储计算机执行指令；

处理器，执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1-6任一项所述的烟草市场治理效果评价的模型训练方法或权利要求7-9任一项所述的烟草市场治理效果的评价系统。

本发明的有益效果：

(1)本发明通过将样本子集合的数据输入不同的数据分析模型进行训练，并使用下一采样时间段的样本组数据进行验证，便于验证模型的准确性。下一时间段的数据可以作为对模型预测结果的真实检验；同时通过不同的数据分析模型进行下一时间段的样本数据的预测，下一采样时间段的样本组数据进行验证可及时调整模型参数；通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性，即模型对于数据的变化的稳定性，如果模型在预测下一时间段的数据时依然表现出色，那么说明模型具有良好的鲁棒性。

(2)本发明对筛选出的数据分析模型进行测试，并利用损失函数对筛选出的数据分析模型进行校正，通过优化损失函数，可以调整模型参数，从而最小化预测误差，提高模型预测精度；更好地适应于实际数据，对于不同的数据集，损失函数对数据分析模型进行校正，从而使模型更好地适应于不同类型的数据。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1所示，本发明为烟草市场治理效果评价的模型训练方法，包括：

筛选出拟合优度最好的数据分析模型；

具体的，通过将样本子集合的数据输入不同的数据分析模型进行训练，并使用下一采样时间段的样本组数据进行验证，便于验证模型的准确性。下一时间段的数据可以作为对模型预测结果的真实检验；同时通过不同的数据分析模型进行下一时间段的样本数据的预测，下一采样时间段的样本组数据进行验证可及时调整模型参数；也便于评价模型的鲁棒性，通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性，即模型对于数据的变化的稳定性，如果模型在预测下一时间段的数据时依然表现出色，那么说明模型具有良好的鲁棒性。

同时，对筛选出的数据分析模型进行测试，并利用损失函数对筛选出的数据分析模型进行校正，通过优化损失函数，可以调整模型参数，从而最小化预测误差，提高模型预测精度；更好地适应于实际数据，对于不同的数据集，损失函数对数据分析模型进行校正，从而使模型更好地适应于不同类型的数据。

在本发明其中一个实施例中，烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。

在本发明其中一个实施例中，所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。

在本发明其中一个实施例中，数据分析模型包括：多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。

在本发明其中一个实施例中，所述步骤S3包括以下步骤：

其中，检测时间段大于采样时间段。

具体的，通过将样本子集合的数据输入不同的数据分析模型进行训练，并使用下一采样时间段的样本组数据进行验证，便于验证模型的准确性。通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性，即模型对于数据的变化的稳定性，如果模型在预测下一时间段的数据时依然表现出色，那么说明模型具有良好的鲁棒性。

同时通过排除对最新数据预测偏差最大的模型，可以优选出对最新数据预测更加更精确的模型，进而提高模型的准确性。同时最新数据预测偏差最大的模型很可能是对历史数据过度拟合的模型，通过排除这些模型进一步增强模型的鲁棒性，提高模型的泛化能力。

在本发明其中一个实施例中，所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正，包括以下步骤：

将所述步骤S3筛选出的数据分析模型表示为：

y＝f(x；θ)

根据最佳的正则化参数值对模型进行Elastic Net正则化处理。

具体的，通过以下方法对参数校正后的数据分析模型进行交叉验证：

将训练集分为K份，其中一份作为验证集，其余K-1份作为训练集；

对K-1份训练集中的数据进行模型训练，用验证集来评估数据分析模型的性能；

重复步骤1和步骤2，直到每个分区都用过一次作为验证集；

对K次不同验证结果的性能进行平均，得到数据分析模型在训练集上的性能估计。

通过使用交叉验证来避免使用测试集来选择模型或模型参数，导致的模型对测试集的过度拟合。

同时，通过对模型进行Elastic Net正则化处理；

在模型训练过程中，加入一个用于惩罚模型复杂度的项，以避免模型对训练数据的过度拟合。在进行Elastic Net正则化处理中，同时采用L1和L2正则化方法，正则化参数就是用于控制这两种方法之间的相对权重的超参数。正则化参数的值越大，则L1正则化Lasso的作用更加明显，越有可能让模型系数变为0；反之则L2正则化Ridge则更加明显。通常情况下，需要在训练集上进行交叉验证，通过选择最佳的正则化参数值来达到通过均方误差法作为损失函数对数据分析模型进行校正时，可能导致的模型的过拟合问题，提高最终训练模型的泛化能力。

实施例二

烟草市场治理效果评价系统,包括：

数据清洗模块，用于对样本数据进行预处理；

具体的，对筛选出的数据分析模型进行测试，并利用损失函数对筛选出的数据分析模型进行校正，通过优化损失函数，可以调整模型参数，从而最小化预测误差，提高模型预测精度；更好地适应于实际数据，对于不同的数据集，损失函数可以进行适当的调整，从而使模型更好地适应于不同类型的数据。

在本发明其中一个实施例中，特征因素包括：烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。

在本发明其中一个实施例中，烟草市场治理效果评价系统，还包括：

具体的，建立数据采集系统，可以使用网络爬虫程序抓取新闻和资讯，也可以手动录入数据；创建数据库。可以选择使用专业的数据库软件，如MySQL、Microsoft SQL Server等，或者使用轻量级的数据库工具，如SQLite；同时将将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上，也便于根据烟草行业政策来分析对应的特征因素的评价预测结果。

实施例三

烟草市场治理效果评价设备，包括：

存储器，所述存储器存储计算机执行指令；

处理器，执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1-6任一项所述的烟草市场治理效果评价的模型训练方法或权利要求7-9任一项所述的烟草市场治理效果的评价系统

在本发明的描述中，需要理解的是，术语“上”、“下”、“左”、“右”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以及特定的方位构造和操作，因此，不能理解为对本发明的限制。此外，“第一”、“第二”仅由于描述目的，且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”“相连”“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.烟草市场治理效果评价的模型训练方法，其特征在于，包括：

筛选出拟合优度最好的数据分析模型；

2.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于，烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。

3.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于，所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。

4.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于，数据分析模型包括：多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。

5.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于，所述步骤S3包括以下步骤：

其中，检测时间段大于采样时间段。

6.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于，所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正，包括以下步骤：

将所述步骤S3筛选出的数据分析模型表示为：

y＝f(x；θ)

根据最佳的正则化参数值对模型进行ElasticNet正则化处理。

7.烟草市场治理效果评价系统,其特征在于，包括：

数据清洗模块，用于对样本数据进行预处理；

8.根据权利要求7所述的烟草市场治理效果评价系统,其特征在于，所述特征因素包括：烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。

9.根据权利要求7所述的烟草市场治理效果评价系统,其特征在于，还包括：

10.烟草市场治理效果评价设备，其特征在于，包括：

存储器，所述存储器存储计算机执行指令；