CN116822989A - 烟草市场治理效果评价的模型训练方法、系统和装置 - Google Patents
烟草市场治理效果评价的模型训练方法、系统和装置 Download PDFInfo
- Publication number
- CN116822989A CN116822989A CN202310742403.2A CN202310742403A CN116822989A CN 116822989 A CN116822989 A CN 116822989A CN 202310742403 A CN202310742403 A CN 202310742403A CN 116822989 A CN116822989 A CN 116822989A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- sample
- data analysis
- tobacco
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000208125 Nicotiana Species 0.000 title claims abstract description 76
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 title claims abstract description 55
- 230000000694 effects Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007405 data analysis Methods 0.000 claims abstract description 97
- 238000005070 sampling Methods 0.000 claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000013210 evaluation model Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 230000000391 smoking effect Effects 0.000 claims description 7
- 235000019505 tobacco product Nutrition 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Manufacturing & Machinery (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了烟草市场治理效果评价的模型训练方法、系统和装置,包括:采集区域内烟草市场管理数据,并将对应的烟草市场管理数据的历史数据作为样本数据;对样本数据进行预处理,将预处理后的样本数据组成样本集合,将历史采样时间分为相同的采样时间段,将每个采样时间段对应的样本数据分为样本子集合;将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证;筛选出拟合优度最好的数据分析模型;便于提高模型预测精度;对于不同的数据集,损失函数对数据分析模型进行校正,从而使模型更好地适应于不同类型的数据。
Description
技术领域
本发明涉及烟草行业数字化管理技术领域,具体涉及烟草市场治理效果评价的模型训练方法、系统和装置。
背景技术
烟草市场治理效果评价指的是根据烟草市场的烟草销售数据、税收数据、烟草产品质量数据以及未成年人吸烟率数据等具有反应烟草市场情况的数据,提供对为了数据的预测分析,有助于帮助监管部门发现问题和不足之处,从而针对性地改进和完善治理措施,进一步提高烟草市场管理水平。
烟草市场治理效果评价是通过模型训练对数据进行预测,便于反应出烟草市场治理效果。效果评价模型训练方法通常是指机器学习中的一种方法,通过对已有数据进行训练和学习,让机器学会如何根据输入数据进行评估和分类,从而实现对新数据的预测和判断。现有的烟草市场治理效果评价技术在进行训练过程中易出现历史数据过拟合的状况,难以保证评价模型的预测精度和鲁棒性,也难以使得模型适应于不同类型的数据。
发明内容
本发明的目的在于提供烟草市场治理效果评价的模型训练方法、系统和装置,解决以下技术问题:
现有的烟草市场治理效果评价技术在进行训练过程中易出现历史数据过拟合的状况,难以保证评价模型的预测精度和鲁棒性,也难以使得模型适应于不同类型的数据。
本发明的目的可以通过以下技术方案实现:
烟草市场治理效果评价的模型训练方法,包括:
S1:采集区域内烟草市场管理数据,并将对应的烟草市场管理数据的历史数据作为样本数据;
S2:对样本数据进行预处理,将预处理后的样本数据组成样本集合,将历史采样时间分为相同的采样时间段,将每个采样时间段对应的样本数据分为样本子集合;
S3:将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成;
筛选出拟合优度最好的数据分析模型;
S4:将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型。
作为本发明进一步的方案:烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。
作为本发明进一步的方案:所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。
作为本发明进一步的方案:数据分析模型包括:多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。
作为本发明进一步的方案:所述步骤S3包括以下步骤:
将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成,得到不同数据分析模型在每个采样时间段的预测偏差;
将历史采样时间分为相同的检测时间段,比较不同数据分析模型在每个检测时间段的预测偏差,排除历史采样时间中最新的检测时间段中预测偏差最大的数据分析模型,并在其余的数据分析模型中筛选出拟合优度最好的数据分析模型;
其中,检测时间段大于采样时间段。
作为本发明进一步的方案:所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正,包括以下步骤:
将所述步骤S3筛选出的数据分析模型表示为:
y=f(x;θ)
其中,x为样本数据,y是模型对样本的预测值,θ是模型参数;
通过均方误差法作为损失函数对数据分析模型进行校正,均方误差MSE表示为:
其中,n是样本总数,yi是样本i的真实值,f(x;θ)是模型对样本i的预测值;
通过梯度下降算法得到均方误差MSE的最小值时,f(x;θ)中对应的的参数值θ,得到参数校正后的数据分析模型;
将所有样本数据作为数据集,将数据集分为训练集和测试集,通过训练集和测试集对参数校正后的数据分析模型进行交叉验证,确定最佳的正则化参数值;
根据最佳的正则化参数值对模型进行Elastic Net正则化处理。
烟草市场治理效果评价系统,包括:
数据收集模块,定期采集区域内不同特征因素的数据,并将采集的样本数据发送至数据清洗模块;
数据清洗模块,用于对样本数据进行预处理;
特征提取模块,用于通过设定的特征因素,对数据进行特征提取;
模型训练模块,用于根据特征提取的结果,分别通过多元线性回归模型、非线性回归模型、决策树模型和神经网络模型,对不同的特征因素进行模型训练,筛选出模型训练模块中拟合优度最好的数据分析模型;
数据分析模块,将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型,通过最终的评价模型对不同特征因素的进行评价预测。
作为本发明进一步的方案:特征因素包括:烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。
作为本发明进一步的方案:烟草市场治理效果评价系统,还包括:
行业政策收集模块,用于收集烟草行业相关的新闻和资讯组成新闻库;
烟草行业政策展示模块,用于从新闻库中抓取包含特征因素关键词的烟草行业政策,并将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上。
烟草市场治理效果评价设备,包括:
存储器,所述存储器存储计算机执行指令;
处理器,执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-6任一项所述的烟草市场治理效果评价的模型训练方法或权利要求7-9任一项所述的烟草市场治理效果的评价系统。
本发明的有益效果:
(1)本发明通过将样本子集合的数据输入不同的数据分析模型进行训练,并使用下一采样时间段的样本组数据进行验证,便于验证模型的准确性。下一时间段的数据可以作为对模型预测结果的真实检验;同时通过不同的数据分析模型进行下一时间段的样本数据的预测,下一采样时间段的样本组数据进行验证可及时调整模型参数;通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性,即模型对于数据的变化的稳定性,如果模型在预测下一时间段的数据时依然表现出色,那么说明模型具有良好的鲁棒性。
(2)本发明对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,通过优化损失函数,可以调整模型参数,从而最小化预测误差,提高模型预测精度;更好地适应于实际数据,对于不同的数据集,损失函数对数据分析模型进行校正,从而使模型更好地适应于不同类型的数据。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1所示,本发明为烟草市场治理效果评价的模型训练方法,包括:
S1:采集区域内烟草市场管理数据,并将对应的烟草市场管理数据的历史数据作为样本数据;
S2:对样本数据进行预处理,将预处理后的样本数据组成样本集合,将历史采样时间分为相同的采样时间段,将每个采样时间段对应的样本数据分为样本子集合;
S3:将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成;
筛选出拟合优度最好的数据分析模型;
S4:将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型。
具体的,通过将样本子集合的数据输入不同的数据分析模型进行训练,并使用下一采样时间段的样本组数据进行验证,便于验证模型的准确性。下一时间段的数据可以作为对模型预测结果的真实检验;同时通过不同的数据分析模型进行下一时间段的样本数据的预测,下一采样时间段的样本组数据进行验证可及时调整模型参数;也便于评价模型的鲁棒性,通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性,即模型对于数据的变化的稳定性,如果模型在预测下一时间段的数据时依然表现出色,那么说明模型具有良好的鲁棒性。
同时,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,通过优化损失函数,可以调整模型参数,从而最小化预测误差,提高模型预测精度;更好地适应于实际数据,对于不同的数据集,损失函数对数据分析模型进行校正,从而使模型更好地适应于不同类型的数据。
在本发明其中一个实施例中,烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。
在本发明其中一个实施例中,所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。
在本发明其中一个实施例中,数据分析模型包括:多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。
在本发明其中一个实施例中,所述步骤S3包括以下步骤:
将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成,得到不同数据分析模型在每个采样时间段的预测偏差;
将历史采样时间分为相同的检测时间段,比较不同数据分析模型在每个检测时间段的预测偏差,排除历史采样时间中最新的检测时间段中预测偏差最大的数据分析模型,并在其余的数据分析模型中筛选出拟合优度最好的数据分析模型;
其中,检测时间段大于采样时间段。
具体的,通过将样本子集合的数据输入不同的数据分析模型进行训练,并使用下一采样时间段的样本组数据进行验证,便于验证模型的准确性。通过下一时间段的数据也可以评价模型对上一采样时间段样本组数据进行验证的鲁棒性,即模型对于数据的变化的稳定性,如果模型在预测下一时间段的数据时依然表现出色,那么说明模型具有良好的鲁棒性。
同时通过排除对最新数据预测偏差最大的模型,可以优选出对最新数据预测更加更精确的模型,进而提高模型的准确性。同时最新数据预测偏差最大的模型很可能是对历史数据过度拟合的模型,通过排除这些模型进一步增强模型的鲁棒性,提高模型的泛化能力。
在本发明其中一个实施例中,所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正,包括以下步骤:
将所述步骤S3筛选出的数据分析模型表示为:
y=f(x;θ)
其中,x为样本数据,y是模型对样本的预测值,θ是模型参数;
通过均方误差法作为损失函数对数据分析模型进行校正,均方误差MSE表示为:
其中,n是样本总数,yi是样本i的真实值,f(x;θ)是模型对样本i的预测值;
通过梯度下降算法得到均方误差MSE的最小值时,f(x;θ)中对应的的参数值θ,得到参数校正后的数据分析模型;
将所有样本数据作为数据集,将数据集分为训练集和测试集,通过训练集和测试集对参数校正后的数据分析模型进行交叉验证,确定最佳的正则化参数值;
根据最佳的正则化参数值对模型进行Elastic Net正则化处理。
具体的,通过以下方法对参数校正后的数据分析模型进行交叉验证:
将训练集分为K份,其中一份作为验证集,其余K-1份作为训练集;
对K-1份训练集中的数据进行模型训练,用验证集来评估数据分析模型的性能;
重复步骤1和步骤2,直到每个分区都用过一次作为验证集;
对K次不同验证结果的性能进行平均,得到数据分析模型在训练集上的性能估计。
通过使用交叉验证来避免使用测试集来选择模型或模型参数,导致的模型对测试集的过度拟合。
同时,通过对模型进行Elastic Net正则化处理;
在模型训练过程中,加入一个用于惩罚模型复杂度的项,以避免模型对训练数据的过度拟合。在进行Elastic Net正则化处理中,同时采用L1和L2正则化方法,正则化参数就是用于控制这两种方法之间的相对权重的超参数。正则化参数的值越大,则L1正则化Lasso的作用更加明显,越有可能让模型系数变为0;反之则L2正则化Ridge则更加明显。通常情况下,需要在训练集上进行交叉验证,通过选择最佳的正则化参数值来达到通过均方误差法作为损失函数对数据分析模型进行校正时,可能导致的模型的过拟合问题,提高最终训练模型的泛化能力。
实施例二
烟草市场治理效果评价系统,包括:
数据收集模块,定期采集区域内不同特征因素的数据,并将采集的样本数据发送至数据清洗模块;
数据清洗模块,用于对样本数据进行预处理;
特征提取模块,用于通过设定的特征因素,对数据进行特征提取;
模型训练模块,用于根据特征提取的结果,分别通过多元线性回归模型、非线性回归模型、决策树模型和神经网络模型,对不同的特征因素进行模型训练,筛选出模型训练模块中拟合优度最好的数据分析模型;
数据分析模块,将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型,通过最终的评价模型对不同特征因素的进行评价预测。
具体的,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,通过优化损失函数,可以调整模型参数,从而最小化预测误差,提高模型预测精度;更好地适应于实际数据,对于不同的数据集,损失函数可以进行适当的调整,从而使模型更好地适应于不同类型的数据。
在本发明其中一个实施例中,特征因素包括:烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。
在本发明其中一个实施例中,烟草市场治理效果评价系统,还包括:
行业政策收集模块,用于收集烟草行业相关的新闻和资讯组成新闻库;
烟草行业政策展示模块,用于从新闻库中抓取包含特征因素关键词的烟草行业政策,并将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上。
具体的,建立数据采集系统,可以使用网络爬虫程序抓取新闻和资讯,也可以手动录入数据;创建数据库。可以选择使用专业的数据库软件,如MySQL、Microsoft SQL Server等,或者使用轻量级的数据库工具,如SQLite;同时将将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上,也便于根据烟草行业政策来分析对应的特征因素的评价预测结果。
实施例三
烟草市场治理效果评价设备,包括:
存储器,所述存储器存储计算机执行指令;
处理器,执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-6任一项所述的烟草市场治理效果评价的模型训练方法或权利要求7-9任一项所述的烟草市场治理效果的评价系统
在本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以及特定的方位构造和操作,因此,不能理解为对本发明的限制。此外,“第一”、“第二”仅由于描述目的,且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”等应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (10)
1.烟草市场治理效果评价的模型训练方法,其特征在于,包括:
S1:采集区域内烟草市场管理数据,并将对应的烟草市场管理数据的历史数据作为样本数据;
S2:对样本数据进行预处理,将预处理后的样本数据组成样本集合,将历史采样时间分为相同的采样时间段,将每个采样时间段对应的样本数据分为样本子集合;
S3:将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成;
筛选出拟合优度最好的数据分析模型;
S4:将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型。
2.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于,烟草市场管理数据包括烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率数据。
3.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于,所述数据清洗模块对数据进行预处理包括删除不完整数据、填补缺失值和处理离群值。
4.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于,数据分析模型包括:多元线性回归模型、非线性回归模型、决策树模型和神经网络模型。
5.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于,所述步骤S3包括以下步骤:
将样本子集合的数据输入不同的数据分析模型进行训练,通过不同的数据分析模型进行下一时间段的样本数据的预测,并使用下一采样时间段的样本组数据进行验证,直至所有采样时间段的样本组数据均验证完成,得到不同数据分析模型在每个采样时间段的预测偏差;
将历史采样时间分为相同的检测时间段,比较不同数据分析模型在每个检测时间段的预测偏差,排除历史采样时间中最新的检测时间段中预测偏差最大的数据分析模型,并在其余的数据分析模型中筛选出拟合优度最好的数据分析模型;
其中,检测时间段大于采样时间段。
6.根据权利要求1所述的烟草市场治理效果评价的模型训练方法,其特征在于,所述步骤S4中利用损失函数对筛选出的数据分析模型进行校正,包括以下步骤:
将所述步骤S3筛选出的数据分析模型表示为:
y=f(x;θ)
其中,x为样本数据,y是模型对样本的预测值,θ是模型参数;
通过均方误差法作为损失函数对数据分析模型进行校正,均方误差MSE表示为:
其中,n是样本总数,yi是样本i的真实值,f(x;θ)是模型对样本i的预测值;
通过梯度下降算法得到均方误差MSE的最小值时,f(x;θ)中对应的的参数值θ,得到参数校正后的数据分析模型;
将所有样本数据作为数据集,将数据集分为训练集和测试集,通过训练集和测试集对参数校正后的数据分析模型进行交叉验证,确定最佳的正则化参数值;
根据最佳的正则化参数值对模型进行ElasticNet正则化处理。
7.烟草市场治理效果评价系统,其特征在于,包括:
数据收集模块,定期采集区域内不同特征因素的数据,并将采集的样本数据发送至数据清洗模块;
数据清洗模块,用于对样本数据进行预处理;
特征提取模块,用于通过设定的特征因素,对数据进行特征提取;
模型训练模块,用于根据特征提取的结果,分别通过多元线性回归模型、非线性回归模型、决策树模型和神经网络模型,对不同的特征因素进行模型训练,筛选出模型训练模块中拟合优度最好的数据分析模型;
数据分析模块,将所有样本数据输入到筛选出的数据分析模型,对筛选出的数据分析模型进行测试,并利用损失函数对筛选出的数据分析模型进行校正,得到最终的评价模型,通过最终的评价模型对不同特征因素的进行评价预测。
8.根据权利要求7所述的烟草市场治理效果评价系统,其特征在于,所述特征因素包括:烟草销售额、烟草税收、烟草产品质量和未成年人吸烟率。
9.根据权利要求7所述的烟草市场治理效果评价系统,其特征在于,还包括:
行业政策收集模块,用于收集烟草行业相关的新闻和资讯组成新闻库;
烟草行业政策展示模块,用于从新闻库中抓取包含特征因素关键词的烟草行业政策,并将包含特征因素关键词的烟草行业政策和数据分析模块得到的对应的特征因素的评价预测结果同时展示在显示装置上。
10.烟草市场治理效果评价设备,其特征在于,包括:
存储器,所述存储器存储计算机执行指令;
处理器,执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-6任一项所述的烟草市场治理效果评价的模型训练方法或权利要求7-9任一项所述的烟草市场治理效果的评价系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310742403.2A CN116822989A (zh) | 2023-06-21 | 2023-06-21 | 烟草市场治理效果评价的模型训练方法、系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310742403.2A CN116822989A (zh) | 2023-06-21 | 2023-06-21 | 烟草市场治理效果评价的模型训练方法、系统和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822989A true CN116822989A (zh) | 2023-09-29 |
Family
ID=88116015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310742403.2A Pending CN116822989A (zh) | 2023-06-21 | 2023-06-21 | 烟草市场治理效果评价的模型训练方法、系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822989A (zh) |
-
2023
- 2023-06-21 CN CN202310742403.2A patent/CN116822989A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210389290A1 (en) | Intelligent Monitoring and Analysis Method for Air Pollution and Device Thereof | |
CN109949290A (zh) | 路面裂缝检测方法、装置、设备及存储介质 | |
CN111343147B (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN113010389A (zh) | 一种训练方法、故障预测方法、相关装置及设备 | |
CN117275644B (zh) | 基于深度学习的检测结果互认方法、系统及存储介质 | |
CN118211882B (zh) | 一种基于大数据的产品质量管理系统及方法 | |
CN114757413A (zh) | 一种基于时序数列分析耦合神经网络预测的不良数据辨识方法 | |
CN110232130B (zh) | 元数据管理谱系生成方法、装置、计算机设备和存储介质 | |
CN115719283A (zh) | 一种智能化会计管理系统 | |
CN116308963A (zh) | 一种政务数据分析方法及系统 | |
CN116306806A (zh) | 故障诊断模型确定方法、装置及非易失性存储介质 | |
CN113918433A (zh) | 一种自适应的智慧网络设备性能指标异常检测装置及方法 | |
CN117762912A (zh) | 一种数据标注质量评估与改进系统及方法 | |
CN116822989A (zh) | 烟草市场治理效果评价的模型训练方法、系统和装置 | |
CN111091194A (zh) | 一种基于cavwnb_kl算法的操作系统识别方法 | |
CN115904955A (zh) | 性能指标的诊断方法、装置、终端设备及存储介质 | |
CN115659271A (zh) | 传感器异常检测方法、模型训练方法、系统、设备及介质 | |
CN111459996B (zh) | 对油枪在指定时间段内的工作状态进行检测的方法及装置 | |
CN113033845B (zh) | 一种电力传输资源共建共享的建设方法及装置 | |
CN113033694A (zh) | 一种基于深度学习的数据清洗方法 | |
CN112699609A (zh) | 一种基于振动数据的柴油机可靠性模型构建方法 | |
CN113139673A (zh) | 一种预测空气质量的方法、装置、终端及存储介质 | |
CN110135469A (zh) | 一种改进基于相关性特征选择的特征过滤方法及装置 | |
CN118332505B (zh) | 基于多模态融合的生理信号数据处理方法、系统及装置 | |
CN118211061B (zh) | 多指标融合和业务感知的采集系统运行监测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |