CN111199343B - 一种多模型融合的烟草市场监管异常数据挖掘方法 - Google Patents
一种多模型融合的烟草市场监管异常数据挖掘方法 Download PDFInfo
- Publication number
- CN111199343B CN111199343B CN201911345566.7A CN201911345566A CN111199343B CN 111199343 B CN111199343 B CN 111199343B CN 201911345566 A CN201911345566 A CN 201911345566A CN 111199343 B CN111199343 B CN 111199343B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- algorithm
- training
- stacking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000208125 Nicotiana Species 0.000 title claims abstract description 59
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 59
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 238000007418 data mining Methods 0.000 title claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 230000006399 behavior Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000003068 static effect Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 235000019504 cigarettes Nutrition 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法。该方法主要有以下几个步骤:(1)对烟草市场监管数据集进行数据预处理,将数据处理成静态特征指标与动态特征指标;(2)分别训练基于深度学习的xDeepFM模型,以及XGBoost、LightGBM等机器学习模型,使得各个单一模型达到最优的训练效果;(3)通过集成学习的Stacking方式,将不同的算法模型集成融合,形成一个在整体性能上优于单个基学习器的集成模型,进而提升模型的预测性能;(4)最后使用LightGBM算法完成零售户异常经营行为的概率预测。该模型不仅有效解决了数据在高纬度的稀疏性问题,还让模型自动的去学习特征之间的交叉特性。充分证明了机器学习算法和深度学习网络结合后,能够表现出更加优越的性能。
Description
技术领域
本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法,属于计算机数据挖掘技术领域。
背景技术
随着数字化信息时代的到来,烟草行业数据量正在以惊人的速度快速增长,这种数字化趋势为机器学习与数据挖掘技术在其生产、物流、监管等各方面的应用创造了新机遇。面向烟草行业的异常数据挖掘也有望从海量的、不完全的、模糊的烟草行业数据中,提取挖掘出零售户在卷烟经营中是否存在涉烟违法的行为信息。异常数据挖掘技术的应用将有效推进整个烟草行业向信息化、智能化方向发展。
异常是一个相对复杂的概念,在不同的领域对其有着不同的定义。一种被广泛接受的定义由Hawkins提出:异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。随着异常数据挖掘方法的增多以及研究的深入,对异常数据的定义也随之增多,在烟草专卖市场监管中,针对烟草行业异常数据的定义主要分为以下几个方面:(1)烟草专卖市场监管中异常数据通常是聚类过程中的噪声数据,这些数据不属于任何聚类簇或者是聚类之中的小模式;(2)烟草专卖市场监管中异常数据是与数据集中正常的数据行为有很大差异的数据对象,它不属于任何聚类簇也不是噪声数据;(3)烟草专卖市场监管中异常数据是与数据集中大部分数据对象不一致、明显偏离数据集中的其他数据对象且不满足于数据的一般模式或行为的数据对象。
在烟草专卖市场监管方面,异常数据挖掘的任务就是在专卖监管数据中发现那些有违规经营迹象的数据对象,并找到隐藏在这些对象背后的各类违规经营情况。基于多模型融合的烟草异常数据挖掘研究,能够进一步加强烟草零售市场监管力度,有效限制零售户的涉烟违法行为,合理分配稽查工作中的人员调度,有效净化卷烟市场经营环境。通过深入挖掘分析现有的烟草市场监管数据,能够有效结合现有市场监管模式,加快烟草市场监管方式的信息化转变,加强对重点涉烟违法行为的治理,提升市场监管的精准性。
Kotsiantis S等人将机器学习技术运用于发布虚假财务报表(FFS)公司的异常行为检测中,通过使用优化的Stacking多模型融合方法将典型的机器学习算法组合在一起,取得了比任何单一算法和经过检验的简单集成方法更好的检测性能。
Dzalilov Z,Bagirov A等人提出了一种新的基于优化的特征选择算法,将改进的全局k-means聚类算法应用于复杂的烟草控制系统的调查数据集,可以有效的预测集群内吸烟者对烟草控制政策的异常行为反应。
Chen Z等利用XGBoost机器学习算法,能够对云计算中SDN控制器易受到分布式拒绝服务(DDoS)的异常攻击行为进行快速的检测。
Bui D T,Ho T C等人通过使用基于功能树分类器和三种当前比较先进的机器学习集成框架Bagging、AdaBoost和MultiBoost,提出并验证了一种能够提高滑坡异常和敏感性模型预测性能的集成方法。
Minastireanu E A等人将前沿的机器学习LightGBM算法应用于在线广告业务中,研究了四天内处理2亿次点击的数据集的点击模式,以检测在线环境中的异常点击和欺诈行为,同时通过特征工程来处理数据集中的类别特征和数据不平衡问题,进一步提高了检测性能。
Lian J等人提出的深度网络xDeepFM算法,能够有效地自动学习数据的特征交互。
虽然机器学习技术和深度学习网络技术的快速发展为异常数据的检测提供了新的解决思路,但是目前现有技术大多采用一种单独的技术手段进行异常数据检测,而针对烟草行业市场监管数据的高维、冗余特性,若使用单一模型进行预测往往表现出泛化性能不佳。此外,使用组合预测Stacking的方式,更多的是使用机器学习算法模型的组合,不能很好地结合深度学习技术。
发明内容
本发明的目的是针对烟草专卖市场监管行业数据来源往往数出多门,各项数据散乱,缺乏梳理等问题,提供一种多模型融合的烟草市场监管异常数据挖掘方法,引入机器学习算法以及深度神经网络等数据处理与分析方法,将前沿机器学习技术LightGBM算法、XGBoost算法、xDeepFM算法与集成学习Stacking方式进行有效的结合。
为达到上述目的,本发明采用的技术方案是:
一种多模型融合的烟草市场监管异常数据挖掘方法,具体操作步骤如下:
(1)烟草市场监管数据集预处理:将数据处理成静态特征指标与动态特征指标,同时对类别特征使用one-hot编码,统一成数值型数据;
(2)模型训练:分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练;
(3)多模型融合训练:使用Stacking集成学习的方式将多个模型进行融合训练,同时加入AdaBoost算法、随机森林(Random Forest,RF)算法、极端随机树(ExtraTrees,ETR)算法和Logistic Regression(LR)算法,加强各模型间算法的差异性,同时弱学习器LR算法起到防止过拟合的作用,让Stacking模型具有更强的鲁棒性;
(4)烟草零售户异常经营行为的预测:通过Stacking第二层中使用的LightGBM算法完成零售户是否存在异常经营行为的概率预测。
与现有技术相比,本发明的有益效果是:
本发明方法通过数据挖掘的前期数据清洗工作,完成烟草行业内结构化数据的高效预处理。使用多模型融合的方式充分发挥机器学习算法和深度学习神经网络的优势,构建多维度指标下的异常行为综合预测分析模型,能够快速预测烟草零售户存在异常经营行为的可能性,从而使烟草市场监管稽查工作中的人员调拨分配更加合理,对零售户涉烟违法行为的监管更加精准,最终推动烟草专卖市场监管方式的转型,进而促进烟草市场监管水平的大幅提升。
附图说明
图1是基于多模型融合的烟草市场监管异常数据挖掘方法整体流程图。
图2是部分指标分类表。
图3是两层Stacking多模型融合学习框架图。
图4是xDeepFM神经网络结构图。
图5是多模型融合训练图。
图6是多模型融合模型的训练参数。
图7是模型预测结果指标对比。
具体实施方式
本发明的优选实施例结合附图说明如下:
如图1所示,本实施例一种多模型融合的烟草市场监管异常数据挖掘方法,首先划分原始烟草数据集,在训练集上对单个算法进行训练调参,使单个模型性能达到最优状态;再确定Stacking融合模型的第一层模型组合方式,利用划分后的数据集来训练,将第一层的各个模型的输出组合形成新的数据集;Stacking第二层模型用新生成的数据集来训练,并输出最终的预测概率值。
本实例使用的数据是烟草专卖相关数据,基础数据主要包括:经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据等。
(1)烟草市场监管数据集预处理:
针对烟草行业中的海量、多维、动态数据,分析烟草结构化数据的特点,从营销、物流、市场监管、案件等多个维度进行分析,梳理形成静态特征指标与动态特征指标,部分指标分类如图2所示。在数据预处理阶段,还需要对静态指标中的类别数据进行编码,比如:订货方式包括POS订货、电话订货、电子商务、手工订货、网上配货等,需要将其转为数值型数据进行处理。通过观察数据样本发现大多数类别数据在5个类别以下,所以选择使用one-hot编码对类别数据进行编码,一方面防止标签编码带来的赋值顺序问题,另一方面又可以同时适用于机器学习算法和深度神经网络算法。通过数据预处理和特征工程提取之后,最终进入模型的一共有244个特征(指标)。
(2)模型训练:
结合目前前沿的机器学习算法,本实例采用两层Stacking多模型融合学习框架,参见图3。对于两层Stacking多模型融合框架来说,首先使用K折交叉验证将原数据集划分成K个子数据集,将数据输入到第一层的不同基学习器中去训练。之后,将第一层的各个模型的输出的预测值作为新的特征组合形成新的数据集,第二层的元学习器将使用这个新的数据集去训练并输出最终预测概率。
在第一层的基学习器中,主要利用XGBoost、LightGBM两种算法来处理海量多维的烟草市场监管数据,首先XGBoost通过近似分位点算法对传统的GBDT算法进行了改进,使得该算法模型更适合处理工业级的海量数据,在烟草数据集上该算法表现同样优秀;其次LightGBM算法针对XGBoost处理海量数据计算耗时问题使用了基于梯度的单边采样算法和互斥特征捆绑两种方法进行了进一步改进,使得其在处理烟草数据集时不仅计算速度有了大幅度提升,同时模型预测的准确性也有很大的提升。最后为了更进一步挖掘不同交叉特征之间的潜在联系,引入了极深因子分解机xDeepFM深度神经网络算法,使用其中的压缩交互网络模块(CIN)和DNN模块分别以显式和隐式的方式进行高维的特征交互,其模型结构参见图4。
首先使用5折交叉验证将原数据集划分成5个子数据集送入模型进行训练,然后使用网格搜索的方式确定模型的最佳参数,最后得到每个模型的预测输出,具体步骤如下:
1)XGBoost模型训练:XGBoost极端梯度提升算法,是根据CART树的一种boosting算法,高效地实现了GBDT算法,并进行了算法和工程上的许多改进;
XGBoost模型的目标函数主要包含两个部分:
式中,第一部分是模型的训练误差,即模型的预测结果/>与样本真实yi的差值;第二部分Ω(fk)是正则项,用于控制模型的复杂度,其中γ和λ是惩罚系数,T和w分别代表叶子节点的个数和分数;
XGBoost模型每次训练一棵新的树都要拟合上一次结果的残差,每次增加的函数的增量要使新一轮的残差尽可能的减小,在进行到第t次时,模型的目标函数写为:
式中:是模型每个样本第t-1次的预测结果;ft(xi)是第t次迭代的函数增量;Ω(ft)是正则项;
模型训练的最终目标是要找到一个能够最小化目标函数的ft(xi),对式(2)采用其在x=0处的泰勒二阶展开式来近似,近似的目标函数为:
其中:是ft(xi)在x=0处的一阶导函数;是ft(xi)在x=0处的二阶导函数;
去掉不影响目标函数最终优化的项,简化为:
2)LightGBM模型训练:该算法主要使用了基于梯度的单边采样和互斥特征捆绑这两种方法来弥补传统Boosting在处理大数据样本时的计算损耗问题;
模型在训练时首先采用基于梯度的单边采样,根据样本的训练梯度进行降序排序,把前a*100%的样本作为大梯度样本数据集,对余下的样本随机选b*(1-a)*100%作为小梯度样本数据集,并对其赋予权重系数(1-a)/b,合并两个样本进行模型的迭代学习;
同时通过互斥特征捆绑的方式将高维空间下相互独立的稀疏特征进行特征组合,构建后的特征组合使得模型处理数据的复杂度从O(data*feature)降至O(data*bundle),使寻找最佳切分点的消耗减少;其中feature为原始数据集中的所有特征,bundle是捆绑后的特征,并且bundle的数量远远小于feature的数量,从而能够加快模型的训练;
3)xDeepFM模型训练:
首先把数据集的原始特征中每个one-hot编码后的特征组成一个field,用来克服数据的稀疏性;然后进行embedding转换使特征表现为向量级;接着将数据送入压缩交互网络CIN模型中,使得模型以显示的方式自动学习高阶的交互特征,CIN每层的神经元都是由原始特征向量和它前面的隐层计算而来,即:
其中表示第k层的第h个向量的权重矩阵;/>为数据的原始特征,即初始的状态图;/>为CIN神经网络中的前一层隐层的状态图;点乘的计算依据如下式:
同时xDeepFM模型中还分别包含了集成的线性模型和DNN神经网络模型,前者使得模型具有泛化的记忆能力,后者使得模型能够隐式的学习特征的交互特性。
(3)多模型融合训练:
烟草市场监管异常数据挖掘模型最终要实现的目标是,预测出零售户“销假,销私,乱渠道进货”的可能性。基于模型的预测性能,Stacking集成学习方式一般要求组合中的单个基学习器不仅要有较强的学习预测能力,还要在算法原理上具有较大的差别。因此Stacking模型中的第一层除了选用学习性能比较强的XGBoost算法、LightGBM算法和xDeepFM算法,还使用了AdaBoost算法、随机森林(Random Forest,RF)算法、极端随机树(ExtraTrees,ETR)算法和Logistic Regression(LR)算法,参见图5。
要想使Stacking融合模型性能达到最好,首先要确保其第一层的各个基学习器达到最佳的学习能力,因此将各个基学习器在原始数据集上单独训练,从而确定每一个模型的训练参数,具体参数参见图6。最后使用Stacking的方式进行融合模型的训练;Stacking模型训练具体步骤如下:
1)划分原始数据集,在训练集上对单个算法进行训练调参,使单个模型性能达到最优状态;
2)确定Stacking第一层模型组合方式,利用划分后的数据集来训练,将第一层的各个模型的输出组合形成新的数据集;
3)Stacking第二层模型用新生成的数据集来训练,并输出最终的预测概率值。
(4)烟草零售户异常经营行为的预测:
通过Stacking第二层中使用的LightGBM算法将第一层中的各模型输出结果作为新的数据集进行训练,完成零售户是否存在异常经营行为的概率预测。为了提高预测的准确性,该实例首先使用5折交叉验证将原数据集划分成5个子数据集,将数据输入到第一层的不同基学习器中去训练。之后,将第一层的各个模型的输出值作为新的特征组合形成新的数据集,第二层的元学习器将使用这个新的数据集去训练并输出最终预测概率。
由于模型预测属于二分类预测问题,且最终的输出值为概率值。为了对模型输出的概率值直接分析,用Log_loss和AUC来评价模型的预测效果,在烟草数据集上对每个单一模型和Stacking模型分别进行训练并预测,最佳模型通常具有较小的Log_loss值以及较大的AUC值,各个模型的预测结果对比如图7所示。
Claims (5)
1.一种多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,具体操作步骤如下:
(1)烟草市场监管数据集预处理:将数据处理成静态特征指标与动态特征指标,同时对类别特征使用one-hot编码,统一成数值型数据;
(2)模型训练:分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练;
(3)多模型融合训练:使用Stacking集成学习的方式将多个模型进行融合训练,同时加入AdaBoost算法、RF算法、ETR算法和LR算法,加强各模型间算法的差异性,同时弱学习器LR算法起到防止过拟合的作用,让Stacking模型具有更强的鲁棒性;
Stacking是一种每一层都使用多个模型来进行训练的集成学习方式,每一层的多个模型都有各自输出值,将该层每一个模型的输出值作为新的特征组合成新的数据集作为下一层的输入进行学习;通过结合不同的机器学习算法和深度神经网络算法,选用两层的Stacking集成方式进行模型融合;
Stacking模型中的第一层除了选用XGBoost算法、LightGBM算法和xDeepFM算法,还使用了AdaBoost算法、随机森林RF算法、极端随机树ETR算法和LR算法;Stacking模型中的第二层的元学习器用了LightGBM算法;
要想使Stacking融合模型性能达到最好,首先要确保其第一层的各个基学习器达到最佳的学习能力,将各个基学习器在原始数据集上单独训练,从而确定每一个模型的训练参数,最后使用Stacking的方式进行融合模型的训练;Stacking模型训练具体步骤如下:
a.划分原始数据集,在训练集上对单个算法进行训练调参,使单个模型性能达到最优状态;
b.确定Stacking第一层模型组合方式,利用划分后的数据集来训练,将第一层的各个模型的输出组合形成新的数据集;
c.Stacking第二层模型用新生成的数据集来训练,并输出最终的预测概率值;
(4)烟草零售户异常经营行为的预测:通过Stacking第二层中使用的LightGBM算法完成零售户是否存在异常经营行为的概率预测。
2.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(1)使用烟草专卖相关数据,基础数据主要包括:经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据;针对烟草行业中的海量、多维、动态数据,分析烟草结构化数据的特点,从营销、物流、市场监管、案件多个维度进行分析,通过数据清洗与数据增强手段,从烟草海量数据中检测和消除错误数据、不完整数据和重复数据,从而提高数据的质量,将数据梳理形成静态特征指标与动态特征指标;在数据预处理阶段,还需要对静态指标中的类别数据进行编码,通过观察数据样本发现大多数类别数据在5个类别以下,所以选择使用one-hot编码对类别数据进行编码,一方面防止标签编码带来的赋值顺序问题,另一方面又同时适用于机器学习算法和深度神经网络算法。
3.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(2)中的模型训练首先使用5折交叉验证将原数据集划分成5个子数据集送入模型进行训练,然后使用网格搜索的方式确定模型的最佳参数,最后得到每个模型的预测输出,具体步骤如下:
1)XGBoost模型训练:XGBoost极端梯度提升算法,是根据CART树的一种boosting算法,高效地实现了GBDT算法,并进行了算法和工程上的许多改进;
XGBoost模型的目标函数主要包含两个部分:
式中,第一部分是模型的训练误差,即模型的预测结果/>与样本真实yi的差值;第二部分Ω(fk)是正则项,用于控制模型的复杂度,其中γ和λ是惩罚系数,T和w分别代表叶子节点的个数和分数;
XGBoost模型每次训练一棵新的树都要拟合上一次结果的残差,每次增加的函数的增量要使新一轮的残差尽可能的减小,在进行到第t次时,模型的目标函数写为:
式中:是模型每个样本第t-1次的预测结果;ft(xi)是第t次迭代的函数增量;Ω(ft)是正则项;
模型训练的最终目标是要找到一个能够最小化目标函数的ft(xi),对式(2)采用其在x=0处的泰勒二阶展开式来近似,近似的目标函数为:
其中:是ft(xi)在x=0处的一阶导函数;是ft(xi)在x=0处的二阶导函数;
去掉不影响目标函数最终优化的项,简化为:
2)LightGBM模型训练:该算法主要使用了基于梯度的单边采样和互斥特征捆绑这两种方法来弥补传统Boosting在处理大数据样本时的计算损耗问题;
模型在训练时首先采用基于梯度的单边采样,根据样本的训练梯度进行降序排序,把前a*100%的样本作为大梯度样本数据集,对余下的样本随机选b*(1-a)*100%作为小梯度样本数据集,并对其赋予权重系数(1-a)/b,合并两个样本进行模型的迭代学习;
同时通过互斥特征捆绑的方式将高维空间下相互独立的稀疏特征进行特征组合,构建后的特征组合使得模型处理数据的复杂度从O(data*feature)降至O(data*bundle),使寻找最佳切分点的消耗减少;其中feature为原始数据集中的所有特征,bundle是捆绑后的特征,并且bundle的数量远远小于feature的数量,从而能够加快模型的训练;
3)xDeepFM模型训练:
首先把数据集的原始特征中每个one-hot编码后的特征组成一个field,用来克服数据的稀疏性;然后进行embedding转换使特征表现为向量级;接着将数据送入压缩交互网络CIN模型中,使得模型以显示的方式自动学习高阶的交互特征,CIN每层的神经元都是由原始特征向量和它前面的隐层计算而来,即:
其中表示第k层的第h个向量的权重矩阵;/>为数据的原始特征,即初始的状态图;/>为CIN神经网络中的前一层隐层的状态图;点乘的计算依据如下式:
同时xDeepFM模型中还分别包含了集成的线性模型和DNN神经网络模型,前者使得模型具有泛化的记忆能力,后者使得模型能够隐式的学习特征的交互特性。
4.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(3)进行基于Stacking集成学习的多模型融合,从而更好地预测出零售户“销假,销私,乱渠道进货”的可能性;
基于模型的预测性能,Stacking集成学习方式一般要求组合中的单个基学习器不仅要有较强的学习预测能力,还要在算法原理上具有较大的差别;因此Stacking模型中RF和AdoBoost分别使用了基于Bagging与Boosting的集成学习方式,具有较强的学习能力和严谨的数学理论作为支撑;ETR算法是在RF的基础上多了一层随机性,即在对连续变量特征选取最优分裂值时,不会计算所有分裂值的效果来选择分裂特征,而是在每一个特征的取值范围内,随机产生一个分裂值,从中计算出一个较优值来进行分裂;其次与RF使用Bagging集成学习方式对样本数据进行有放回抽样不同,ETR使用所有的样本,只是特征是随机选取的;LR算法相对来说是弱一点的基学习器,使用该算法的原因是为了防止过拟合,让Stacking模型具有更强的鲁棒性。
5.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(4)中通过Stacking第二层中使用的LightGBM算法将第一层中的各模型输出结果作为新的数据集进行训练,完成零售户是否存在异常经营行为的概率预测,从而提高预测的准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345566.7A CN111199343B (zh) | 2019-12-24 | 2019-12-24 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345566.7A CN111199343B (zh) | 2019-12-24 | 2019-12-24 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111199343A CN111199343A (zh) | 2020-05-26 |
CN111199343B true CN111199343B (zh) | 2023-07-21 |
Family
ID=70747518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345566.7A Active CN111199343B (zh) | 2019-12-24 | 2019-12-24 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199343B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111678866B (zh) * | 2020-05-28 | 2021-08-17 | 电子科技大学 | 一种多模型集成学习的土壤含水量反演方法 |
CN111783871A (zh) * | 2020-06-29 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 基于有监督学习模型的异常数据识别方法及相关设备 |
CN111901330A (zh) * | 2020-07-24 | 2020-11-06 | 中移(杭州)信息技术有限公司 | 集成学习模型构建方法、识别方法及装置、服务器和介质 |
CN111858946B (zh) * | 2020-08-06 | 2024-04-23 | 中国烟草总公司四川省公司 | 一种烟草专卖市场监管大数据e-r模型的构建方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN111967675A (zh) * | 2020-08-19 | 2020-11-20 | 京东方科技集团股份有限公司 | 光伏发电量的预测方法以及预测装置 |
CN111949884B (zh) * | 2020-08-26 | 2022-06-21 | 桂林电子科技大学 | 一种基于多模态特征交互深度融合推荐方法 |
CN112257868A (zh) * | 2020-09-25 | 2021-01-22 | 建信金融科技有限责任公司 | 构建和训练用于预测客流量的集成预测模型的方法及装置 |
CN112418010A (zh) * | 2020-11-09 | 2021-02-26 | 电子科技大学 | 一种基于LightGBM融合模型的设备温度监测方法 |
CN112465195A (zh) * | 2020-11-12 | 2021-03-09 | 广东电网有限责任公司广州供电局 | 考虑高比例分布式光伏接入的母线负荷预测方法及系统 |
CN112419030B (zh) * | 2020-11-30 | 2023-06-27 | 北京安九信息技术有限公司 | 财务舞弊风险评估的方法、系统及设备 |
CN112354042A (zh) * | 2020-12-01 | 2021-02-12 | 南通市肿瘤医院 | 一种镇痛泵流量控制方法和装置 |
CN114981825A (zh) * | 2020-12-29 | 2022-08-30 | 株式会社人利智 | 基于自动学习预测及控制时间序列数据的方法及装置 |
CN112949982A (zh) * | 2021-01-29 | 2021-06-11 | 如东信息技术服务(上海)有限公司 | 基于qar数据实现飞行进近着陆稳定性评估的方法 |
CN112990270B (zh) * | 2021-02-10 | 2023-04-07 | 华东师范大学 | 一种传统特征与深度特征的自动融合方法 |
CN113066579A (zh) * | 2021-03-17 | 2021-07-02 | 上海电气集团股份有限公司 | 生理状态预测方法和装置、电子设备及存储介质 |
CN113191926B (zh) * | 2021-04-12 | 2024-04-26 | 北京工商大学 | 基于深度集成学习网络的粮油农作物供应链危害物辨识方法及系统 |
CN113345581B (zh) * | 2021-05-14 | 2023-06-27 | 浙江工业大学 | 一种基于集成学习的脑卒中溶栓后出血概率预测方法 |
CN113408617A (zh) * | 2021-06-18 | 2021-09-17 | 湘潭大学 | 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法 |
CN113469739B (zh) * | 2021-06-25 | 2024-05-28 | 广州宸祺出行科技有限公司 | 一种用于网约车的打车需求的预测方法及系统 |
CN113591924A (zh) * | 2021-07-01 | 2021-11-02 | 中山大学新华学院 | 一种网络诈骗号码检测方法、系统、存储介质及终端设备 |
CN113657452B (zh) * | 2021-07-20 | 2024-07-26 | 中国烟草总公司郑州烟草研究院 | 基于主成分分析和超级学习的烟叶质量等级分类预测方法 |
CN113837805A (zh) * | 2021-09-24 | 2021-12-24 | 深圳闪回科技有限公司 | 一种xDeepFM的二手手机价格预测算法 |
CN113743540B (zh) * | 2021-11-04 | 2022-02-18 | 华能(天津)煤气化发电有限公司 | 一种基于多模型融合Stacking算法的煤质熔点预测方法 |
CN114219084B (zh) * | 2021-12-06 | 2022-08-23 | 广州市玄武无线科技股份有限公司 | 一种快消行业的访销陈列造假识别方法及装置 |
CN114580782B (zh) * | 2022-03-22 | 2024-04-30 | 四川省自然资源科学研究院(四川省生产力促进中心) | 基于集成学习的风控预测方法 |
CN115001763B (zh) * | 2022-05-20 | 2024-03-19 | 北京天融信网络安全技术有限公司 | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 |
CN117391836A (zh) * | 2023-07-26 | 2024-01-12 | 人上融融(江苏)科技有限公司 | 一种基于不同标签的异质集成进行逾期概率建模的方法 |
CN117591506B (zh) * | 2024-01-12 | 2024-03-22 | 南京大学 | 基于融合模型的场地土壤与地下水环境监测数据清洗方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL188726A (en) * | 2008-01-10 | 2013-05-30 | Deutsche Telekom Ag | A stacking scheme for tasks was classified |
US20140289903A1 (en) * | 2011-06-29 | 2014-09-25 | The University Of British Columbia | Enhancing cell wall properties in plants or trees |
US20180144352A1 (en) * | 2016-03-08 | 2018-05-24 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Predicting student retention using smartcard transactions |
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
US11544810B2 (en) * | 2018-01-31 | 2023-01-03 | Maplebear Inc. | Predictive inventory availability |
CN108764597A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于集成学习的产品质量控制方法 |
CN109754002A (zh) * | 2018-12-24 | 2019-05-14 | 上海大学 | 一种基于深度学习的隐写分析混合集成方法 |
CN109784561A (zh) * | 2019-01-15 | 2019-05-21 | 北京科技大学 | 一种基于集成学习的浓密机底流浓度预测方法 |
CN110443304A (zh) * | 2019-08-06 | 2019-11-12 | 民生科技有限责任公司 | 一种基于机器学习模型的企业风险评估方法 |
CN110503251B (zh) * | 2019-08-12 | 2022-06-07 | 江苏方天电力技术有限公司 | 一种基于Stacking算法的非节假日负荷预测方法 |
-
2019
- 2019-12-24 CN CN201911345566.7A patent/CN111199343B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111199343A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
Zhang et al. | Group pooling for deep tourism demand forecasting | |
CN107808278B (zh) | 一种基于稀疏自编码器的Github开源项目推荐方法 | |
Yaacob et al. | Predicting student drop-out in higher institution using data mining techniques | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN108921602B (zh) | 一种基于集成神经网络的用户购买行为预测方法 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN112085525A (zh) | 一种基于混合模型的用户网络购买行为预测研究方法 | |
CN112231583A (zh) | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 | |
Chen et al. | A novel method for financial distress prediction based on sparse neural networks with L 1/2 regularization | |
Pristyanto et al. | The effect of feature selection on classification algorithms in credit approval | |
Wu et al. | Applying the CG-logistic regression method to predict the customer churn problem | |
Menshchikov et al. | Comparative analysis of machine learning methods application for financial fraud detection | |
Rijal et al. | Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19. | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
Cao et al. | User online purchase behavior prediction based on fusion model of CatBoost and Logit | |
Pattewar et al. | Stock prediction analysis by customers opinion in Twitter data using an optimized intelligent model | |
Cholil et al. | Predicting Startup Success Using Tree-Based Machine Learning Algorithms | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
Arshad et al. | A Hybrid System for Customer Churn Prediction and Retention Analysis via Supervised Learning | |
Religia et al. | South German Credit Data Classification Using Random Forest Algorithm to Predict Bank Credit Receipts | |
Li et al. | Dynamic heterogeneous attributed network embedding | |
Badyal et al. | Insightful Business Analytics Using Artificial Intelligence-A Decision Support System for E-Businesses | |
CN114692721A (zh) | 一种基于简化深度森林的电子信息系统试验数据预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |