CN111199343B

CN111199343B - 一种多模型融合的烟草市场监管异常数据挖掘方法

Info

Publication number: CN111199343B
Application number: CN201911345566.7A
Authority: CN
Inventors: 李天举; 谢志峰; 丁友东
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-07-21
Anticipated expiration: 2039-12-24
Also published as: CN111199343A

Abstract

本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法。该方法主要有以下几个步骤：（1）对烟草市场监管数据集进行数据预处理，将数据处理成静态特征指标与动态特征指标；（2）分别训练基于深度学习的xDeepFM模型，以及XGBoost、LightGBM等机器学习模型，使得各个单一模型达到最优的训练效果；（3）通过集成学习的Stacking方式，将不同的算法模型集成融合，形成一个在整体性能上优于单个基学习器的集成模型，进而提升模型的预测性能；（4）最后使用LightGBM算法完成零售户异常经营行为的概率预测。该模型不仅有效解决了数据在高纬度的稀疏性问题，还让模型自动的去学习特征之间的交叉特性。充分证明了机器学习算法和深度学习网络结合后，能够表现出更加优越的性能。

Description

一种多模型融合的烟草市场监管异常数据挖掘方法

技术领域

本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法，属于计算机数据挖掘技术领域。

背景技术

随着数字化信息时代的到来，烟草行业数据量正在以惊人的速度快速增长，这种数字化趋势为机器学习与数据挖掘技术在其生产、物流、监管等各方面的应用创造了新机遇。面向烟草行业的异常数据挖掘也有望从海量的、不完全的、模糊的烟草行业数据中，提取挖掘出零售户在卷烟经营中是否存在涉烟违法的行为信息。异常数据挖掘技术的应用将有效推进整个烟草行业向信息化、智能化方向发展。

异常是一个相对复杂的概念，在不同的领域对其有着不同的定义。一种被广泛接受的定义由Hawkins提出：异常是在数据集中与众不同的数据，使人们怀疑这些数据并非随机产生的，而是产生于完全不同的机制。随着异常数据挖掘方法的增多以及研究的深入，对异常数据的定义也随之增多，在烟草专卖市场监管中，针对烟草行业异常数据的定义主要分为以下几个方面：(1)烟草专卖市场监管中异常数据通常是聚类过程中的噪声数据，这些数据不属于任何聚类簇或者是聚类之中的小模式；(2)烟草专卖市场监管中异常数据是与数据集中正常的数据行为有很大差异的数据对象，它不属于任何聚类簇也不是噪声数据；(3)烟草专卖市场监管中异常数据是与数据集中大部分数据对象不一致、明显偏离数据集中的其他数据对象且不满足于数据的一般模式或行为的数据对象。

在烟草专卖市场监管方面，异常数据挖掘的任务就是在专卖监管数据中发现那些有违规经营迹象的数据对象，并找到隐藏在这些对象背后的各类违规经营情况。基于多模型融合的烟草异常数据挖掘研究，能够进一步加强烟草零售市场监管力度，有效限制零售户的涉烟违法行为，合理分配稽查工作中的人员调度，有效净化卷烟市场经营环境。通过深入挖掘分析现有的烟草市场监管数据，能够有效结合现有市场监管模式，加快烟草市场监管方式的信息化转变，加强对重点涉烟违法行为的治理，提升市场监管的精准性。

Kotsiantis S等人将机器学习技术运用于发布虚假财务报表(FFS)公司的异常行为检测中，通过使用优化的Stacking多模型融合方法将典型的机器学习算法组合在一起，取得了比任何单一算法和经过检验的简单集成方法更好的检测性能。

Dzalilov Z，Bagirov A等人提出了一种新的基于优化的特征选择算法，将改进的全局k-means聚类算法应用于复杂的烟草控制系统的调查数据集，可以有效的预测集群内吸烟者对烟草控制政策的异常行为反应。

Chen Z等利用XGBoost机器学习算法，能够对云计算中SDN控制器易受到分布式拒绝服务(DDoS)的异常攻击行为进行快速的检测。

Bui D T，Ho T C等人通过使用基于功能树分类器和三种当前比较先进的机器学习集成框架Bagging、AdaBoost和MultiBoost，提出并验证了一种能够提高滑坡异常和敏感性模型预测性能的集成方法。

Minastireanu E A等人将前沿的机器学习LightGBM算法应用于在线广告业务中，研究了四天内处理2亿次点击的数据集的点击模式，以检测在线环境中的异常点击和欺诈行为，同时通过特征工程来处理数据集中的类别特征和数据不平衡问题，进一步提高了检测性能。

Lian J等人提出的深度网络xDeepFM算法，能够有效地自动学习数据的特征交互。

虽然机器学习技术和深度学习网络技术的快速发展为异常数据的检测提供了新的解决思路，但是目前现有技术大多采用一种单独的技术手段进行异常数据检测，而针对烟草行业市场监管数据的高维、冗余特性，若使用单一模型进行预测往往表现出泛化性能不佳。此外，使用组合预测Stacking的方式，更多的是使用机器学习算法模型的组合，不能很好地结合深度学习技术。

发明内容

本发明的目的是针对烟草专卖市场监管行业数据来源往往数出多门，各项数据散乱，缺乏梳理等问题，提供一种多模型融合的烟草市场监管异常数据挖掘方法，引入机器学习算法以及深度神经网络等数据处理与分析方法，将前沿机器学习技术LightGBM算法、XGBoost算法、xDeepFM算法与集成学习Stacking方式进行有效的结合。

为达到上述目的，本发明采用的技术方案是：

一种多模型融合的烟草市场监管异常数据挖掘方法，具体操作步骤如下：

(1)烟草市场监管数据集预处理：将数据处理成静态特征指标与动态特征指标，同时对类别特征使用one-hot编码，统一成数值型数据；

(2)模型训练：分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练；

(3)多模型融合训练：使用Stacking集成学习的方式将多个模型进行融合训练，同时加入AdaBoost算法、随机森林(Random Forest，RF)算法、极端随机树(ExtraTrees，ETR)算法和Logistic Regression(LR)算法，加强各模型间算法的差异性，同时弱学习器LR算法起到防止过拟合的作用，让Stacking模型具有更强的鲁棒性；

(4)烟草零售户异常经营行为的预测：通过Stacking第二层中使用的LightGBM算法完成零售户是否存在异常经营行为的概率预测。

与现有技术相比，本发明的有益效果是：

本发明方法通过数据挖掘的前期数据清洗工作，完成烟草行业内结构化数据的高效预处理。使用多模型融合的方式充分发挥机器学习算法和深度学习神经网络的优势，构建多维度指标下的异常行为综合预测分析模型，能够快速预测烟草零售户存在异常经营行为的可能性，从而使烟草市场监管稽查工作中的人员调拨分配更加合理，对零售户涉烟违法行为的监管更加精准，最终推动烟草专卖市场监管方式的转型，进而促进烟草市场监管水平的大幅提升。

附图说明

图1是基于多模型融合的烟草市场监管异常数据挖掘方法整体流程图。

图2是部分指标分类表。

图3是两层Stacking多模型融合学习框架图。

图4是xDeepFM神经网络结构图。

图5是多模型融合训练图。

图6是多模型融合模型的训练参数。

图7是模型预测结果指标对比。

具体实施方式

本发明的优选实施例结合附图说明如下：

如图1所示，本实施例一种多模型融合的烟草市场监管异常数据挖掘方法，首先划分原始烟草数据集，在训练集上对单个算法进行训练调参，使单个模型性能达到最优状态；再确定Stacking融合模型的第一层模型组合方式，利用划分后的数据集来训练，将第一层的各个模型的输出组合形成新的数据集；Stacking第二层模型用新生成的数据集来训练，并输出最终的预测概率值。

本实例使用的数据是烟草专卖相关数据，基础数据主要包括：经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据等。

(1)烟草市场监管数据集预处理：

针对烟草行业中的海量、多维、动态数据，分析烟草结构化数据的特点，从营销、物流、市场监管、案件等多个维度进行分析，梳理形成静态特征指标与动态特征指标，部分指标分类如图2所示。在数据预处理阶段，还需要对静态指标中的类别数据进行编码，比如：订货方式包括POS订货、电话订货、电子商务、手工订货、网上配货等，需要将其转为数值型数据进行处理。通过观察数据样本发现大多数类别数据在5个类别以下，所以选择使用one-hot编码对类别数据进行编码，一方面防止标签编码带来的赋值顺序问题，另一方面又可以同时适用于机器学习算法和深度神经网络算法。通过数据预处理和特征工程提取之后，最终进入模型的一共有244个特征(指标)。

(2)模型训练：

结合目前前沿的机器学习算法，本实例采用两层Stacking多模型融合学习框架，参见图3。对于两层Stacking多模型融合框架来说，首先使用K折交叉验证将原数据集划分成K个子数据集，将数据输入到第一层的不同基学习器中去训练。之后，将第一层的各个模型的输出的预测值作为新的特征组合形成新的数据集，第二层的元学习器将使用这个新的数据集去训练并输出最终预测概率。

在第一层的基学习器中，主要利用XGBoost、LightGBM两种算法来处理海量多维的烟草市场监管数据，首先XGBoost通过近似分位点算法对传统的GBDT算法进行了改进，使得该算法模型更适合处理工业级的海量数据，在烟草数据集上该算法表现同样优秀；其次LightGBM算法针对XGBoost处理海量数据计算耗时问题使用了基于梯度的单边采样算法和互斥特征捆绑两种方法进行了进一步改进，使得其在处理烟草数据集时不仅计算速度有了大幅度提升，同时模型预测的准确性也有很大的提升。最后为了更进一步挖掘不同交叉特征之间的潜在联系，引入了极深因子分解机xDeepFM深度神经网络算法，使用其中的压缩交互网络模块(CIN)和DNN模块分别以显式和隐式的方式进行高维的特征交互，其模型结构参见图4。

首先使用5折交叉验证将原数据集划分成5个子数据集送入模型进行训练，然后使用网格搜索的方式确定模型的最佳参数，最后得到每个模型的预测输出，具体步骤如下：

1)XGBoost模型训练：XGBoost极端梯度提升算法，是根据CART树的一种boosting算法，高效地实现了GBDT算法，并进行了算法和工程上的许多改进；

XGBoost模型的目标函数主要包含两个部分：

式中，第一部分是模型的训练误差，即模型的预测结果/>与样本真实y_i的差值；第二部分Ω(f_k)是正则项，用于控制模型的复杂度，其中γ和λ是惩罚系数，T和w分别代表叶子节点的个数和分数；

XGBoost模型每次训练一棵新的树都要拟合上一次结果的残差，每次增加的函数的增量要使新一轮的残差尽可能的减小，在进行到第t次时，模型的目标函数写为：

式中：是模型每个样本第t-1次的预测结果；f_t(x_i)是第t次迭代的函数增量；Ω(f_t)是正则项；

模型训练的最终目标是要找到一个能够最小化目标函数的f_t(x_i)，对式(2)采用其在x＝0处的泰勒二阶展开式来近似，近似的目标函数为：

其中：是f_t(x_i)在x＝0处的一阶导函数；是f_t(x_i)在x＝0处的二阶导函数；

去掉不影响目标函数最终优化的项，简化为：

2)LightGBM模型训练：该算法主要使用了基于梯度的单边采样和互斥特征捆绑这两种方法来弥补传统Boosting在处理大数据样本时的计算损耗问题；

模型在训练时首先采用基于梯度的单边采样，根据样本的训练梯度进行降序排序，把前a*100％的样本作为大梯度样本数据集，对余下的样本随机选b*(1-a)*100％作为小梯度样本数据集，并对其赋予权重系数(1-a)/b，合并两个样本进行模型的迭代学习；

同时通过互斥特征捆绑的方式将高维空间下相互独立的稀疏特征进行特征组合，构建后的特征组合使得模型处理数据的复杂度从O(data*feature)降至O(data*bundle)，使寻找最佳切分点的消耗减少；其中feature为原始数据集中的所有特征，bundle是捆绑后的特征，并且bundle的数量远远小于feature的数量，从而能够加快模型的训练；

3)xDeepFM模型训练：

首先把数据集的原始特征中每个one-hot编码后的特征组成一个field，用来克服数据的稀疏性；然后进行embedding转换使特征表现为向量级；接着将数据送入压缩交互网络CIN模型中，使得模型以显示的方式自动学习高阶的交互特征，CIN每层的神经元都是由原始特征向量和它前面的隐层计算而来，即：

其中表示第k层的第h个向量的权重矩阵；/>为数据的原始特征，即初始的状态图；/>为CIN神经网络中的前一层隐层的状态图；点乘的计算依据如下式：

同时xDeepFM模型中还分别包含了集成的线性模型和DNN神经网络模型，前者使得模型具有泛化的记忆能力，后者使得模型能够隐式的学习特征的交互特性。

(3)多模型融合训练：

烟草市场监管异常数据挖掘模型最终要实现的目标是，预测出零售户“销假，销私，乱渠道进货”的可能性。基于模型的预测性能，Stacking集成学习方式一般要求组合中的单个基学习器不仅要有较强的学习预测能力，还要在算法原理上具有较大的差别。因此Stacking模型中的第一层除了选用学习性能比较强的XGBoost算法、LightGBM算法和xDeepFM算法，还使用了AdaBoost算法、随机森林(Random Forest，RF)算法、极端随机树(ExtraTrees，ETR)算法和Logistic Regression(LR)算法，参见图5。

要想使Stacking融合模型性能达到最好，首先要确保其第一层的各个基学习器达到最佳的学习能力，因此将各个基学习器在原始数据集上单独训练，从而确定每一个模型的训练参数，具体参数参见图6。最后使用Stacking的方式进行融合模型的训练；Stacking模型训练具体步骤如下：

1)划分原始数据集，在训练集上对单个算法进行训练调参，使单个模型性能达到最优状态；

2)确定Stacking第一层模型组合方式，利用划分后的数据集来训练，将第一层的各个模型的输出组合形成新的数据集；

3)Stacking第二层模型用新生成的数据集来训练，并输出最终的预测概率值。

(4)烟草零售户异常经营行为的预测：

通过Stacking第二层中使用的LightGBM算法将第一层中的各模型输出结果作为新的数据集进行训练，完成零售户是否存在异常经营行为的概率预测。为了提高预测的准确性，该实例首先使用5折交叉验证将原数据集划分成5个子数据集，将数据输入到第一层的不同基学习器中去训练。之后，将第一层的各个模型的输出值作为新的特征组合形成新的数据集，第二层的元学习器将使用这个新的数据集去训练并输出最终预测概率。

由于模型预测属于二分类预测问题，且最终的输出值为概率值。为了对模型输出的概率值直接分析，用Log_loss和AUC来评价模型的预测效果，在烟草数据集上对每个单一模型和Stacking模型分别进行训练并预测，最佳模型通常具有较小的Log_loss值以及较大的AUC值，各个模型的预测结果对比如图7所示。

Claims

1.一种多模型融合的烟草市场监管异常数据挖掘方法，其特征在于，具体操作步骤如下：

(3)多模型融合训练：使用Stacking集成学习的方式将多个模型进行融合训练，同时加入AdaBoost算法、RF算法、ETR算法和LR算法，加强各模型间算法的差异性，同时弱学习器LR算法起到防止过拟合的作用，让Stacking模型具有更强的鲁棒性；

Stacking是一种每一层都使用多个模型来进行训练的集成学习方式，每一层的多个模型都有各自输出值，将该层每一个模型的输出值作为新的特征组合成新的数据集作为下一层的输入进行学习；通过结合不同的机器学习算法和深度神经网络算法，选用两层的Stacking集成方式进行模型融合；

Stacking模型中的第一层除了选用XGBoost算法、LightGBM算法和xDeepFM算法，还使用了AdaBoost算法、随机森林RF算法、极端随机树ETR算法和LR算法；Stacking模型中的第二层的元学习器用了LightGBM算法；

要想使Stacking融合模型性能达到最好，首先要确保其第一层的各个基学习器达到最佳的学习能力，将各个基学习器在原始数据集上单独训练，从而确定每一个模型的训练参数，最后使用Stacking的方式进行融合模型的训练；Stacking模型训练具体步骤如下：

a.划分原始数据集，在训练集上对单个算法进行训练调参，使单个模型性能达到最优状态；

b.确定Stacking第一层模型组合方式，利用划分后的数据集来训练，将第一层的各个模型的输出组合形成新的数据集；

c.Stacking第二层模型用新生成的数据集来训练，并输出最终的预测概率值；

2.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法，其特征在于，所述步骤(1)使用烟草专卖相关数据，基础数据主要包括：经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据；针对烟草行业中的海量、多维、动态数据，分析烟草结构化数据的特点，从营销、物流、市场监管、案件多个维度进行分析，通过数据清洗与数据增强手段，从烟草海量数据中检测和消除错误数据、不完整数据和重复数据，从而提高数据的质量，将数据梳理形成静态特征指标与动态特征指标；在数据预处理阶段，还需要对静态指标中的类别数据进行编码，通过观察数据样本发现大多数类别数据在5个类别以下，所以选择使用one-hot编码对类别数据进行编码，一方面防止标签编码带来的赋值顺序问题，另一方面又同时适用于机器学习算法和深度神经网络算法。

3.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法，其特征在于，所述步骤(2)中的模型训练首先使用5折交叉验证将原数据集划分成5个子数据集送入模型进行训练，然后使用网格搜索的方式确定模型的最佳参数，最后得到每个模型的预测输出，具体步骤如下：

XGBoost模型的目标函数主要包含两个部分：

去掉不影响目标函数最终优化的项，简化为：

3)xDeepFM模型训练：

4.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法，其特征在于，所述步骤(3)进行基于Stacking集成学习的多模型融合，从而更好地预测出零售户“销假，销私，乱渠道进货”的可能性；

基于模型的预测性能，Stacking集成学习方式一般要求组合中的单个基学习器不仅要有较强的学习预测能力，还要在算法原理上具有较大的差别；因此Stacking模型中RF和AdoBoost分别使用了基于Bagging与Boosting的集成学习方式，具有较强的学习能力和严谨的数学理论作为支撑；ETR算法是在RF的基础上多了一层随机性，即在对连续变量特征选取最优分裂值时，不会计算所有分裂值的效果来选择分裂特征，而是在每一个特征的取值范围内，随机产生一个分裂值，从中计算出一个较优值来进行分裂；其次与RF使用Bagging集成学习方式对样本数据进行有放回抽样不同，ETR使用所有的样本，只是特征是随机选取的；LR算法相对来说是弱一点的基学习器，使用该算法的原因是为了防止过拟合，让Stacking模型具有更强的鲁棒性。

5.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法，其特征在于，所述步骤(4)中通过Stacking第二层中使用的LightGBM算法将第一层中的各模型输出结果作为新的数据集进行训练，完成零售户是否存在异常经营行为的概率预测，从而提高预测的准确性。