CN115423488A

CN115423488A - 烟草销售串烟风险预测方法、装置、电子设备及存储介质

Info

Publication number: CN115423488A
Application number: CN202210999287.8A
Authority: CN
Inventors: 任学智; 王涛
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-12-02

Abstract

本发明提供一种烟草销售串烟风险预测方法、装置、电子设备及存储介质，包括：将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分；基于各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级；训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，多个特征变量的样本数据是基于各个贩烟网点的行为信息样本集确定的。本发明可以提前预测出贩烟网点的串烟风险等级，为香烟非法流通稽查提供决策辅助，从而有针对性地开展稽核工作，大大减少了人力物力的投入，极大地提升了稽查效率，简洁高效。

Description

烟草销售串烟风险预测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种烟草销售串烟风险预测方法、装置、电子设备及存储介质。

背景技术

贩烟网点的香烟是配额管理的，不同区域不同品牌的供需不同，价格存在一定的差异。为此，不法烟贩会联系多家贩烟网点，收购大量香烟后在其他区域进行违法销售，从中获利。

目前，烟草局针对香烟非法流通的稽查方式一般是对检查对象进行随机抽样检查，基于香烟出库时标记的渠道串码判断贩烟网点或者烟贩是否存在串烟行为。此方式虽然借助了渠道串码等信息技术手段，但需耗费大量人力物力，且智能化程度也不高，导致稽查效率较低。

因此，如何更好地对香烟非法流通进行预测和稽查已成为业界亟待解决的技术问题。

发明内容

本发明提供一种烟草销售串烟风险预测方法、装置、电子设备及存储介质，用以更好地对香烟非法流通进行预测和稽查。

本发明提供一种烟草销售串烟风险预测方法，包括：

将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个所述贩烟网点的串烟风险评分；

基于各个所述贩烟网点的串烟风险评分，预测各个所述贩烟网点的串烟风险等级；

所述训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；所述多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，所述多个特征变量的样本数据是基于各个所述贩烟网点的行为信息样本集确定的。

根据本发明提供的一种烟草销售串烟风险预测方法，在所述将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型之前，还包括：

基于各个所述特征变量的样本数据，确定多个所述目标特征变量的样本数据；

对各个所述目标特征变量的样本数据进行划分，确定训练集和测试集；

构建逻辑回归模型，并分别利用所述训练集、所述测试集对所述逻辑回归模型进行训练及检测，输出串烟风险预测模型；

对所述串烟风险预测模型进行模型评价，确定最优串烟风险预测模型；

将所述最优串烟风险预测模型转化为评分卡模型，得到所述训练好的评分卡模型。

根据本发明提供的一种烟草销售串烟风险预测方法，所述基于各个所述特征变量的样本数据，确定多个所述目标特征变量的样本数据，包括：

对各个所述特征变量的样本数据进行变量分箱操作，得到每个所述特征变量的多个分箱；

确定每个所述特征变量的各个所述分箱的证据权重，并基于每个所述特征变量的各个所述分箱的证据权重，计算各个所述特征变量的信息价值；

基于各个所述特征变量的信息价值，从各个所述特征变量中筛选出多个第一特征变量；

基于多个所述第一特征变量的样本数据，确定多个所述目标特征变量的样本数据。

根据本发明提供的一种烟草销售串烟风险预测方法，所述特征变量包括连续变量；所述对各个所述特征变量的样本数据进行变量分箱操作，得到每个所述特征变量的多个分箱，包括：

基于分类与回归树算法，对各个所述连续变量的样本数据进行分箱，得到每个所述连续变量的多个分箱。

根据本发明提供的一种烟草销售串烟风险预测方法，所述确定每个所述特征变量的各个所述分箱的证据权重，包括：

确定第一贩烟网点的行为信息样本的第一总数量以及每个所述特征变量的各个所述分箱中所述第一贩烟网点的行为信息样本的第一数量，并确定第二贩烟网点的行为信息样本的第二总数量以及每个所述特征变量的各个所述分箱中所述第二贩烟网点的行为信息样本的第二数量；

基于所述第一总数量、各个所述第一数量、所述第二总数量和各个所述第二数量，确定每个所述特征变量的各个所述分箱的证据权重；

所述贩烟网点包括所述第一贩烟网点和所述第二贩烟网点；所述第一贩烟网点为存在串烟行为的对象；所述第二贩烟网点为各个所述贩烟网点中，除所述第一贩烟网点以外的对象。

根据本发明提供的一种烟草销售串烟风险预测方法，在所述基于各个所述特征变量的信息价值，从各个所述特征变量中筛选出多个第一特征变量之后，包括：

步骤601，获取由所述多个第一特征变量组成的第一特征变量集合；

步骤602，确定所述第一特征变量集合中的每个所述第一特征变量相对于其他各个所述第一特征变量的方差膨胀系数；

步骤603，从所述第一特征变量集合中，剔除所述方差膨胀系数大于预设阈值的第一特征变量，并保留所述方差膨胀系数不大于所述预设阈值的第一特征变量；

步骤604，获取由各个所述方差膨胀系数不大于预设阈值的第一特征变量组成的第二特征变量集合；

步骤605，将所述第二特征变量集合作为所述第一特征变量集合，执行步骤602，直至确定所述第一特征变量集合中各个所述第一特征变量对应的方差膨胀系数均不大于所述预设阈值，执行步骤606；

步骤606，将所述第一特征变量集合中的各个所述第一特征变量作为所述目标特征变量，并确定各个所述目标特征变量的样本数据。

本发明还提供一种烟草销售串烟风险预测装置，包括：

输出模块，用于将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个所述贩烟网点的串烟风险评分；

预测模块，用于基于各个所述贩烟网点的串烟风险评分，预测各个所述贩烟网点的串烟风险等级；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述烟草销售串烟风险预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述烟草销售串烟风险预测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述烟草销售串烟风险预测方法。

本发明提供的烟草销售串烟风险预测方法、装置、电子设备及存储介质，通过利用评分卡模型，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级，相较于传统的随机检查方式，在不增加额外设备的基础上，基于评分卡模型、通信和到访数据挖掘贩烟网点和烟贩之间的联系，可以提前预测出贩烟网点的串烟风险等级，为香烟非法流通稽查提供决策辅助，从而有针对性地开展稽核工作，大大减少了人力物力的投入，极大地提升了稽查效率，简洁高效。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的烟草销售串烟风险预测方法的流程示意图之一；

图2是本发明提供的烟草销售串烟风险预测方法的流程示意图之二；

图3是本发明提供的烟草销售串烟风险预测装置的结构示意图；

图4是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图3描述本发明的烟草销售串烟风险预测方法、装置、电子设备及存储介质。

图1是本发明提供的烟草销售串烟风险预测方法的流程示意图之一，如图1所示，包括：步骤110和步骤120。

步骤110，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分；训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，多个特征变量的样本数据是基于各个贩烟网点的行为信息样本集确定的。

具体地，本发明实施例所描述的行为信息指的是贩烟网点从事香烟售卖活动过程中产生的行为信息，例如贩烟网点与烟贩之间的通信频率信息，烟贩到访贩烟网点的频率信息、烟贩到访贩烟网点时的停留时长等等。

本发明实施例所描述的特征变量指的是基于贩烟网点行为特征的行为信息确定的变量，其可以表征为一类行为信息的变量，如特征变量可以包括贩烟网点与烟贩之间的通信频率，烟贩到访贩烟网点的频率，或烟贩到访贩烟网点时的停留时长等变量。

本发明实施例所描述的目标特征变量指的是在基于贩烟网点的行为信息确定的各个特征变量中，与串烟风险关联度强的特征变量。

本发明实施例所描述的目标行为信息可以是目标特征变量对应的行为信息。

本发明实施例所描述的目标历史时段指的是用于进行串烟风险预测所采集的行为信息所属的最近历史时段。其具体可以根据实际计算需求进行确定，如可以取值为最近60天的历史时段，也可以为最近90天的历史时段，各个贩烟网点在目标历史时段的目标行为信息，也就是，最近60天或者90天内的各个贩烟网点行为信息。

在本发明的实施例中，假设贩烟网点有串烟风险，一般其在较长一段时间内与烟贩来往活动累计频次存在一个上升趋势，短时间内，例如一天内的数据是不足以分析异常情况的，若不存在串烟风险，贩烟网点与烟贩在不同的统计周期内的沟通频率是相对稳定的。为了更加精细的发掘风险，可以采用近60天内的历史数据进行判断，分析贩烟网点和烟贩在今后一段时间内存在串烟风险的情况。

在本发明的实施例中，目标历史时段的目标行为信息可以基于采集的通信运营商数据进行挖掘，具体可以分为三类信息数据，包括通信类数据、位置类数据及烟草局系统数据。

针对通信类数据，主要涉及烟贩的短信、通话数据，贩烟网点对应的短信、通话数据等信息。其具体可以选择为贩烟网点近60天内主动联系烟贩的数量、贩烟网点近60天内被不同烟贩联系的烟贩人数、贩烟网点近60天内主动联系烟贩的次数、贩烟网点近60天内被烟贩联系的次数、贩烟网点近60天内给不同烟贩发短信所对应的烟贩人数、贩烟网点近60天内收到不同烟贩短信所对应的烟贩人数、贩烟网点近60天内给烟贩发短信的次数、贩烟网点近60天内收到烟贩短信的次数。

针对位置类数据，主要涉及烟贩的移动轨迹、含经纬度等信息。其具体可以选择为近60天内本地烟贩到访贩烟网点的次数、近60天内到访贩烟网点的本地烟贩人数、近60内外地烟贩到访贩烟网点的次数、近60天内到访贩烟网点的外地烟贩人数、近60天内本地烟贩到访贩烟网点的停留时长、近60天内外地烟贩到访贩烟网点的停留时长。

针对烟草局系统数据，主要涉及留存的烟贩的联系方式、实名制信息，贩烟网点的实名制信息、所在地理位置、开设时间、辐射范围等数据。其具体可以选择为烟贩的贩烟月数、贩烟网点营业月数、贩烟网点覆盖区域面积，指定大小区域内的贩烟网点的数量等数据。

需要说明的是，评分卡模型又叫做信用评分卡模型，其在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决定是否准予授信以及授信的额度和利率。

在本发明的实施例中，基于评分卡模型对于风险控制问题的高效预测能力，利用评分卡模型原理，对各个贩烟网点及烟贩的历史行为信息中的多个特征进行打分，得到各个贩烟网点存在串烟风险的评分。

可以理解的是，在得到训练好的评分卡模型之前，需要进行模型的训练过程，在模型训练阶段，需要确定模型数据样本。本发明的实施例中，可以通过采集各个贩烟网点在目标历史时段的通信类数据、位置类数据及烟草局系统数据，获取各个贩烟网点的行为信息样本集，基于各个贩烟网点的行为信息样本集，从中确定出各类贩烟网点的行为信息，从而确定出多个特征变量的样本数据，如贩烟网点近60天内主动联系烟贩的数量、贩烟网点近60天内被不同烟贩联系的烟贩人数等样本数据。

在本发明的实施例中，从各个贩烟网点的行为信息样本集数据出发，通过数据预处理和特征工程，可以从多个特征变量的样本数据中得到多个目标特征变量的样本数据，进而根据多个目标特征变量的样本数据进行模型训练，最后以评分卡的形式输出贩烟网点的各个特征项的评分，由此得到训练好的评分卡模型。

进一步地，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，可以得到各个贩烟网点的串烟风险评分。

步骤120，基于各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级；

具体地，本发明实施例所描述的串烟风险等级可以表征贩烟网点存在串烟行为的概率大小，串烟风险等级越高，说明贩烟网点存在串烟行为的概率越大，反之，说明贩烟网点存在串烟行为的概率越小。其具体可以通过各个贩烟网点的串烟风险评分来确定。

可选地，串烟风险等级可以划分为三个区间等级，分别为高风险、中风险和低风险。具体地，可以设置贩烟网点的串烟风险评分为200至400时，对应的串烟风险等级为高风险；串烟风险评分为400至600时，对应的串烟风险等级为中风险；串烟风险评分为600-800时，对应的串烟风险等级为低风险。

可以理解的是，对于串烟风险等级为高风险的贩烟网点，属于重点检查的对象；对于串烟风险等级为中风险的贩烟网点，属于高频检查或中频检查的对象；对于串烟风险等级为低风险的贩烟网点，属于低频检查的对象。

进一步地，在本发明的实施例中，基于各个贩烟网点的串烟风险评分，可以根据预先划分好的区间等级，预测各个贩烟网点的串烟风险等级，进而可以根据各个贩烟网点的串烟风险等级，对各个贩烟网点进行有针对性地稽查，有助于提升对香烟非法流通的稽查效率。

本发明实施例的方法，通过利用评分卡模型，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级，相较于传统的随机检查方式，在不增加额外设备的基础上，基于评分卡模型、通信和到访数据挖掘贩烟网点和烟贩之间的联系，可以提前预测出贩烟网点的串烟风险等级，为香烟非法流通稽查提供决策辅助，从而有针对性地开展稽核工作，大大减少了人力物力的投入，极大地提升了稽查效率，简洁高效。

基于上述实施例的内容，作为一种可选的实施例，在将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型之前，还包括：

基于各个特征变量的样本数据，确定多个目标特征变量的样本数据；

对各个目标特征变量的样本数据进行划分，确定训练集和测试集；

构建逻辑回归模型，并分别利用训练集、测试集对逻辑回归模型进行训练及检测，输出串烟风险预测模型；

对串烟风险预测模型进行模型评价，确定最优串烟风险预测模型；

将最优串烟风险预测模型转化为评分卡模型，得到训练好的评分卡模型。

具体地，在步骤110中，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型之前，还需进行模型训练、评估和调优，得到训练好的评分卡模型。

在本发明的实施例中，可以基于各个特征变量的样本数据，通过变量分箱、证据权重变化及变量筛选的操作，确定多个目标特征变量的样本数据。

基于上述实施例的内容，作为一种可选的实施例，基于各个特征变量的样本数据，确定多个目标特征变量的样本数据，包括：

对各个特征变量的样本数据进行变量分箱操作，得到每个特征变量的多个分箱；

确定每个特征变量的各个分箱的证据权重，并基于每个特征变量的各个分箱的证据权重，计算各个特征变量的信息价值；

基于各个特征变量的信息价值，从各个特征变量中筛选出多个第一特征变量；

基于多个第一特征变量的样本数据，确定多个目标特征变量的样本数据。

具体地，可以对基于各个特征变量的样本的原始数据中的连续变量可以进行分段离散化，并将多状态的离散变量进行合并，减少离散变量的状态数，此步骤能够有效处理特征变量中的缺失值和异常值，简化后续所需构建的逻辑回归模型，降低模型过拟合的风险，提高模型的泛化能力。

进一步地，对各个特征变量的样本数据进行变量分箱操作，得到每个特征变量的多个分箱。例如，特征变量可以为“贩烟网点近60天内主动联系烟贩的次数”，依据获取到的贩烟网点的行为信息，贩烟网点一近60天内主动联系烟贩的次数为3，贩烟网点二近60天内主动联系烟贩的次数为6，则特征变量“近60天内主动联系烟贩的次数”可等频分箱为，第一分箱为次数0-5次，第二分箱为还款5-10次，其中，贩烟网点一分到第一分箱，贩烟网点二分到第二分箱。

基于上述实施例的内容，作为一种可选的实施例，特征变量可以包括连续变量；对各个特征变量的样本数据进行变量分箱操作，得到每个特征变量的多个分箱，包括：

基于分类与回归树算法，对各个连续变量的样本数据进行分箱，得到每个连续变量的多个分箱。

具体地，在本发明的实施例中，采用分类与回归树(Classification AndRegression Tree，CART)算法对各个连续变量的样本数据进行最优分箱。

需要说明的是，由于CART算法生成的决策树都是二叉决策树，并且该算法是基于最小基尼指数递归的方式选择最优的二值划分点，不断地将数据集一分为二，依此类推直到满足停止条件。

因此，连续分箱也是可以借助CART算法来实现，其实现步骤如下：

步骤1，给定连续变量，对连续变量中元素的值进行排序；

步骤2，依次计算相邻元素间的中位数，将数据集一分为二，计算该点作为切割点时的基尼值较分割前的基尼值下降程度；

步骤3，选择基尼下降程度最大的点为最优切分点作为本次迭代的划分点；

步骤4，递归迭代步骤2-3，直到满足停止条件。

在本发明的实施例中，可以设置分箱的停止条件为CART算法的每个叶子节点的样本量不小于总样本量的2％；且内部节点再次划分所需最小样本数不小于总样本量的5％。

本发明实施例的方法，通过采用CART算法对各个连续变量的样本数据进行最优分箱，可以高效地对各个特征变量中的连续变量进行分箱。

进一步地，在特征变量分箱结束后，进行证据权重(Weight of Evidence，WOE)变换，其能够表示当前分箱中高风险贩烟网点和低风险贩烟网点的比值，和随机挑选的所有样本中高风险贩烟网点和低风险贩烟网点的比值的差异，WOE值越大，二者差异越大，其表示当前分箱里的坏样本响应的可能性就越大，反之，当前分箱里的坏样本响应的可能性就越小。

基于上述实施例的内容，作为一种可选的实施例，确定每个特征变量的各个分箱的证据权重，包括：

确定第一贩烟网点的行为信息样本的第一总数量以及每个特征变量的各个分箱中第一贩烟网点的行为信息样本的第一数量，并确定第二贩烟网点的行为信息样本的第二总数量以及每个特征变量的各个分箱中第二贩烟网点的行为信息样本的第二数量；

基于第一总数量、各个第一数量、第二总数量和各个第二数量，确定每个特征变量的各个分箱的证据权重；

具体地，在本发明实施例中，贩烟网点包括第一贩烟网点和第二贩烟网点；第一贩烟网点为存在串烟行为的网点；第二贩烟网点为各个贩烟网点中，除第一贩烟网点以外的网点，即不存在串烟行为的网点。

本发明实施例所描述的第一总数量指的是与第一贩烟网点相关的所有信息样本数量，其可以表征为总的坏样本数量；第一数量指的是各个分箱中第一贩烟网点的行为信息样本的数量，其可以表征为各个分箱中坏样本的数量。

本发明实施例所描述的第二总数量指的是与第二贩烟网点相关的所有信息样本数量，其可以表征总的好样本数量；第二数量指的是各个分箱中第二贩烟网点的行为信息样本的数量，其可以表征各个分箱中好样本的数量。

具体来说，WOE的计算公式为：

其中，Bad_i表示第i个分箱的坏样本数量，Bad_T表示总的坏样本数量，Good_i表示第i个分箱的好样本数量，Good_T表示总的好样本数量，其中，坏样本代表历史稽查中存在串烟行为的贩烟网点的特征数据。

由此，在确定第一总数量、各个第一数量、第二总数量和各个第二数量之后，可以代入上述公式中，确定每个特征变量的各个分箱的WOE值。

本发明实施例的方法，通过考虑历史稽查过程中存在串烟行为的贩烟网点，区分各个分箱中的好样本和坏样本，从而计算出每个特征变量的各个分箱的WOE值，完成WOE编码，为后续变量挑选过程的提供准确的数据支持。

进一步地，在确定每个特征变量的各个分箱的证据权重之后，可以基于每个特征变量的各个分箱的证据权重，计算各个特征变量的信息价值(Information Value，IV)，其代表了各个特征变量的信息价值量。

在本发明的实施例中，初步挑选的特征变量可能与目标特征变量相关性较低，为了保障建模效果，完成WOE编码之后，需要进行变量挑选。

在本发明的实施例中，基于IV指标，挑选单变量，IV值越大，表示自变量的预测能力越强，其计算公式如下：

式中，n表示变量分箱的数量。

本发明实施例所描述的第一特征变量指的是IV值大于预设阈值的变量，其中，预设阈值一般可以取值为0.1。

进一步地，基于各个特征变量的信息价值，可以从各个特征变量中筛选出所有IV值大于预设阈值的特征变量，得到多个第一特征变量，此时可以将第一特征变量作为目标特征变量，基于多个第一特征变量的样本数据，得到多个目标特征变量的样本数据。

本发明实施例的方法，基于各个特征变量的样本数据，进行变量分箱、证据权重变换及变量筛选，可以从各个特征变量中高效地获取到目标特征变量的样本数据，确定与串烟风险关联度强的特征变量，从而根据目标特征变量的样本数据进行模型训练，有利于提高后续构建的评分卡模型的精度。

基于上述实施例的内容，作为一种可选的实施例，在基于各个特征变量的信息价值，从各个特征变量中筛选出多个第一特征变量之后，包括：

步骤601，获取由多个第一特征变量组成的第一特征变量集合；

步骤602，确定第一特征变量集合中的每个第一特征变量相对于其他各个第一特征变量的方差膨胀系数；

步骤603，从第一特征变量集合中，剔除方差膨胀系数大于预设阈值的第一特征变量，并保留方差膨胀系数不大于预设阈值的第一特征变量；

步骤604，获取由各个方差膨胀系数不大于预设阈值的第一特征变量组成的第二特征变量集合；

步骤605，将第二特征变量集合作为第一特征变量集合，执行步骤602，直至确定第一特征变量集合中各个第一特征变量对应的方差膨胀系数均不大于预设阈值，执行步骤606；

步骤606，将第一特征变量集合中的各个第一特征变量作为目标特征变量，并确定各个目标特征变量的样本数据。

需要说明的是，在本发明的实施例中，除了单变量筛选之外，为了保障后续使用逻辑回归模型转化为标准评分卡的时候变量的可解释性，还可以基于方差膨胀系数(Variance Inflation Factor，VIF)来衡量所选的特征变量的多重线性严重程度，当某个特征变量的VIF值大于阈值时，逐一剔除解释变量。

具体地，本发明实施例所描述的预设阈值指的是预先设定的VIF阈值，其具体可以取值为9。

在步骤602中，在第一轮VIF计算中，通过计算第一特征变量集合中的每个第一特征变量相对于其他各个第一特征变量的VIF值，判断各个第一特征变量的多重线性严重程度。

在步骤603中，从第一特征变量集合中，剔除方差膨胀系数大于预设阈值的第一特征变量，并保留方差膨胀系数不大于预设阈值的第一特征变量，也就是说，基于步骤602中计算的各个第一特征变量的VIF值，若特征变量的VIF值大于预设阈值，则从第一特征变量集合中剔除掉该特征变量，否则，保留该特征变量。

可以理解的是，通过第一轮VIF计算，可以剔除第一特征变量集合中所有VIF值大于预设阈值的特征变量。

进一步地，在步骤604中，获取由各个方差膨胀系数不大于预设阈值的第一特征变量组成的第二特征变量集合，也就是说，剔除掉第一特征变量集合中所有VIF值大于预设阈值的特征变量后，将剩下的特征变量组成第二特征变量集合，以用于下一次的筛选。

进一步地，在步骤605中，将第二特征变量集合作为第一特征变量集合，执行步骤602，也就是说，对第二特征变量集合中的各个第一特征变量，按照步骤602至步骤603的方式，进行新一轮特征变量的剔除操作，以此循环执行步骤602至步骤604的方法，直至确定第一特征变量集合中保留的各个第一特征变量对应的方差膨胀系数均不大于预设阈值。

在步骤606中，通过前面步骤的迭代剔除处理，将第一特征变量集合中的最终保留的各个第一特征变量作为目标特征变量，并确定各个目标特征变量的样本数据。

可选地，为了更加精细的筛选特征变量，在本发明的实施例中，还可以将上述VIF值大于预设阈值的剔除条件细分为：若特征变量的VIF值<3，可以说明该特征变量基本不存在多重共线性问题，进行保留；当特征变量的VIF值介于3到9之间时，则剔除IV值较低的特征变量；若特征变量的VIF>9，可以说明该特征变量存在较严重的多重共线性问题，需要剔除该特征变量。具体实施方式可以参照前述步骤601至步骤606的过程，本发明对此不作赘述。

在一个具体实施例中，预设阈值可以取值为9，对于由多个第一特征变量组成的第一特征变量集合，逐一选取集合中的各个特征变量计算其与剩余变量的VIF值，若VIF值大于9，则剔除该特征变量，否则保留该特征变量，并继续选择下一个特征变量循环上述判断过程，直至最后保留的各个特征变量的VIF值不再出现大于9的情况，停止计算。

本发明实施例的方法，通过采用方差膨胀系数，衡量所选的特征变量的多重线性严重程度，确保后续逻辑回归模型转化为标准评分卡后特征变量的可解释性，有利于提高后续训练得到的评分卡模型的精度。

进一步地，在本发明的实施例中，在确定多个目标特征变量的样本数据后，利用交叉验证方法，可以对各个目标特征变量的样本数据进行划分，确定训练集和测试集，例如可以将训练集和测试集按照比例4：1进行划分。训练时可以采用十折交叉验证提高模型的泛化能力。

进一步地，目标特征变量挑选结束之后，需要构建逻辑回归模型，逻辑回归模型可以表示为：

其中，w^T表示学习参数，x表示各个目标特征变量，P表示坏样本概率，即存在串烟风险的概率。

进一步地，可以采用逻辑回归模型的常规训练方法，利用对各个目标特征变量的样本数据进行划分后的训练集，对构建的逻辑回归模型进行训练，得到训练后的逻辑回归模型。利用对各个目标特征变量的样本数据进行划分后的测试集，验证训练后的逻辑回归模型的训练效果，得到训练好的逻辑回归模型，可以训练好的逻辑回归模型作为串烟风险预测模型，以对贩烟网点进行串烟风险预测。

为了保障训练好的串烟风险预测模型的分类效果，还需要对该串烟风险预测模型进行模型评价，确定最优串烟风险预测模型。

具体地，在本发明的实施例中，可以选择目标指标来对串烟风险预测模型进行模型评价，其中，目标指标可以采用接收者操作特征(Receiver Operating CharacteristicCurve，ROC)曲线下的曲线下方部分的面积(Area Under Curve，AUC)指标，或者采用KS(Kolmogorov-Smirnov)指标，或者采用群体稳定性指标(Population Stability Index，PSI)指标。

其中，ROC曲线是反映敏感性和特异性连续变量的综合指标，其可以很好地对模型输出结果的准确性进行评估。其中，AUC指标可以表示模型对任意坏样本的输出结果为大于模型对任意好样本的输出结果的概率，可以用来表示模型输出结果的准确性，AUC值越大，即曲线下方的面积越大，说明预测结果准确性越高，也就是说，曲线越接近左上角，则预测结果的准确性越高。

KS指标是在模型中用去区分尝试正负样本分隔程度的评价指标，其可以表示模型区分好坏样本的能力。通常KS值越大，表明模型区分好坏样本的能力越强。

PSI指标的应用中，一般认为PSI值小于0.1，可以说明模型的稳定性很高，PSI值处于0.1至0.2之间，可以说明模型的稳定性一般，需要进一步研究，而PSI值大于0.2时，可以说明模型的稳定性差，建议修复。

进一步地，在确定最优串烟风险预测模型之后，便可以将最优串烟风险预测模型转化为评分卡模型，得到训练好的评分卡模型。

具体来说，将坏样本的概率表示为p，则好样本的概率为1-p，由逻辑回归的基本原理，可得：

此处，通过定义比率来表示串烟风险的相对概率，有：

进一步地，将评分卡的分值定义为比率对数的线性表达式为：

Score＝A-B×log(odds)＝A-B(w₀+w₁x₁+…+w_nx_n)；

其中，A与B是常数，模型参数w₀，w₁，…，w_n可以通过逻辑回归模型参数拟合模型得到。B前面的负号代表串烟风险越低，得分越高。

需要说明的是，本发明的实施例中，高分值代表低风险，低分值代表高风险。式中A与B未知，可以通过将两个已知或假设的分值带入计算得到个特定串烟风险概率下的预期评分，odds表示w₀时的分数P₀；该串烟风险概率翻倍的评分(PDO)。

基于评分卡的线性表达式，可以得到不同目标特征变量的分组打分格式，如下表1所示：

表1

其中，x_ni表示第n个目标特征变量的第i个分箱的取值。

可选地，在本发明的实施例中，选取的评分卡参数为：P₀为700，PDO为50，最终的风险评分为基础分与各个目标特征变量得分之和，从而得到训练好的评分卡模型。

当训练好的评分卡模型建立完成后，可以对各个贩烟网点进行串烟风险评分，串烟风险评分越高，表示其串烟风险等级越低，反之串烟风险等级越高。稽查人员可以针对中高风险贩烟网点进行稽查。

本发明实施例的方法，通过获取目标特征变量的样本数据，基于目标特征变量的样本数据进行模型训练、评估和调优，输出串烟风险预测模型，将训练好的串烟风险预测模型转换为标准评分卡，得到训练好的评分卡模型，模型精度高，使用训练好的评分卡模型可以有效评定各个贩烟网点的串烟风险评分，可以为香烟非法流通稽查提供决策辅助，有利于提升稽查效率。

图2是本发明提供的烟草销售串烟风险预测方法的流程示意图之二，如图2所示，该方法的步骤包括：

步骤210，数据采集与预处理。具体来说，在本实施例中，可以基于移动通信设备及烟草局系统，采集各个贩烟网点历史时段的三类信息数据，包括通信类数据、位置类数据及烟草局系统数据，并对采集到的数据进行预处理，例如对原始数据进行缺失值和异常值处理，确保采集的三类信息数据的准确性。

步骤220，特征变量与目标特征变量选择。具体来说，基于采集的信息数据，确定多个特征变量，并基于各个特征变量的样本数据，通过变量分箱操作、证据权重的处理、信息价值及方差膨胀系数的计算，从多个特征变量中确定多个目标特征变量，得到多个目标特征变量的样本数据。

步骤230，建立最优串烟风险预测模型。在本实施例中，利用交叉验证方法，可以对各个目标特征变量的样本数据进行划分，确定训练集和测试集；利用对各个目标特征变量的样本数据进行划分后的训练集，对构建的逻辑回归模型进行训练，得到训练后的逻辑回归模型。利用对各个目标特征变量的样本数据进行划分后的测试集，验证训练后的逻辑回归模型的训练效果，得到训练好的逻辑回归模型，从而可以训练好的逻辑回归模型作为串烟风险预测模型。通过ROC曲线下的AUC指标，或KS指标，或PSI指标，对该串烟风险预测模型进行模型评价，确定最优串烟风险预测模型。

步骤240，生成训练好的评分卡模型。在本实施例中，在确定最优串烟风险预测模型之后，便可以将最优串烟风险预测模型转化为评分卡模型，生成训练好的评分卡模型。

步骤250，串烟风险评分及串烟风险等级划分。在本实施例中，得到训练好的评分卡模型后，可以将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分，并基于各个贩烟网点的串烟风险评分，按照预设串烟风险等级划分区间，预测各个贩烟网点的串烟风险等级。

下面对本发明提供的烟草销售串烟风险预测装置进行描述，下文描述的烟草销售串烟风险预测装置与上文描述的烟草销售串烟风险预测方法可相互对应参照。

图3是本发明提供的烟草销售串烟风险预测装置的结构示意图，如图3所示，包括：

输出模块310，用于将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险等级；

预测模块320，用于基于各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级；

训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，多个特征变量的样本数据是基于各个贩烟网点的行为信息样本集确定的。

本实施例所述的烟草销售串烟风险预测装置可以用于执行上述烟草销售串烟风险预测方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例提供的烟草销售串烟风险预测装置，通过利用评分卡模型，将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个贩烟网点的串烟风险评分，预测各个贩烟网点的串烟风险等级，相较于传统的随机检查方式，在不增加额外设备的基础上，基于评分卡模型、通信和到访数据挖掘贩烟网点和烟贩之间的联系，可以提前预测出贩烟网点的串烟风险等级，为香烟非法流通稽查提供决策辅助，从而有针对性地开展稽核工作，大大减少了人力物力的投入，极大地提升了稽查效率，简洁高效。

图4是本发明提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行上述各方法所提供的烟草销售串烟风险预测方法，该方法包括：将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个所述贩烟网点的串烟风险评分；基于各个所述贩烟网点的串烟风险评分，预测各个所述贩烟网点的串烟风险等级；所述训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；所述多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，所述多个特征变量的样本数据是基于各个所述贩烟网点的行为信息样本集确定的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的烟草销售串烟风险预测方法，该方法包括：将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个所述贩烟网点的串烟风险评分；基于各个所述贩烟网点的串烟风险评分，预测各个所述贩烟网点的串烟风险等级；所述训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；所述多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，所述多个特征变量的样本数据是基于各个所述贩烟网点的行为信息样本集确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的烟草销售串烟风险预测方法，该方法包括：将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型，输出各个所述贩烟网点的串烟风险评分；基于各个所述贩烟网点的串烟风险评分，预测各个所述贩烟网点的串烟风险等级；所述训练好的评分卡模型是根据多个目标特征变量的样本数据进行训练后得到的；所述多个目标特征变量的样本数据是从多个特征变量的样本数据中获取的，所述多个特征变量的样本数据是基于各个所述贩烟网点的行为信息样本集确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种烟草销售串烟风险预测方法，其特征在于，包括：

2.根据权利要求1所述的烟草销售串烟风险预测方法，其特征在于，在所述将各个贩烟网点在目标历史时段的目标行为信息输入到训练好的评分卡模型之前，还包括：

3.根据权利要求2所述的烟草销售串烟风险预测方法，其特征在于，所述基于各个所述特征变量的样本数据，确定多个所述目标特征变量的样本数据，包括：

4.根据权利要求3所述的烟草销售串烟风险预测方法，其特征在于，所述特征变量包括连续变量；所述对各个所述特征变量的样本数据进行变量分箱操作，得到每个所述特征变量的多个分箱，包括：

5.根据权利要求3所述的烟草销售串烟风险预测方法，其特征在于，所述确定每个所述特征变量的各个所述分箱的证据权重，包括：

6.根据权利要求3所述的烟草销售串烟风险预测方法，其特征在于，在所述基于各个所述特征变量的信息价值，从各个所述特征变量中筛选出多个第一特征变量之后，包括：

7.一种烟草销售串烟风险预测装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述烟草销售串烟风险预测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述烟草销售串烟风险预测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述烟草销售串烟风险预测方法。