CN108960501B

CN108960501B - 一种商品防窜货方法

Info

Publication number: CN108960501B
Application number: CN201810686607.8A
Authority: CN
Inventors: 赖秀娟; 石谢彬
Original assignee: Shanghai Ty Technology Co ltd
Current assignee: Shanghai Ty Technology Co ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-11-19
Anticipated expiration: 2038-06-28
Also published as: CN108960501A

Abstract

本发明涉及一种商品防窜货方法，包括：搜集历史扫码数据，将历史扫码数据区分为正常扫码数据和有窜货风险的扫码数据两个类别；提取包含上述区分类别的历史扫码数据的第一特征值信息，并将该信息作为支持向量机的算法训练数据；获取待区分类别的当前扫码数据的第一特征值信息，并将其带入已训练好的支持向量机模型中进行分类预测；若当前扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则当前扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据。本发明实施例基于历史扫码数据的行为特征来预测未知的扫码数据属于正常扫码数据类别还是有窜货风险的扫码数据类别，流程简单，成本低，覆盖范围广。

Description

一种商品防窜货方法

技术领域

本发明涉及电子商务平台技术领域，尤其涉及一种商品防窜货方法。

背景技术

窜货区分分销网路的窜货和消费者进行行销活动的窜货行为，分销网路的窜货是指分销网路中各级代理商、经销商、分销公司等受利益驱动，将所经销的产品跨区域销售，造成价格混乱的营销现象，消费者进行行销活动的窜货是指中奖的二维码被人为贩卖或伪造销售，造成企业的营销损失。

现在市场上解决窜货的机制有针对销售区域进行差异的包装、生产流程加强品质的管理以防不正当产品流出、定制各区域合理的销售目标、合理公平进行定价避免渠道成员的差异、建立规范避免各级价格体系过大、合理划分各级的市场区域、建立监督经销商有关行为的监督机制…等以上总多方式集合才能避免窜货发生，不仅流程冗长，规则复杂，涉及的人事物庞大，所花费的金额也很多，如果只是仰赖公司建立监督经销商有关行为的稽核员，人力成本也很大，所以一般只会有几个稽核员做不定点不定时的采样稽核，既不能覆盖大部分的销售范围也不能在提前预测其商品是否未来可能发生窜货。

发明内容

针对上述现有技术的缺点，本发明的目的是提供一种商品防窜货方法，覆盖范围广，可提前预测商品是否未来可能发生窜货，流程简单，成本低。

本发明实施例提供的一种商品防窜货方法，该方法包括：

搜集历史扫码数据，将历史扫码数据区分为正常扫码数据和有窜货风险的扫码数据两个类别；

提取包含上述区分类别的历史扫码数据的第一特征值信息，并将该信息作为支持向量机的算法训练数据；

获取待预测类别的扫码数据的第一特征值信息，并将其带入已训练好的支持向量机模型中进行分类预测；

若扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据。

进一步地，上述方法中，所述将扫码数据的第一特征值信息带入已训练好的支持向量机模型中进行分类预测具体包括：

将训练数据中包含已知的有窜货风险的扫码数据和正常扫码数据作为支持向量机模型在建模时的分类依据；

将每一个历史数据的第一特征值信息作为每一个历史数据的向量,并将该向量映射到一个高维空间中；

根据已知的有窜货风险的扫码数据和正常扫码数据作为分类的标的,在上述空间里建造一个最大间隔超平面来完全区隔两种类别的数据；

找出这个超平面之后,将待预测类别的扫码数据的第一特征值信息带入支持向量机模型；

根据扫码数据坐落在超平面的位置，确定扫码数据为正常扫码数据还是有窜货风险的扫码数据。

进一步地，上述方法中，所述获取待预测类别的扫码数据的第一特征值信息，具体是指获取待预测类别的扫码数据在扫码阶段的第一特征值信息。

进一步地，上述方法中，所述扫码数据的第一特征值信息包括但不限于以下一种或多种：

与设备信息相关的特征值信息；

与位置信息相关的特征值信息；

与时间信息相关的特征值信息；

与扫码次数相关的特征值信息。

进一步地，上述方法中，若所述扫码数据属于有窜货风险的扫码数据，则还包括：

将有窜货风险的扫码数据区分为低窜货风险扫码数据和高窜货风险扫码数据两个类别；

提取有窜货风险的扫码数据的第二特征值信息，并将该信息作为随机森林模型的训练数据；

获取待预测类别的扫码数据的第二特征值信息，并将其带入已训练好的随机森林模型中进行分类预测；

若扫码数据的第二特征值信息落入低窜货风险扫码数据类别的范围内，则扫码数据属于低窜货风险扫码数据，否则属于高窜货风险扫码数据。

进一步地，上述方法中，所述将待预测类别的扫码数据的第二特征值信息带入已训练好的随机森林模型中进行分类预测具体包括：

将有窜货风险的扫码数据作为随机森林模型在建模时的样本个数n,然后将每一个扫码数据的第二特征值信息作为每一个扫码数据的特征数目a；

对n个样本采取有放回抽样的方式选择a中的k个特征值，形成一个训练集，再用k值建立决策树的方式来获得最佳分割点；

以此类推重复采样m次,产生m颗决策树,然后将待预测类别的扫码数据的第二特征值信息带入随机森林模型；

根据每颗树分类的结果进行多数投票机制来预测扫码数据属于低窜货风险扫码数据还是高窜货风险扫码数据。

进一步地，上述方法中，所述提取有窜货风险的扫码数据的第二特征值信息，具体是指提取有窜货风险的扫码数据在兑奖阶段的第二特征值信息。

进一步地，上述方法中，所述扫码数据的第二特征值信息包括但不限于以下一种或多种：

与利益信息相关的特征值信息；

与位置信息相关的特征值信息；

与设备信息相关的特征值信息；

与扫码次数相关的特征值信息；

与销售范围信息相关的特征值信息。

与现有技术相比，本发明实施例商品防窜货方法，包括：搜集历史扫码数据，将历史扫码数据区分为正常扫码数据和有窜货风险的扫码数据两个类别；提取包含上述区分类别的历史扫码数据的第一特征值信息，并将该信息作为支持向量机的算法训练数据；获取待区分类别的当前扫码数据的第一特征值信息，并将其带入已训练好的支持向量机模型中进行分类预测；若当前扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则当前扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据。本发明实施例基于历史扫码数据的行为特征来预测未知的扫码数据属于正常扫码数据类别还是有窜货风险的扫码数据类别，流程简单，成本低，覆盖范围广。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于支持向量机算法模型的商品防窜货方法流程图；

图2为本发明提供的一种基于随机森林算法模型的商品防窜货方法流程图；

图3为本发明提供的一种基于支持向量机算法模型和随机森林算法模型组合的商品防窜货方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种商品防窜货方法，该方法包括：

S101，搜集历史扫码数据，将历史扫码数据区分为正常扫码数据和有窜货风险的扫码数据两个类别；

S102，提取包含上述区分类别的历史扫码数据的第一特征值信息，并将该信息作为支持向量机的算法训练数据；

S103，获取待预测类别的扫码数据的第一特征值信息，并将其带入已训练好的支持向量机模型中进行分类预测；

S104，若扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据。

优选地，上述方法中，所述获取待预测类别的扫码数据的第一特征值信息，具体是指获取待预测类别的扫码数据在扫码阶段的第一特征值信息。

优选地，上述方法中，所述扫码数据的第一特征值信息包括但不限于以下一种或多种：

与设备信息相关的特征值信息；

与位置信息相关的特征值信息；

与时间信息相关的特征值信息；

与扫码次数相关的特征值信息。

支持向量机（Support Vector Machine，SVM）算法属于一种监督式学习模型的一种分类算法，在训练阶段给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，例如: 数组为[180，85，80，1]分别表示[身高，体重，心跳数，男生]，另外一个数组为[155，45，72，2]分别表示[身高，体重，心跳数，女生]，第四个数据维度是优先标记分类的类别拿来区分这组数组是属于男生还是女生，将数组带入SVM算法中，找出两类之间的中间线可以将两类数据分开，这条直线（或曲线）就相当于一个超平面，超平面一边的数据点所对应的y全是男生，另一边所对应的y全是女生。

本发明实施中，首先，在扫码阶段观察其设备信息、位置信息、时间信息、扫码次数，如利用A（距第一次和最后一次扫码验证时间差）、B（扫码验证的城市数）、C（用户登入数）、D（验证总次数）等4个指标作为训练的数据维度；当然需要说明的是，也可以选择其他相关的指标，例如距离上次扫码的平均差…等与时间信息相关的信息；跨省份数（例如河北到北京就是跨一个省份，所以跨省份数为1，如果是两个省份不接壤比如河北到江苏，则河北到山东再到江苏跨省份数为2）…等与位置信息相关的信息；手机的号码或是手机的IMSE、IMEI之类等与设备相关的信息。

本发明实施例数据范例示意内容为[9，0，1，1，2]，分别表示[距第一次和最后一次扫码验证时间差，扫码验证的城市数，用户登入数，验证总次数，类别]，其中第五个数据维度是优先标记分类的类别拿来区分这组数组是属于正常扫码数据还是有窜货风险的扫码数据。

将每一个历史数据的第一特征值信息作为每一个历史数据的向量，并将该向量映射到一个高维空间中；

根据已知的有窜货风险的扫码数据和正常扫码数据作为分类的标的，在上述空间里建造一个最大间隔超平面来完全区隔两种类别的数据；

找出这个超平面之后，将待预测类别的扫码数据的第一特征值信息带入支持向量机模型；

本发明实施中，根据历史数据已经知道哪些是正常扫码数据，哪些是有窜货风险的扫码数据，而且在该有窜货风险的扫码数据中包含已确定的窜货扫码数据。实施中，根据这些扫码的行为特征，来预测未知的扫码数据属于那种类别。

具体实施中，首先将上述的训练数据（例如历史数据1000個不同的二维码)里面包含已知的窜货二维码和正常扫码的二维码作为模型在建模时的分类依据，根据每一个二维码的四个维度（例如：设备信息、位置信息、时间信息和扫码次数）作为每一个二维码的向量，将向量映射到一个更高维的空间里，并根据已知的窜货二维码和正常二维码作为分类的标的，将这个空间里建造一个最大间隔超平面来完全区隔两种类别的数据；找出这个超平面之后，将预测的扫码数据带入这个模型，观察此预测二维码坐落于超平面的哪一侧，其类别就如同同侧的类别。

本发明实施例数据范例示意内容为[10，61，2，1]，分别表示[距第一次和最后一次扫码验证时间差，扫码验证的城市数，用户登入数，验证总次数，类别]，将这些数据作为SVM测试数据并利用之前训练好的模型进行分类并将预测结果带出，其数据范例示意内容为[10，61，2，1，1] 分别表示[距第一次和最后一次扫码验证时间差，扫码验证的城市数，用户登入数，验证总次数，类别]，其中第五个数据维度是透过训练模型预测的结果。该结果拿来区分这组数组是属于正常扫码数据还是有窜货风险的扫码数据。

进一步地，如图2所示，若所述扫码数据属于有窜货风险的扫码数据，则还包括：

S201，将有窜货风险的扫码数据区分为低窜货风险扫码数据和高窜货风险扫码数据两个类别；

S202，提取有窜货风险的扫码数据的第二特征值信息，并将该信息作为随机森林模型的训练数据；

S203，获取待预测类别的扫码数据的第二特征值信息，并将其带入已训练好的随机森林模型中进行分类预测；

S204，若扫码数据的第二特征值信息落入低窜货风险扫码数据类别的范围内，则扫码数据属于低窜货风险扫码数据，否则属于高窜货风险扫码数据。

优选地，上述方法中，所述提取有窜货风险的扫码数据的第二特征值信息，具体是指提取有窜货风险的扫码数据在兑奖阶段的第二特征值信息。

优选地，上述方法中，所述扫码数据的第二特征值信息包括但不限于以下一种或多种：

与利益信息相关的特征值信息；

与位置信息相关的特征值信息；

与设备信息相关的特征值信息；

与扫码次数相关的特征值信息；

与销售范围信息相关的特征值信息。

随机森林（Random Decision Forests，RF）算法也是属于一种监督式学习模型的一种分类算法，是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。实施中，每个树的建构会依据基尼系数（Gini coefficient）来决定树节点的先后顺序,且每一个节点上都采用二分法,也就是说一次只能够有两个子节点，其公式如下：

上述公式中：假设数据集合S包含n个类别，Pj为在S中的值组属于类别j的机率，将每个类别进行基尼系数计算挑选最小的属性作为分割属性。

本发明实施例经过SVM训练模型之后，在有窜货风险的扫码数据中捞取这些数据在兑奖阶段的特征值信息，同样地，观察其利益信息、位置信息、扫码次数、销售范围信息。如利用A（扫码验证的城市数）、B（奖品价值）、C（是否在经销商销售范围（2：否、1：是））、D（验证总次数）等4个指标作为训练的数据维度；当然也可以选择其他相关的指标，例如经销商返利金额…等与利益信息相关的信息；或是跨省份数（例如河北到北京就是跨一个省份，所以跨省份数为1，如果是两个省份不接壤比如河北到江苏，则河北到山东再到江苏跨省份数为2）…等与位置信息相关的信息；手机的号码或是手机的IMSE、IMEI之类等与设备相关的信息。

将有窜货风险的扫码数据作为随机森林模型在建模时的样本个数n，然后将每一个扫码数据的第二特征值信息作为每一个扫码数据的特征数目a；

以此类推重复采样m次，产生m颗决策树,然后将待预测类别的扫码数据的第二特征值信息带入随机森林模型；

本发明实施中，将经过SVM模型进行分类并将有窜货风险的扫码数据作为随机森林模型在建模时的样本个数n，然后根据每一个二维码的四个维度（例如：利益信息、位置信息、扫码次数、销售范围信息）作为每一个二维码的特征数据a，本发明此阶段部份样本数据如下表所示：

二维码no	奖品价值	是否在经销商销售范围	兑奖扫码验证总次数	city_name不重复计数	TYPE
						287065782	1	1	1	1	1
287065791	3	1	2	1	1
						287065807	1	1	1	1	1
287065814	1	1	1	1	1
						287065822	1	1	1	1	1
287065839	1	2	1	1	2
						287065843	1	1	1	1	1
287065845	1	1	1	1	1
						287065858	1	1	1	1	1
287065862	1	1	1	1	1
						287065869	1	2	1	1	2
287065875	3	1	2	1	1
						287065878	1	2	1	1	2
287065879	3	1	2	1	1

上述表格中，其a为4（奖品价值、是否在经销商销售范围、兑奖扫码验证总次数、扫码验证的城市数），对n个样本采取有放回抽样的方式选择a中的k个特征值，形成一个训练集。也就是说根据上表做范例，假设第一次取了287065814、287065822、287065839、287065843、287065845，取了20（k）个特征值，因为是有放回抽样的方式所以有可能在后面的抽取过程中采样的二维码会重复采取；再用k值建立决策树的方式来获得最佳分割点，就是根据这 20（k）个特征值产生一个二元树，以基尼系数大小作为选择树节点前后特征的依据在这里，第二特征值有奖品价值、是否在经销商销售范围、兑奖扫码验证总次数、扫码验证的城市数这四个特征，其中奖品价值、兑奖扫码验证总次数、扫码验证的城市数这三个特征的基尼系数是一样的，其计算公式如下（以奖品价值作为范例）：

1-(4/5)²-(1/5)²=0.32（“奖品价值”的数据集合都为1元有5笔数据，1元里有4个是正常二维码，1个是窜货二维码）。

而不在经销商的销售范围这个特征里面的特征值在这次采样的数据中有1和2这两个值，分别表示为在经销商销售范围和没有在经销商销售范围，其各自的基尼系数计算公式如下：

1-(4/4)²-(0/4)²=0 （“在经销商销售范围”的数据集合都为1有4笔数据，1里有4个是正常二维码，0个是窜货二维码）；

1-(0/1)²-(1/1)²=0 （“没有在经销商销售范围”的数据集合都为2有1笔数据, 2里有0个是正常二维码，1个是窜货二维码）；

(4/5)*0+(1/5)*0=0 （“不在经销商销售范围”的数据集合1和2有5笔数据，1里有4个是正常二维码， 2里有1个是窜货二维码，各自乘上对应“在经销商销售范围”和“没有在经销商销售范围”的基尼系数）。

由上，不在经销商的销售范围最小是跟节点，另外几个是子节点，其中奖品价值、兑奖扫码验证总次数、扫码验证的城市数这三个特征的基尼系数都一样所以先后顺序并无影响,因此根据基尼系数产生一个决策树。

综上以此类推重复m次，产生m颗决策树吗，根据每颗树分类的结果进行多数投票机制来进行预测，最后形成一个随机森林模型。

本发明实施例其数据范例二维码287065839示意内容为[1，2，1，1，2]，分别表示[奖品价值，是否在经销商销售范围，兑奖扫码验证总次数，扫码验证的城市数，类别]，其中第五个数据维度是优先标记分类的类别拿来区分这组数组是属于低窜货风险扫码数据（注记为1）还是高窜货风险扫码数据（注记为2），将这些数据作为RF训练数据。

根据上述所选择训练的数据,进行随机森林算法训练，训练好模型后，带入测试数据进行预测，其数据范例示意内容为[3，1，2，1] ，分别表示[奖品价值，是否在经销商销售范围，兑奖扫码验证总次数，扫码验证的城市数]，将这些数据作为RF测试数据并利用之前训练好的模型进行分类并将预测结果带出，其数据范例示意内容为[3，1，2，1，2]，分别表示[奖品价值，是否在经销商销售范围，兑奖扫码验证总次数，扫码验证的城市数，类别]，其中第五个数据维度是透过训练预测的结果拿来区分这组数组是属于低窜货风险扫码数据（注记为1）和高窜货风险扫码数据（注记为2）。

如图3所示，本发明实施例提供的一种结合支持向量机算法模型和随机森林算法模型的商品防窜货方法，包括：

S301，搜集历史扫码数据，将历史扫码数据区分为正常扫码数据和有窜货风险的扫码数据两个类别；

S302，提取包含上述区分类别的历史扫码数据的第一特征值信息，并将该信息作为支持向量机的算法训练数据；

S303，获取待预测类别的扫码数据的第一特征值信息，并将其带入已训练好的支持向量机模型中进行分类预测；

S304，若扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据；

S305，将有窜货风险的扫码数据区分为低窜货风险扫码数据和高窜货风险扫码数据两个类别；

S306，提取有窜货风险的扫码数据的第二特征值信息，并将该信息作为随机森林模型的训练数据；

S307，获取待预测类别的扫码数据的第二特征值信息，并将其带入已训练好的随机森林模型中进行分类预测；

S308，若扫码数据的第二特征值信息落入低窜货风险扫码数据类别的范围内，则扫码数据属于低窜货风险扫码数据，否则属于高窜货风险扫码数据。

本发明实施例考虑到每个二维码数据的行为众多且都有例外，例如消费者A在上海买了饮料并扫了二维码但没参加抽奖，便将此饮料送给B，B带着饮料回到了深圳，并通过扫码随即参加抽奖，意外的中了一台冰箱，之后B带着中奖的饮料去了泉州见C， B在C面前扫了一次二维码查看中奖信息，然后两人一起去商铺兑换，期间C不断地要求B多次扫码查阅中奖信息，到了商铺兑换时商品门店小姐D再次请B多次扫码来确认中奖信息，然后B和C兑奖成功。上述描述的二维码的扫码行为并不是窜货的二维码，所以本发明实施例分类的结论定义为正常的二维码、低窜货风险及高窜货风险的二维码。

综上，本发明实施例基于历史扫码数据的行为特征来预测未知的扫码数据属于正常扫码数据类别还是有窜货风险的扫码数据类别，流程简单，成本低，覆盖范围广。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种商品防窜货方法，其特征在于，该方法包括：

若扫码数据的第一特征值信息落入正常扫码数据类别的范围内，则扫码数据属于正常扫码数据，否则属于有窜货风险的扫码数据；

若所述扫码数据属于有窜货风险的扫码数据，则还包括：

2.根据权利要求1所述的方法，其特征在于，所述将扫码数据的第一特征值信息带入已训练好的支持向量机模型中进行分类预测具体包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待预测类别的扫码数据的第一特征值信息，具体是指获取待预测类别的扫码数据在扫码阶段的第一特征值信息。

4.根据权利要求1或2或3所述的方法，其特征在于，所述扫码数据的第一特征值信息包括但不限于以下一种或多种：

与设备信息相关的特征值信息；

与位置信息相关的特征值信息；

与时间信息相关的特征值信息；

与扫码次数相关的特征值信息。

5.根据权利要求1所述的方法，其特征在于，所述将待预测类别的扫码数据的第二特征值信息带入已训练好的随机森林模型中进行分类预测具体包括：

6.根据权利要求1所述的方法，其特征在于，所述提取有窜货风险的扫码数据的第二特征值信息，具体是指提取有窜货风险的扫码数据在兑奖阶段的第二特征值信息。

7.根据权利要求1或5或6所述的方法，其特征在于，所述扫码数据的第二特征值信息包括但不限于以下一种或多种：

与利益信息相关的特征值信息；

与位置信息相关的特征值信息；

与设备信息相关的特征值信息；

与扫码次数相关的特征值信息；

与销售范围信息相关的特征值信息。