CN110390077A

CN110390077A - 一种用于识别商品价格异常风险的方法

Info

Publication number: CN110390077A
Application number: CN201811450643.0A
Authority: CN
Inventors: 雒方祎; 谢赟; 尹淑平
Original assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Current assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-10-29
Anticipated expiration: 2038-11-30
Also published as: CN110390077B

Abstract

本发明公开了一种用于识别商品价格异常风险的方法，包括：从各数据平台获取待识别商品种类的各类数据；利用主成因分析法分析待识别商品，得到影响价格最大的要素；计算出待识别商品的申报单价；利用k‑均值算法对申报单价分类，得到各价格区间；将获得影响价格最大的要素作为分析维度，申报单价为分析对象，构建决策树模型；输入待识别商品的属性数据以及待查询价格数据，利用决策树模型分析商品的正常价格属于哪个价格区间，并判断商品价格是否在合理区间内，若不在，则提示该商品存在价格风险。本发明减少人工对行业知识的理解，能快速的对大量商品进行价格风险排查。

Description

一种用于识别商品价格异常风险的方法

技术领域

本发明涉及大数据技术领域，尤其涉及识别商品价格异常风险的方法。

背景技术

近年来，随着互联网大数据和电子商务的不断发展，对于商品的价格定价也日趋透明化。商品价格是其价值的直接体现，目前了解同类商品的价格趋势主要是通过不同渠道商品价格比对分析的方式实现的，这往往需要很丰富的行业相关知识。

发明内容

本发明的目的在于提供一种识别商品价格异常风险的方法，能够针对不同类商品精准识别其的价格区间。

实现上述目的的技术方案是：

一种用于识别商品价格异常风险的方法，包括：

步骤S1，从各数据平台获取待识别商品种类的各类数据；

步骤S2，利用主成因分析法分析待识别商品，得到影响价格最大的要素；

步骤S3，计算出待识别商品的申报单价；

步骤S4，利用k-均值算法对申报单价分类，得到各价格区间；

步骤S5，将获得影响价格最大的要素作为分析维度，申报单价为分析对象，构建决策树模型；

步骤S6，输入待识别商品的属性数据以及待查询价格数据，利用决策树模型分析商品的正常价格属于哪个价格区间，并判断商品价格是否在合理区间内，若不在，则提示该商品存在价格风险。

优选的，所述的步骤S2，包括：

步骤S21，组织数据集：建立一组有M个变量的观察数据，其中，M为商品的维度；进一步将数据整理成一组具有N个向量的数据集，每个向量都代表M个变量的单一观察数据；其中，X₁…X_N为列向量，其中每个列向量有M行；将列向量放入M×N的数据矩阵X里；

步骤S22，计算经验均值：对每一维m＝1,...,M计算经验均值；将计算得到的均值放入一个M×1维的经验均值向量u中：

其中，n＝1,2…，N。

步骤S23，计算平均偏差：

从数据矩阵X的每一列中减去经验均值向量u；

将平均减去过的数据存储在M×N矩阵B中；

B＝X-uh；

其中，h是一个1×N的行向量；

h[n]＝1；其中，n＝1,2…，N。

步骤S24，求协方差矩阵：从矩阵B中找到M×M的经验协方差矩阵C：

其中，B*为矩阵B的共轭转置矩阵，表示期望值；是最外层运算符；

步骤S25，计算矩阵C的特征向量V：

V^-1CV＝D

其中，D是C的特征值对角矩阵；V^-1为特征向量的逆向量；

通过上述步骤计算得出的特征值来选取保留的维度。

优选的，所述的步骤S4，包括：

步骤S41，随机选择k个初始质心；计算各点间欧几里德距离，指派点到质心所在簇：计算每个非质心点到全部k个质心点的距离，将该非质心点指派给距离最小的质心点所在的簇；

步骤S42，如果没有满足聚类算法终止条件，则继续执行步骤S43，否则转步骤S45；

步骤S43，计算每个非质心点p到k个质心的欧几里德距离，将p指派给距离最近的质心；

步骤S44，根据上一步的k个质心及其对应的非质心点集，重新计算新的质心点，然后转步骤S42；

步骤S45，输出聚类结果，得到各价格区间。

优选的，所述的终止条件包括：

比较相邻的2轮迭代结果，在2轮过程中移动的非质心点的个数，设置移动非质心点占比全部点数的最小比例值，如果达到则算法终止；

设置最大迭代次数，如果达到最大迭代次数，没有达到上述的最小比例值，终止计算；

相邻2次迭代过程，质心没有发生变化，则算法终止。

优选的，所述的步骤S5，包括：

步骤S51，计算信息熵：先统计不同类别出现的次数，除以数据集大小得到不同类别的出现频率P(Xi)；最后代入信息熵的计算公式计算熵，其中，i＝1,2…，n；

步骤S52，选择最优特征：首先计算数据集的初始信息熵，然后循环计算按不同的特征划分后的数据集的信息熵，前一个信息熵减去后一个信息熵的差值就是信息增益，选择信息增益最大的那个特征作为最优特征；

步骤S53，决策树通过不断选择最优特征划分数据集，对划分后的子数据集不断迭代并选择最优特征划分，直到所有的数据集属于同一个类别，或者没有特征可以选择为止；

步骤S54，对测试数据分类，如果到达叶节点，则返回该分类；否则，继续尝试其他特征，直到到达叶节点为止，然后返回该分类。

本发明的有益效果是：本发明能够从海量商品属性数据中筛选并找出同类商品定价异常的情况，减少人工对行业知识的理解，能快速的对大量商品进行价格风险排查。应用于商品定价、商品报税、物价监管、反垄断核查以及不正常竞争的识别中，能够辅助相关部门进行商品价格超出或者低于其价值的预警识别。同时，利用数据自学习的办法，将定价异常的商品分为不同等级，随着数据量的增加以及训练的样本增多，模型效果会越来越精确。

附图说明

图1是本发明的识别商品价格异常风险的方法的流程图；

图2是本发明的实施例所用决策树的示意图。

具体实施方式

下面将结合附图对本发明作进一步说明。

请参阅图1，本发明的识别商品价格异常风险的方法，包括下列步骤：

步骤S1，从各类数据来源处获取待识别商品种类的数据。例如：从报关单表体(entry_list)中提取出2017.10月份的红酒类的数据；从外部数据集中获取原产地价格(主要数据来源包括家乐福、欧尚等超市官网和Nicolas葡萄酒专卖网站)。从商品规格中提取年份(year)、产区(region)、等级(class)、酒精度数等信息。

步骤S2，利用PCA(Principal components analysis，主成因分析法)方法分析得出影响价格最大的要素，本实施例中，得出共三个要素为产区、年份、等级。

主成因分析法经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。在本次实施过程中，描述该商品属性的维度很多，如酒庄名称、年份、产区、等级、葡萄比例、罐装方式、容量、酒精度等。

具体包括下列步骤：

步骤S21，组织数据集：建立一组有M个变量的观察数据，其中，M为上述维度。我们的目的是减少数据，使得能够用L个向量来描述每个观察值，L<M。进一步将数据整理成一组具有N个向量的数据集，其中每个向量都代表M个变量的单一观察数据。其中，X₁…X_N为列向量，其中每个列向量有M行；将列向量放入M×N的数据矩阵X里；

其中，n＝1,2…，N。

步骤S23，计算平均偏差：对于在最大限度地减少近似数据的均方误差的基础上找到一个主成分来说，均值减去法是该解决方案的不可或缺的组成部分；因此，我们继续如下步骤：

从数据矩阵X的每一列中减去经验均值向量u；

将平均减去过的数据存储在M×N矩阵B中；

B＝X-uh；

其中，h是一个1×N的行向量；

h[n]＝1；其中，n＝1,2…，N。

步骤S25，查找协方差矩阵的特征值和特征向量，包括：

计算矩阵C的特征向量V：

V^-1CV＝D

其中，D是C的特征值对角矩阵；V-¹为特征向量的逆向量；

观察得出的结果值：我们可以通过上述步骤计算得出的特征值来选取保留的维度，通常，我们需要保留特征值大于1的维度。所以，通过上述方法我们得出对红酒类商品影响价格最大的要素为产区、年份、等级。

步骤S3，计算出待识别商品的申报单价，本实施例中，计算出新的2017.10月份的红酒类的申报单价。

2017.10新申报单价＝2017.10申报总价/2017.10申报总数

从而获得含有申报单价、年份、等级、产区的新表。

步骤S4，利用k-means(k-均值)算法对申报单价分类，得出若干价格区间，对每一条数据，做一个价格区间的标签：

k-means算法是一种基于距离的聚类算法，它用质心(Centroid)到属于该质心的点距离这个度量来实现聚类，通常可以用于N维空间中对象。k-means聚类算法的一些要点：

除了随机选择的初始质心，后续迭代质心是根据给定的待聚类的集合S中点计算均值得到的，所以质心一般不是S中的点，但是标识的是一簇点的中心。

基本k-means算法，开始需要随机选择指定的k个质心，因为初始k个质心是随机选择的，所以每次执行k-means聚类的结果可能都不相同。如果初始随机选择的质心位置不好，可能造成k-means聚类的结果非常不理想。

计算质心：假设k-means聚类过程中，得到某一个簇的集合Ci＝{p(x1,y1),p(x2,y2),…,p(xn,yn)}，则簇Ci的质心，质心x坐标为(x1+x2+…+xn)/n，质心y坐标为(y1+y2+…+yn)/n。

k-means算法的终止条件：质心在每一轮迭代中会发生变化，然后需要重新将非质心点指派给最近的质心而形成新的簇，如果只有很少的一部分点在迭代过程中，还在改变簇(如，更新一次质心，有些点从一个簇移动到另一个簇)，那么满足这样一个收敛条件，可以提前结束迭代过程。

k-means算法的框架是：首先随机选择k个初始质心点，然后执行聚类处理迭代，不断更新质心，直到满足算法收敛条件。由于该算法收敛于局部最优，所以多次执行聚类算法，通过比较，选择聚类效果最好的结果作为最终的结果。

k-means算法聚类完成后，没有离群点，所有的点都会被指派到对应的簇中。

具体包括如下步骤:

步骤S41，随机选择k个初始质心；计算各点间欧几里德距离，指派点到质心所在簇：计算每个非质心点到全部k个质心点的距离，将该非质心点指派给距离最小的质心点所在的簇。

步骤S42，如果没有满足聚类算法终止条件，则继续执行步骤S43，否则转步骤S45；终止条件有三个：

1)比较相邻的2轮迭代结果，在2轮过程中移动的非质心点的个数，设置移动非质心点占比全部点数的最小比例值，如果达到则算法终止。

2)为了防止k-means聚类过程长时间不收敛，设置最大迭代次数，如果达到最大迭代次数还没有达到上述条件，则也终止计算。

3)如果相邻2次迭代过程，质心没有发生变化，则算法终止，这是最强的终止约束条件。能够满足这种条件，几乎是不可能的，除非两次迭代过程中没有非质心点重新指派给到另一个不同的质心。

步骤S45，输出聚类结果，算法可以执行多次，使用散点图比较不同的聚类结果。

步骤S5，构建决策树模型，本实施例中，分析维度为产区、年份、等级，分析对象为申报单价，正常情况下，得到如图2所示结果。

决策树利用了树型结构进行决策，是经典的if-then结构。叶节点存储类别，内部节点代表特征或属性。由这个分类的过程形成一个树形的判决模型，树的每一个非叶子节点都是一个特征分割点，叶子节点是最终的决策分类。

具体包括下列步骤：

步骤S51，计算信息熵：先统计不同类别出现的次数，然后除以数据集大小就可得到不同类别的出现频率P(Xi)。最后代入信息熵的计算公式即可计算熵。其中，i＝1,2…，n。

步骤S52，选择最优特征：选择时需要利用信息熵增益。首先计算数据集的初始信息熵，然后循环计算按不同的特征划分后的数据集的信息熵，前一个信息熵减去后一个信息熵的差值就是信息增益。选择信息增益最大的那个特征作为最优特征。特征A对数据集D的信息增益g(D，A)为D的信息熵H(D)与按特征A进行划分后D的信息熵H(D︱A)之差，即:

g(D，A)＝H(D)-H(D|A)；

步骤S54，对测试数据分类。如果到达叶节点，则返回该分类；否则，继续尝试其他特征，直到到达叶节点为止，然后返回该分类。

步骤S6，输入待识别商品的各数据，包含价格和属性，利用建立的决策树模型进行分析，主要分析商品属性的主要特征，判断商品的正常价格应该属于哪个区间，最后判断该商品的价格是否在合理区间内，若不在，则该商品存在价格风险。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

Claims

1.一种用于识别商品价格异常风险的方法，其特征在于，包括：

步骤S1，从各数据平台获取待识别商品种类的各类数据；

步骤S3，计算出待识别商品的申报单价；

步骤S4，利用k-均值算法对申报单价分类，得到各价格区间；

2.根据权利要求1所述的用于识别商品价格异常风险的方法，其特征在于，所述的步骤S2，包括：

其中，n＝1,2…，N。

步骤S23，计算平均偏差：

从数据矩阵X的每一列中减去经验均值向量u；

将平均减去过的数据存储在M×N矩阵B中；

B＝X-uh；

其中，h是一个1×N的行向量；

h[n]＝1；其中，n＝1,2…，N。

其中，B^*为矩阵B的共轭转置矩阵，表示期望值；是最外层运算符；

步骤S25，计算矩阵C的特征向量V：

V^-1CV＝D

其中，D是C的特征值对角矩阵；V^-1为特征向量的逆向量；

通过上述步骤计算得出的特征值来选取保留的维度。

3.根据权利要求1所述的用于识别商品价格异常风险的方法，其特征在于，所述的步骤S4，包括：

步骤S45，输出聚类结果，得到各价格区间。

4.根据权利要求3所述的用于识别商品价格异常风险的方法，其特征在于，所述的终止条件包括：

相邻2次迭代过程，质心没有发生变化，则算法终止。

5.根据权利要求1所述的用于识别商品价格异常风险的方法，其特征在于，所述的步骤S5，包括：