CN109978358A

CN109978358A - 基于半监督学习的销售风险点检测方法、系统、装置

Info

Publication number: CN109978358A
Application number: CN201910202920.4A
Authority: CN
Inventors: 王乾宇; 何赛克; 郑晓龙; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-05
Anticipated expiration: 2039-03-18
Also published as: CN109978358B

Abstract

本发明属于机器学习领域，具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置，旨在解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题。本发明方法包括：获取数据并构建图数据库；将图数据库中的数据清洗成原始状态；对数据聚类，找出平均轮廓系数接近1时的k值；标记k个聚类数据的特征并设置规则，采用随机森林法分类数据；分析数据之间的相关性，找出风险产品组合；采用知识图谱展示风险点。本发明结合有监督与无监督学习，可以有效地检测出企业可能存在的金融风险并为企业提供建议，优化团队组合，丰富产品搭配。

Description

基于半监督学习的销售风险点检测方法、系统、装置

技术领域

本发明属于机器学习领域，具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置。

背景技术

当今中国正处在互联网经济飞速发展时期，科技创新成为了社会极为重要的需求，对未来经济的增长将起到奠定性作用。机器学习技术自20世纪50年代以来，历时60多年的发展，已经在各行业各领域的大数据分析预测方面显露头角，大数据在互联网时代所蕴含的内在价值得以不断被挖掘，其中的价值已引起各国政府、企业界、学术界的高度重视。我们可以依据多个维度的数据或单维的数据对企业行业进行全方位多角度的挖掘剖析。

针对销售风险问题，多数金融机构企业通常采用调研、统计、分析等传统方法。这一类方法对已发生的风险问题进行溯源，找到现存问题，或对可能出现的问题进行预判，提前预知未来风险。然而，传统方法没有结合大数据和机器学习的相关技术，难以挖掘出深层潜在问题，同时传统方法应用范围领域过于狭窄，无法兼顾效率与准确率。随着互联网影响力的不断加深以及移动终端设备的广泛普及，大数据的价值不断体现，机器学习相关技术在金融领域的应用日益增多，但绝大多数应用仅限于银行、证券、保险行业等专业性金融场景，而传统行业金融数据仍然具备极大的可挖掘价值。

发明内容

为了解决现有技术中的上述问题，即为了解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题，本发明的第一方面，提供了一种基于半监督学习的销售风险点检测方法，包括：

步骤S10，基于获取的数据信息构建第一图数据库；所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据；

步骤S20，基于所述第一图数据库，采用Pandas方法获得原始状态数据，并基于该数据构建第二图数据库；

步骤S30，采用K均值聚类法对所述第二图数据库的数据进行聚类，计算平均轮廓系数；获得所述平均轮廓系数接近1时对应的k值和聚类集合；

步骤S40，分别提取所述k个聚类集合中各聚类的数据的特征，并利用该特征分别对所述第二图数据库中数据进行标记，获得第三图数据库；

步骤S50，按照所述第三图数据库的数据特征设置随机森林决策规则，构建随机森林；采用随机森林分类器对所述第三图数据库进行数据分类，获得第四图数据库；所述随机森林，由对应k个特征的k棵分类树构成；

步骤S60，采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性，输出相关系数值低于预设阈值的产品组合；所述相关系数值低于预设值的产品组合为销售风险点。

在一些优选的实施例中，步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤，包括：

步骤M10，计算相应产品的销售数据的加权平均值：

其中，为销售数据的加权平均值，x₁、x₂……x_t为对应的各类产品，f₁、f₂……f_t为相应产品的函数值，t为产品总数量；

步骤M20，销售数据的加权平均值高于预设阈值的对应的销售数据为坏点数据，删除所述坏点数据。

在一些优选的实施例中，步骤S30中所述平均轮廓系数的计算方法为：

其中，s(i)为聚类集合的平均轮廓系数，a(i)为向量到同一聚类集合内其他点不相似程度的平均值，b(i)为向量到其他聚类集合的平均不相似程度的最小值。

在一些优选的实施例中，步骤S50中“采用随机森林分类器对所述第三图数据库进行数据分类”之后还设置有验证步骤，其方法为：

采用10重交叉验证法对所述分类结果进行验证，分类结果未达到预设的准确率则重复进行步骤S50直至分类结果达到预设准确率。

在一些优选的实施例中，所述Pearson相关系数，其计算方法为：

其中，r为Pearson相关系数，i为销售数据序列，x_i、y_i分别为对应的预测值；N为销售产品的总数。

在一些优选的实施例中，步骤S30中“获得所述平均轮廓系数接近1时对应的k值和聚类集合”之后还设置有重新聚类的步骤，包括：

选取所述平均轮廓系数接近1时对应的k个聚类中心，进行K均值聚类，找出离群点数据，离群点数据对应的团队为异常团队；所述异常团队为销售团队风险点。

在一些优选的实施例中，所述销售风险点、销售团队风险点可以采用知识图谱的方法展示。

本发明的第二方面，提出了一种基于半监督学习的销售风险点检测系统，包括数据整合模块、数据深加工模块、聚类模块、特征标记模块、分类模块、相关性分析模块、风险展示模块；

所述数据整合模块，配置为将获取的数据信息整合存储为第一图数据库；

所述数据深加工模块，配置为将第一图数据库的数据深加工为原始状态数据，构成第二图数据库；

所述聚类模块，配置为采用K均值聚类法对所述第二图数据库的数据进行聚类，计算平均轮廓系数；获得所述平均轮廓系数接近1时对应的k值和聚类集合；

所述特征标记模块，配置为分别提取所述k个聚类集合中各聚类的数据的特征，并利用该特征分别对所述第二图数据库中数据进行标记，获得第三图数据库；

所述分类模块，配置为按照所述第三图数据库的数据特征设置随机森林决策规则，构建随机森林；采用随机森林分类器对所述第三图数据库进行数据分类，获得第四图数据库；

所述相关性分析模块，配置为采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性，输出相关系数值低于预设阈值的产品组合；

所述风险展示模块，配置为采用知识图谱的方法展示风险点。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。

本发明的有益效果：

(1)本发明方法采用有监督学习与无监督学习相结合的金融风险点检测方法，可通过销售运营数据有效地检测出企业可能存在的金融风险，可以为企业提供建议，优化团队组合，丰富产品搭配。

(2)本发明方法可以更有效地挖掘企业存在的风险点，从而达到为企业节约成本，规避未来风险的效果。

(3)本发明方法可以应用于传统行业的销售数据的风险评估，也可以应用于医疗、教育、IT、金融等第三产业的金融大数据风险预测。

(4)本发明方法丰富了机器学习技术应用的领域场景，提升了传统统计分析方法的效率与准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于半监督学习的销售风险点检测方法的流程示意图；

图2是本发明基于半监督学习的销售风险点检测方法实施例的Kmeans算法原理示意图；

图3是本发明基于半监督学习的销售风险点检测方法实施例的Random Forest算法原理示意图；

图4是本发明基于半监督学习的销售风险点检测方法实施例的Pearson相关系数示意图；

图5是本发明基于半监督学习的销售风险点检测方法实施例的风险点知识图谱展示图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅出示了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于半监督学习的销售风险点检测方法，用来对销售数据进行深层次的挖掘，找出企业可能存在的销售风险、运营风险、人员风险，为企业提出建议，从而达到节约企业成本，规避未来风险的效果。本发明方法可应用于传统行业的风险评估，也可以应用于医疗、教育、IT、金融等第三产业的金融大数据风险预测。

本发明的一种基于半监督学习的销售风险点检测方法，包括：

为了更清晰地对本发明基于半监督学习的销售风险点检测方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于半监督学习的销售风险点检测方法，包括步骤S10-步骤S60，各步骤详细描述如下：

步骤S10，基于获取的数据信息构建第一图数据库；所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据。

使用图数据库整合所述获取的类别产品销售数据、对应产品销售人员数据、销售区域数据，将整合后的数据存储到图数据中。

本发明优选的实施例中，获取企业2010年至2018年的金融销售数据，包含产品在全国各地区的产品销售数据、对应产品销售人员数据、销售区域数据等信息，采用Neo4j图数据将获取的数据整合存储。

步骤S20，基于所述第一图数据库，采用Pandas方法构建原始状态数据，并基于该数据构建第二图数据库。

对没有列头、一个列有多个参数、列数据的单位不统一、缺失值、空行、重复数据、非ASCII字符等情况的数据进行深度加工处理，从而达到数据清洁的原始状态。

步骤S30，采用K均值聚类法对所述第二图数据库的数据进行聚类，计算平均轮廓系数；获得所述平均轮廓系数接近1时对应的k值和聚类集合。

步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤，包括：

步骤M10，计算相应产品的销售数据的加权平均值，如式(1)所示：

其中，为销售数据的加权平均值，x₁、x₂……x_t为对应的各类产品，f₁、f₂……f_t为相应产品的函数值，t为产品总数量。

本发明优选的实施例中，首先计算好各医疗产品销售额的加权平均值，清除高于预设阈值的对应的销售数据，使得聚类算法的准确率更高。

本发明优选的实施例中，随机选取k个聚类中心，k∈[2,10]，计算每个数据到聚类中心的欧几里得距离，将每个数据聚类到最近的聚类中心并计算每个聚类中所有点的坐标平均值，并将这个均值作为新的聚类中心。如图2所示，为本发明基于半监督学习的销售风险点检测方法的实施例的Kmeans算法原理示意图。

步骤S30中“获得所述平均轮廓系数接近1时对应的k值和聚类集合”之后还设置有重新聚类的步骤，包括：

平均轮廓系数的计算方法，如式(2)所示：

本发明优选的实施例中，计算不同k值下的平均轮廓系数s，找到s最接近s＝1时k的值，以此k值为聚类中心，重新选择聚类，找出离群点数据，离群点数据对应的医疗产品销售团队为异常团队。经调查，该销售团队买入器械的价格远低于市场平均售价，而卖出价高于平均卖出价，内部存在跨区域囤货销售问题。

步骤S40，分别提取所述k个聚类集合中各聚类的数据的特征，并利用该特征分别对所述第二图数据库中数据进行标记，获得第三图数据库。

本发明优选的实施例中，企业数据分为三类，同时分析此三类数据的特点，以团队人员平均年龄、性别、收入、学历、工作经验等作为分类特征，对此三类数据进行标记。

步骤S50，按照所述第三图数据库的数据特征设置随机森林决策规则，构建随机森林；采用随机森林分类器对所述第三图数据库进行数据分类，获得第四图数据库；所述随机森林，由对应k个特征的k棵分类树构成。

如图3所示，为本发明基于半监督学习的销售风险点检测方法的实施例的RandomForest算法原理示意图。Random Forest代表随机森林算法，Tree-1、Tree-2……Tree-n代表了随机森林中的分类树，Class-1、Class-2……Class-n代表了分类数据。

本发明优选的实施例中，通过步骤S40生成的分类种类以及提取的特征为数据设置规则。实施例中采用的数据为2000个，应用bootstrap法有放回地随机抽取5个新的自助样本集，并由此构建5棵分类树，每次未被抽到的样本组成了5个袋外数据；之后设置10个变量，在每一棵树的每个节点处随机抽取5个变量，然后在5个变量中选择一个最具有分类能力的变量，不做任何修剪；最后我们将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行判别与分类，并进行10重交叉验证，通过对团队的整合变化来达到优化团队配额的效果。

采用Pearson相关系数计算相关商品的销售数据之间的相关性，获得相关系数r,将r接近1的数据保留，接近-1的舍去。如此，可以保留良好的产品组合，舍去不好的产品组合。

Pearson相关系数的计算方法，如式(3)所示：

本发明优选的实施例中，如图4所示，产品代号Product4的产品与代号Product7的产品相关性最高，二者彼此促进，适合统一销售；代号Product2的产品和代号Product7的产品相关性最低，二者互相排斥，不适合搭配销售。

采用知识图谱的方法展示所获取的风险点。

结合步骤S50和步骤S60，我们可以提前发现相关企业销售时可能存在的异常团队以及销售产品间可能存在的竞争关系。同时我们也可以根据企业自身的需要主动进行调整，分配团队的人员组合、销售策略、销售产品组合，通过图谱的方式及时展示出可能存在问题的销售团队、销售产品，可以大幅提升搜索查询的效率。如图5所示，本发明基于半监督学习的销售风险点检测方法的实施例的风险点图谱示意图，不同形状代表不同信息类型，其中圆形代表：常规信息；三角形代表：风险信息；菱形代表：优秀信息；正方形代表：建议信息。经过验证，发现存在2个风险团队，分别为北京一队和北京六队。经调查发现，这两个团队销售利润过高，存在跨区域销售，囤积货物的行为。最优秀的团队为北京九队，具有最优秀的销售业绩。最优的团队组合为：王唯尊、王炜、孙晨露组合。经过Random Forest算法发现，这3个人组合搭配可能会产生更优秀的销售业绩。

本发明第二实施例的基于半监督学习的销售风险点检测系统，包括数据整合模块、数据深加工模块、聚类模块、特征标记模块、分类模块、相关性分析模块、风险展示模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于半监督学习的销售风险点检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于半监督学习的销售风险点检测方法，其特征在于，包括：

2.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤，包括：

步骤M10，计算相应产品的销售数据的加权平均值：

3.根据权利要求1或5所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S30中所述平均轮廓系数的计算方法为：

4.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S50中“采用随机森林分类器对所述第三图数据库进行数据分类”之后还设置有验证步骤，其方法为：

5.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，所述Pearson相关系数，其计算方法为：

6.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S30中“获得所述平均轮廓系数接近1时对应的k值和聚类集合”之后还设置有重新聚类的步骤，包括：

7.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，所述销售风险点、销售团队风险点可以采用知识图谱的方法展示。

8.一种基于半监督学习的销售风险点检测系统，其特征在于，包括数据整合模块、数据深加工模块、聚类模块、特征标记模块、分类模块、相关性分析模块、风险展示模块；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于半监督学习的销售风险点检测方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于半监督学习的销售风险点检测方法。