CN109919418B

CN109919418B - 基于小样本非均匀扩散算法的客户数据筛选方法

Info

Publication number: CN109919418B
Application number: CN201910048812.6A
Authority: CN
Inventors: 施文凯
Original assignee: Shanghai Jiuxiao Xiangyun Network Technology Co ltd
Current assignee: Shanghai Jiuxiao Xiangyun Network Technology Co ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2023-12-08
Anticipated expiration: 2039-01-18
Also published as: CN109919418A

Abstract

一种基于小样本非均匀扩散算法的客户数据筛选方法，涉及数据分析技术领域，所解决的是精准定位客户的技术问题。该方法先从客户数据库中选取两个字段作为两个扩散方向矢量，并选取一个字段作为扩散变量因子；再根据两个扩散方向矢量建立二维坐标系；并采用非均匀扩散算法对客户数据库进行扩散，然后从扩散矩阵中选取一段满足筛选条件的子矩阵，经聚合后得到样本点集，再从客户数据库中任意选取多条记录作为控制点集，并采用相关性估计期望公式对样本点集进行分析，再根据相关性估计期望值剔除不合格的样本点，最终得到客户数据的筛选结果。本发明提供的方法，特别适用于基础客户资料较少的小微企业。

Description

基于小样本非均匀扩散算法的客户数据筛选方法

技术领域

本发明涉及数据分析的技术，特别是涉及一种基于小样本非均匀扩散算法的客户数据筛选方法的技术。

背景技术

小微企业往往由于无法获取到足够多的基础客户资料，从而难以实施对客户的精准定位，进而影响到企业的运营。

发明内容

针对上述现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种能在数据量较少的情况下实现客户精准定位的基于小样本非均匀扩散算法的客户数据筛选方法。

为了解决上述技术问题，本发明所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法，其特征在于，具体步骤如下：

1)构建客户数据库；

2)从客户数据库中选取两个字段作为两个扩散方向矢量，并选取一个字段作为扩散变量因子；

3)定义一个二维坐标系，该二维坐标系的横轴为X轴，纵轴为Y轴，X轴与Y轴分别用于标示所选取的两个扩散方向矢量；

设定一个X轴步长为h1，及一个Y轴步长为h2，按照h1、h2对二维坐标系进行网格划分，使得每个网格的X轴长度为h1，Y轴长度为h2；

设定一个离散度步长τ，一个扩散步长限值C，一个初始值为1的扩散步数s，并采用非均匀扩散算法对客户数据库进行反复求解，每求解一次令扩散步数s的值增加1，直到扩散步数s的值达到设定的扩散步长限值C，从而得到一个扩散矩阵D；

非均匀扩散算法的方程式为：

式中，N为所选取的扩散变量因子，t＝τ×s；

4)定义一个筛选条件，从扩散矩阵D中选取一段满足筛选条件的子矩阵，并采用聚合函数对该子矩阵中的相似数据进行聚合，得到聚合后的样本矩阵D1；

5)将样本矩阵D1中的阵元作为样本点集w，并从客户数据库中任意选取多条记录作为控制点集v，并采用相关性估计期望公式对样本点集w中的各个样本点进行分析，相关性估计期望公式为：

其中，N为样本点集w中的样本点的总数量，w_i为样本点集w中的第i个样本点，E(w_i)为w_i的相关性估计期望值，K(w_i,v)为热扩散方程，K(w_i,v)中的代入样本点为w_i，K(w_i,v)中的控制点集合为v；

6)预先设定一个容差阈值，将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除，将最终得到的样本点集w作为客户数据的筛选结果。

本发明提供的基于小样本非均匀扩散算法的客户数据筛选方法，采用基于小样本非均匀扩散算法的预测模块，以客户数据为输入项，经过过滤、扩散、去噪、聚合，得到一个仿真大样本，再以仿真大样本为输入项进行有限元维度的统计分析，从而得到近似于大样本数据的预测结果，能在数据量较少的情况下实现客户精准定位。

具体实施方式

以下结合具体实施例对本发明的技术方案作进一步详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围，本发明中的顿号均表示和的关系，本发明中的英文字母区分大小写。

本发明实施例所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法，其特征在于，具体步骤如下：

1)构建客户数据库；

所述客户数据库的每条记录中包含有以下字段：客户名称、兴趣、性别、年龄、地区、历史消费金额、消费次数、最长消费间隔、注册时间；

客户数据库中的兴趣字段为散列对象，即该字段可能没有数据或包含多个兴趣项目，长度不限；

比如选取年龄、地区这两个字段作为扩散方向矢量R，这样预测完毕后可以得到与年龄、地区有关的分析结果，方便企业制定针对不同年龄，地区的销售营销策略；

比如选取历史消费金额、消费次数、最长消费间隔这几个字段之一作为扩散变量因子；

3)定义一个二维坐标系，该二维坐标系的横轴为X轴，纵轴为Y轴，X轴与Y轴分别用于标示所选取的两个扩散方向矢量(比如X轴标示年龄，Y轴标示地区)；

非均匀扩散算法的方程式为：

式中，N为所选取的扩散变量因子，t＝τ×s；

4)定义一个筛选条件(比如：最长消费间隔小于6个月)，从扩散矩阵D中选取一段满足筛选条件的子矩阵，并采用聚合函数对该子矩阵中的相似数据进行聚合，得到聚合后的样本矩阵D1，采用聚合函数对相似数据进行聚合的方法为现有技术；

其中，N为样本点集w中的样本点的总数量，w_i为样本点集w中的第i个样本点，E(w_i)为w_i的相关性估计期望值，K(w_i,v)为热扩散方程，K(w_i,v)中的代入样本点为w_i，K(w_i,v)中的控制点集合为v，热扩散方程为现有技术，该方程用来计算每个代入的样本点w_i对控制点集合v中各个点的影响，其本质是计算w_i到控制点集合v中各个点的离散度；

Claims

1.一种基于小样本非均匀扩散算法的客户数据筛选方法，其特征在于，具体步骤如下：

1)构建客户数据库；

非均匀扩散算法的方程式为：

式中，N为所选取的扩散变量因子，t＝τ×s；