CN109919418B - 基于小样本非均匀扩散算法的客户数据筛选方法 - Google Patents
基于小样本非均匀扩散算法的客户数据筛选方法 Download PDFInfo
- Publication number
- CN109919418B CN109919418B CN201910048812.6A CN201910048812A CN109919418B CN 109919418 B CN109919418 B CN 109919418B CN 201910048812 A CN201910048812 A CN 201910048812A CN 109919418 B CN109919418 B CN 109919418B
- Authority
- CN
- China
- Prior art keywords
- diffusion
- sample
- axis
- point set
- selecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 61
- 238000012216 screening Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 230000002776 aggregation Effects 0.000 claims abstract description 6
- 239000006185 dispersion Substances 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于小样本非均匀扩散算法的客户数据筛选方法,涉及数据分析技术领域,所解决的是精准定位客户的技术问题。该方法先从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;再根据两个扩散方向矢量建立二维坐标系;并采用非均匀扩散算法对客户数据库进行扩散,然后从扩散矩阵中选取一段满足筛选条件的子矩阵,经聚合后得到样本点集,再从客户数据库中任意选取多条记录作为控制点集,并采用相关性估计期望公式对样本点集进行分析,再根据相关性估计期望值剔除不合格的样本点,最终得到客户数据的筛选结果。本发明提供的方法,特别适用于基础客户资料较少的小微企业。
Description
技术领域
本发明涉及数据分析的技术,特别是涉及一种基于小样本非均匀扩散算法的客户数据筛选方法的技术。
背景技术
小微企业往往由于无法获取到足够多的基础客户资料,从而难以实施对客户的精准定位,进而影响到企业的运营。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能在数据量较少的情况下实现客户精准定位的基于小样本非均匀扩散算法的客户数据筛选方法。
为了解决上述技术问题,本发明所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量;
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件,从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。
本发明提供的基于小样本非均匀扩散算法的客户数据筛选方法,采用基于小样本非均匀扩散算法的预测模块,以客户数据为输入项,经过过滤、扩散、去噪、聚合,得到一个仿真大样本,再以仿真大样本为输入项进行有限元维度的统计分析,从而得到近似于大样本数据的预测结果,能在数据量较少的情况下实现客户精准定位。
具体实施方式
以下结合具体实施例对本发明的技术方案作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系,本发明中的英文字母区分大小写。
本发明实施例所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
所述客户数据库的每条记录中包含有以下字段:客户名称、兴趣、性别、年龄、地区、历史消费金额、消费次数、最长消费间隔、注册时间;
客户数据库中的兴趣字段为散列对象,即该字段可能没有数据或包含多个兴趣项目,长度不限;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
比如选取年龄、地区这两个字段作为扩散方向矢量R,这样预测完毕后可以得到与年龄、地区有关的分析结果,方便企业制定针对不同年龄,地区的销售营销策略;
比如选取历史消费金额、消费次数、最长消费间隔这几个字段之一作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量(比如X轴标示年龄,Y轴标示地区);
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件(比如:最长消费间隔小于6个月),从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1,采用聚合函数对相似数据进行聚合的方法为现有技术;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v,热扩散方程为现有技术,该方程用来计算每个代入的样本点wi对控制点集合v中各个点的影响,其本质是计算wi到控制点集合v中各个点的离散度;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。
Claims (1)
1.一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量;
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件,从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910048812.6A CN109919418B (zh) | 2019-01-18 | 2019-01-18 | 基于小样本非均匀扩散算法的客户数据筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910048812.6A CN109919418B (zh) | 2019-01-18 | 2019-01-18 | 基于小样本非均匀扩散算法的客户数据筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919418A CN109919418A (zh) | 2019-06-21 |
CN109919418B true CN109919418B (zh) | 2023-12-08 |
Family
ID=66960466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910048812.6A Active CN109919418B (zh) | 2019-01-18 | 2019-01-18 | 基于小样本非均匀扩散算法的客户数据筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919418B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776536A (zh) * | 2016-11-21 | 2017-05-31 | 国家电网公司客户服务中心 | 一种供电服务客户满意度关键词库构建方法及装置 |
CN108256923A (zh) * | 2018-01-30 | 2018-07-06 | 长安大学 | 一种基于车辆通行特征的etc客户细分方法 |
CN108763496A (zh) * | 2018-05-30 | 2018-11-06 | 南京讯高科技有限公司 | 一种基于网格和密度的动静态数据融合客户分类算法 |
-
2019
- 2019-01-18 CN CN201910048812.6A patent/CN109919418B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776536A (zh) * | 2016-11-21 | 2017-05-31 | 国家电网公司客户服务中心 | 一种供电服务客户满意度关键词库构建方法及装置 |
CN108256923A (zh) * | 2018-01-30 | 2018-07-06 | 长安大学 | 一种基于车辆通行特征的etc客户细分方法 |
CN108763496A (zh) * | 2018-05-30 | 2018-11-06 | 南京讯高科技有限公司 | 一种基于网格和密度的动静态数据融合客户分类算法 |
Also Published As
Publication number | Publication date |
---|---|
CN109919418A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hui et al. | Model‐based approaches to unconstrained ordination | |
Andrews et al. | High wage workers and low wage firms: negative assortative matching or limited mobility bias? | |
Wang et al. | On computationally tractable selection of experiments in measurement-constrained regression models | |
Rendon | Fixed and random effects in classical and Bayesian regression | |
Bacry et al. | Log-normal continuous cascade model of asset returns: aggregation properties and estimation | |
Lin et al. | Single-experiment input uncertainty | |
Seo et al. | Root selection in normal mixture models | |
US10839318B2 (en) | Machine learning models for evaluating differences between groups and methods thereof | |
Li et al. | The value of field experiments | |
Mahmoudvand et al. | On the optimal parameters for reconstruction and forecasting in singular spectrum analysis | |
Zhang et al. | Characterizations of discrete compound Poisson distributions | |
Goslee | Correlation analysis of dissimilarity matrices | |
Li et al. | Gaussian quadrature for matrix inverse forms with applications | |
Liang et al. | Wavelet-based estimator for the Hurst parameters of fractional Brownian sheet | |
Wei et al. | Interval-valued data regression using partial linear model | |
CN109919418B (zh) | 基于小样本非均匀扩散算法的客户数据筛选方法 | |
Utami et al. | Hausman and taylor estimator analysis on the linear data panel model | |
Chilachava et al. | Mathematical and computer modeling of political elections | |
Plan et al. | Performance in population models for count data, part I: maximum likelihood approximations | |
Özdemir et al. | A test statistic based on ranked set sampling for two normal means | |
CN110837604A (zh) | 基于住房监控平台的数据分析方法及装置 | |
Bhattacharya et al. | Large-sample tests for comparing Likert-type scale data | |
Kim et al. | Identifying aberrant data in structural equation models with IRLS-ADF | |
Price et al. | Performance of nonrecursive latent variable models under misspecification | |
Thirumahal et al. | Knn and arl based imputation to estimate missing values |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |