CN109919418B - 基于小样本非均匀扩散算法的客户数据筛选方法 - Google Patents

基于小样本非均匀扩散算法的客户数据筛选方法 Download PDF

Info

Publication number
CN109919418B
CN109919418B CN201910048812.6A CN201910048812A CN109919418B CN 109919418 B CN109919418 B CN 109919418B CN 201910048812 A CN201910048812 A CN 201910048812A CN 109919418 B CN109919418 B CN 109919418B
Authority
CN
China
Prior art keywords
diffusion
sample
axis
point set
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910048812.6A
Other languages
English (en)
Other versions
CN109919418A (zh
Inventor
施文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiuxiao Xiangyun Network Technology Co ltd
Original Assignee
Shanghai Jiuxiao Xiangyun Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiuxiao Xiangyun Network Technology Co ltd filed Critical Shanghai Jiuxiao Xiangyun Network Technology Co ltd
Priority to CN201910048812.6A priority Critical patent/CN109919418B/zh
Publication of CN109919418A publication Critical patent/CN109919418A/zh
Application granted granted Critical
Publication of CN109919418B publication Critical patent/CN109919418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于小样本非均匀扩散算法的客户数据筛选方法,涉及数据分析技术领域,所解决的是精准定位客户的技术问题。该方法先从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;再根据两个扩散方向矢量建立二维坐标系;并采用非均匀扩散算法对客户数据库进行扩散,然后从扩散矩阵中选取一段满足筛选条件的子矩阵,经聚合后得到样本点集,再从客户数据库中任意选取多条记录作为控制点集,并采用相关性估计期望公式对样本点集进行分析,再根据相关性估计期望值剔除不合格的样本点,最终得到客户数据的筛选结果。本发明提供的方法,特别适用于基础客户资料较少的小微企业。

Description

基于小样本非均匀扩散算法的客户数据筛选方法
技术领域
本发明涉及数据分析的技术,特别是涉及一种基于小样本非均匀扩散算法的客户数据筛选方法的技术。
背景技术
小微企业往往由于无法获取到足够多的基础客户资料,从而难以实施对客户的精准定位,进而影响到企业的运营。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能在数据量较少的情况下实现客户精准定位的基于小样本非均匀扩散算法的客户数据筛选方法。
为了解决上述技术问题,本发明所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量;
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件,从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。
本发明提供的基于小样本非均匀扩散算法的客户数据筛选方法,采用基于小样本非均匀扩散算法的预测模块,以客户数据为输入项,经过过滤、扩散、去噪、聚合,得到一个仿真大样本,再以仿真大样本为输入项进行有限元维度的统计分析,从而得到近似于大样本数据的预测结果,能在数据量较少的情况下实现客户精准定位。
具体实施方式
以下结合具体实施例对本发明的技术方案作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系,本发明中的英文字母区分大小写。
本发明实施例所提供的一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
所述客户数据库的每条记录中包含有以下字段:客户名称、兴趣、性别、年龄、地区、历史消费金额、消费次数、最长消费间隔、注册时间;
客户数据库中的兴趣字段为散列对象,即该字段可能没有数据或包含多个兴趣项目,长度不限;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
比如选取年龄、地区这两个字段作为扩散方向矢量R,这样预测完毕后可以得到与年龄、地区有关的分析结果,方便企业制定针对不同年龄,地区的销售营销策略;
比如选取历史消费金额、消费次数、最长消费间隔这几个字段之一作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量(比如X轴标示年龄,Y轴标示地区);
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件(比如:最长消费间隔小于6个月),从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1,采用聚合函数对相似数据进行聚合的方法为现有技术;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v,热扩散方程为现有技术,该方程用来计算每个代入的样本点wi对控制点集合v中各个点的影响,其本质是计算wi到控制点集合v中各个点的离散度;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。

Claims (1)

1.一种基于小样本非均匀扩散算法的客户数据筛选方法,其特征在于,具体步骤如下:
1)构建客户数据库;
2)从客户数据库中选取两个字段作为两个扩散方向矢量,并选取一个字段作为扩散变量因子;
3)定义一个二维坐标系,该二维坐标系的横轴为X轴,纵轴为Y轴,X轴与Y轴分别用于标示所选取的两个扩散方向矢量;
设定一个X轴步长为h1,及一个Y轴步长为h2,按照h1、h2对二维坐标系进行网格划分,使得每个网格的X轴长度为h1,Y轴长度为h2;
设定一个离散度步长τ,一个扩散步长限值C,一个初始值为1的扩散步数s,并采用非均匀扩散算法对客户数据库进行反复求解,每求解一次令扩散步数s的值增加1,直到扩散步数s的值达到设定的扩散步长限值C,从而得到一个扩散矩阵D;
非均匀扩散算法的方程式为:
式中,N为所选取的扩散变量因子,t=τ×s;
4)定义一个筛选条件,从扩散矩阵D中选取一段满足筛选条件的子矩阵,并采用聚合函数对该子矩阵中的相似数据进行聚合,得到聚合后的样本矩阵D1;
5)将样本矩阵D1中的阵元作为样本点集w,并从客户数据库中任意选取多条记录作为控制点集v,并采用相关性估计期望公式对样本点集w中的各个样本点进行分析,相关性估计期望公式为:
其中,N为样本点集w中的样本点的总数量,wi为样本点集w中的第i个样本点,E(wi)为wi的相关性估计期望值,K(wi,v)为热扩散方程,K(wi,v)中的代入样本点为wi,K(wi,v)中的控制点集合为v;
6)预先设定一个容差阈值,将相关性估计期望值低于预设的容差阈值的样本点从样本点集w中剔除,将最终得到的样本点集w作为客户数据的筛选结果。
CN201910048812.6A 2019-01-18 2019-01-18 基于小样本非均匀扩散算法的客户数据筛选方法 Active CN109919418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910048812.6A CN109919418B (zh) 2019-01-18 2019-01-18 基于小样本非均匀扩散算法的客户数据筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910048812.6A CN109919418B (zh) 2019-01-18 2019-01-18 基于小样本非均匀扩散算法的客户数据筛选方法

Publications (2)

Publication Number Publication Date
CN109919418A CN109919418A (zh) 2019-06-21
CN109919418B true CN109919418B (zh) 2023-12-08

Family

ID=66960466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910048812.6A Active CN109919418B (zh) 2019-01-18 2019-01-18 基于小样本非均匀扩散算法的客户数据筛选方法

Country Status (1)

Country Link
CN (1) CN109919418B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776536A (zh) * 2016-11-21 2017-05-31 国家电网公司客户服务中心 一种供电服务客户满意度关键词库构建方法及装置
CN108256923A (zh) * 2018-01-30 2018-07-06 长安大学 一种基于车辆通行特征的etc客户细分方法
CN108763496A (zh) * 2018-05-30 2018-11-06 南京讯高科技有限公司 一种基于网格和密度的动静态数据融合客户分类算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776536A (zh) * 2016-11-21 2017-05-31 国家电网公司客户服务中心 一种供电服务客户满意度关键词库构建方法及装置
CN108256923A (zh) * 2018-01-30 2018-07-06 长安大学 一种基于车辆通行特征的etc客户细分方法
CN108763496A (zh) * 2018-05-30 2018-11-06 南京讯高科技有限公司 一种基于网格和密度的动静态数据融合客户分类算法

Also Published As

Publication number Publication date
CN109919418A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
Hui et al. Model‐based approaches to unconstrained ordination
Andrews et al. High wage workers and low wage firms: negative assortative matching or limited mobility bias?
Wang et al. On computationally tractable selection of experiments in measurement-constrained regression models
Rendon Fixed and random effects in classical and Bayesian regression
Bacry et al. Log-normal continuous cascade model of asset returns: aggregation properties and estimation
Lin et al. Single-experiment input uncertainty
Seo et al. Root selection in normal mixture models
US10839318B2 (en) Machine learning models for evaluating differences between groups and methods thereof
Li et al. The value of field experiments
Mahmoudvand et al. On the optimal parameters for reconstruction and forecasting in singular spectrum analysis
Zhang et al. Characterizations of discrete compound Poisson distributions
Goslee Correlation analysis of dissimilarity matrices
Li et al. Gaussian quadrature for matrix inverse forms with applications
Liang et al. Wavelet-based estimator for the Hurst parameters of fractional Brownian sheet
Wei et al. Interval-valued data regression using partial linear model
CN109919418B (zh) 基于小样本非均匀扩散算法的客户数据筛选方法
Utami et al. Hausman and taylor estimator analysis on the linear data panel model
Chilachava et al. Mathematical and computer modeling of political elections
Plan et al. Performance in population models for count data, part I: maximum likelihood approximations
Özdemir et al. A test statistic based on ranked set sampling for two normal means
CN110837604A (zh) 基于住房监控平台的数据分析方法及装置
Bhattacharya et al. Large-sample tests for comparing Likert-type scale data
Kim et al. Identifying aberrant data in structural equation models with IRLS-ADF
Price et al. Performance of nonrecursive latent variable models under misspecification
Thirumahal et al. Knn and arl based imputation to estimate missing values

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant