CN108921342A

CN108921342A - 一种物流客户流失预测方法、介质和系统

Info

Publication number: CN108921342A
Application number: CN201810672910.2A
Authority: CN
Inventors: 英春; 谭书华; 花曼; 鞠晶; 孙知信; 孙哲; 宫婧
Original assignee: Tact Day Day Express Ltd
Current assignee: Shanghai Yuanqin Information Technology Co ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-30
Anticipated expiration: 2038-06-26
Also published as: CN108921342B

Abstract

本发明公开了一种物流客户流失预测方法和系统，具有良好的容错性、准确性和实时性，预测快速且可靠，适用于预测动态数据流客户流失预测。其技术方案为：方法包括：收集物流行业客户行为偏好大数据；采用粗糙集理论从收集到的物流行业客户行为偏好大数据中提取出与客户流失相关性较强的条件因素，构成原始决策表；对形成的原始决策表中的连续属性值进行基于信息熵的离散化处理得出初始决策表；约简初始决策表中冗余的条件属性，得到二次决策表，作为BP神经网络的输入；使用增量学习算法，利用ELM作为基本分类器，自适应决定隐层中神经元的数量，并验证决策表的精确度；调整输出层权重和阈值，训练数据集直到输出最优解。

Description

一种物流客户流失预测方法、介质和系统

技术领域

本发明涉及物流行业客户流失预测的方法、介质和系统，尤其涉及一种变精度粗糙集和BP(Back Propagation)神经网络的客户流失预测方法、介质和系统。

背景技术

客户流失是一个受技术、市场、客户、文化和监管等多因素影响的非线性混沌、复杂系统。研究显示，客户的忠诚度和转换成本成正相关关系。客户对企业服务不满意那么将会有8～10个人接收到该企业服务欠缺的信息，相反如果客户非常欣赏某企业的服务或质量，只有2～3个人左右能够接收到这个信息。所以客户流失带来的损失是难以估计的。如果企业在预见到客户存在即将转移的迹象时采取相关措施挽留，缓解客户的负面情绪，70％左右的客户还是会选择继续合作的。并且一个长期合作的客户对企业增益明显。所以预测客户流失行为，积极采取措施挽留客户十分必要。

变精度粗糙集是对标准粗糙集理论的一种扩展，它通过设置阈值参数β(0≤β≤0.5)，放松了标准粗糙集理论对近似边界的严格定义，变精度粗糙集中分类时，在它的正确分类中有一个置信度，这一方面完善了近似空间的概念，另一方面也有利于根据粗糙集理论从认为是不相关的数据中发现相关信息。变精度粗糙集与经典粗糙集相比，由于β值的存在，允许一定程度上的错误分类存在，也就意味着变精度粗糙集在数据噪声上的容错性能是高于基本粗糙集的，这适用于不同渠道收集到的客户数据中数据噪声较大的情况。另外现代物流中客户数据是动态的大数据流，一些实例被组织成一个具有生成顺序的数据集，我们把这个数据集称为一个数据块，所以可知所有的数据流都是由多个数据块组成的。ELM(Extreme Learning Machine，极限学习机)是一种单隐层前馈神经网络(SLFN，Single-hidden Layer Feedforward Neural Network)，与传统神经网络相比，ELM具有更快的速度，非常适合实时数据处理，所以将其应用到客户流失预测领域是合适的。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种物流客户流失预测方法、介质和系统，具有良好的容错性、准确性和实时性，预测快速且可靠，适用于预测动态数据流客户流失预测。

本发明的技术方案为：本发明揭示了一种物流客户流失预测方法，包括：

步骤1：收集物流行业客户行为偏好大数据；

步骤2：采用粗糙集理论从收集到的物流行业客户行为偏好大数据中提取出与客户流失相关性较强的条件因素，构成原始决策表；

步骤3：对形成的原始决策表中的连续属性值进行基于信息熵的离散化处理，离散化后的连续属性值作为初始决策表；

步骤4：用粗糙集约简初始决策表中冗余的条件属性，得到二次决策表，作为BP神经网络的输入进行样本训练；

步骤5：使用增量学习算法，利用ELM作为基本分类器，自适应决定隐层中神经元的数量，对隐层节点的输入权重和偏差进行随机分配，计算隐层神经元的隐层输出矩阵，并验证决策表的精确度；

步骤6：调整输出层权重和阈值，训练数据集直到输出最优解，BP神经网络通过前向反馈误差来改变权值和阈值，当BP神经网络的输出与实际期望的输出均方误差低于某个阈值或者学习次数满足一定条件时训练完成。

根据本发明的物流客户流失预测方法的一实施例，步骤1还包括从物流行业客户的特性上收集数据，所述特性包括但不限于客户对快递配送时间的偏好、物流网点分布对便利度的影响、物流运输速度的影响。

根据本发明的物流客户流失预测方法的一实施例，步骤3中的离散化处理包括：对每个连续属性的值范围首先被划分成几个间隔，每个间隔对应一个非重复值；然后选择两个相邻的间隔进行合并，以便最小化合并之前和之后的熵差，重复此合并过程直到获得停止点，并且存储定义的间隔的分割点即断点。然后再计算信息熵，进行合并，最终选定停止点，完成离散化过程。

根据本发明的物流客户流失预测方法的一实施例，步骤4中是根据区分矩阵的约简属性得到二次决策表：根据区分矩阵中属性出现的频率标记属性的重要性，对应的区分函数为：

其中，(x,y)∈(U，U)指x与y在集合U中，c(x,y)是样本x与y对应的区分矩阵元素，如果集合c(x,y)≠φ，则指定一个Bool函数c₁∨c₂∨c₃∨…∨c_k，用∑c(x,y)表示，若c(x,y)＝φ，则指定Bool常量1，然后根据区分矩阵以及区分函数获得初始决策表的约简。

根据本发明的物流客户流失预测方法的一实施例，根据区分矩阵以及区分函数获得初始决策表的约简的步骤进一步包括：

步骤41：将单个条件属性组成的元素作为属性约简的核，赋值给属性集A，剩余的条件属性集赋值给属性集B，并列出各个条件属性在区分矩阵中出现的频率；

步骤42：将所有的与属性集A交集不为空的区分矩阵元素设置为空集；

步骤43：如果区分矩阵中所有的元素都为空集，则属性集A为最终属性约简；反之转向下一步；

步骤44：假设属性集B中选择出现频率最高的条件属性赋值给为a，并将与{a}交集不为空的区分矩阵元素设置为空集，将{a}添加到属性集A中，并从属性集B中删除，转向步骤43。

根据本发明的物流客户流失预测方法的一实施例，在步骤5中是通过选择一个无限可微的函数作为隐层神经元的激活函数来计算隐层神经元的隐层输出矩阵，对于任意样本(x_j,t_j),j＝1,2,…,N，其中激活函数被建模为：

其中a_i是连接输入神经元和第i个隐层神经元的权重；β_i是连接第i个隐藏神经元和输出神经元的权重；b_i是第i个隐藏神经元的偏差，时间t_j用来判断数据是否产生漂移。

根据本发明的物流客户流失预测方法的一实施例，在步骤6中，使用梯度下降法确定隐层到输出层的权值，并根据收敛方向和速度调整输出层权重和阈值。

本发明还揭示了一种物流客户流失预测系统，包括处理器、存储介质和计算机程序，计算机程序存储在存储介质上，并在处理器中运行以执行前述的物流客户流失预测方法。

本发明还揭示了一种存储介质，存储介质上存储有计算机程序，计算机程序被读取后在处理器中运行以执行前述的物流客户流失预测方法。

本发明对比现有技术有如下的有益效果：本发明的方法包括收集物流行业客户行为偏好大数据；采用粗糙集理论从收集到的物流行业客户行为偏好大数据中提取出与客户流失相关性较强的条件因素，构成原始决策表；对形成的原始决策表中的连续属性值进行基于信息熵的离散化处理得出初始决策表；约简初始决策表中冗余的条件属性，得到二次决策表，作为BP神经网络的输入；使用一种增量学习算法，利用ELM作为基本分类器，自适应决定隐层中神经元的数量，并验证决策表的精确度；调整输出层权重和阈值，训练数据集直到输出最优解。本发明具有很好的容错性能，预测速度和精度也较高，适用于物流行业客户流失预测。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的物流客户流失预测方法的实施例的整体流程图。

图2A至2D示出了条件属性集的断点集S₁、S₂关系图。

图3是对图1所示实施例中步骤5和步骤6的细化流程图。

图4示出了本发明的物流客户流失预测系统的实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的物流客户流失预测方法的实施例的整体流程，请参见图1，下面是对本实施例的方法步骤的详细描述。

步骤1：收集物流行业客户行为偏好大数据，比如价格、产品、技术、服务，还可以从物流行业客户的一些特性上收集数据，比如客户对快递配送时间的偏好，物流网点分布对便利度的影响，物流运输速度的影响等等。

步骤2：采用粗糙集理论从收集到的物流行业客户行为偏好大数据中提取出与客户流失相关性较强的条件因素，构成原始决策表。

步骤3：对形成的原始决策表中的连续属性值进行一种基于信息熵(离散化处理中信息增益法的合并方法)的离散化处理，离散化后的连续属性值作为初始决策表。

步骤3中的离散化处理是指：对每个连续属性的值范围首先被划分成几个间隔，每个间隔对应一个非重复值；然后选择两个相邻的间隔进行合并，以便最小化合并之前和之后的熵差，重复此合并过程直到获得停止点，并且存储定义的间隔的分割点即断点。然后再计算信息熵，进行合并，最终选定停止点，完成离散化过程。

其中初始决策表为DT＝{U，R，V，F|其中R＝C∪D}，设|Y|为子集Y的个数，决策属性值为i的个数记为n_i，子集Y的信息熵为：

令

其中，p_i表示决策属性i在子集Y中的概率。

步骤4：用粗糙集约简初始决策表中冗余的条件属性，根据区分矩阵约简属性得到二次决策表，作为BP神经网络的输入进行样本训练。

步骤4中所述的区分矩阵约简属性是指根据区分矩阵中属性出现的频率标记属性的重要性，则对应的区分函数为：

其中，(x,y)∈(U，U)指x与y在集合U中，β是变精度粗糙集的阈值参数，范围在[0,0.5]，c(x,y)是样本x与y对应的区分矩阵元素，如果集合c(x,y)≠φ，那么指定一个Bool函数c₁∨c₂∨c₃∨…∨c_k，用∑c(x,y)表示，若c(x,y)＝φ，则指定Bool常量1，然后根据区分矩阵以及区分函数可以获得决策表的近似约简。

根据区分矩阵以及区分函数可以获得决策表的近似约简，具体步骤如下：

S41：将单个条件属性组成的元素作为属性约简的核，赋值给属性集A，剩余的条件属性集赋值给属性集B，并列出各个条件属性在区分矩阵中出现的频率。

S42：将所有的与A交集不为空的区分矩阵元素设置为空集。

S43：此时如果区分矩阵中所有的元素都为空集，则A为最终属性约简；反之转向下一步。

S44：假设属性集B中选择出现频率最高的条件属性赋值给为a，并将与{a}交集不为空的区分矩阵元素设置为空集，将{a}添加到A中，并从B中删除，转向步骤S43。

步骤5：使用一种增量学习算法，利用ELM作为基本分类器，使用一种类似于二进制搜索的方法，自适应决定隐层中神经元的数量，隐层节点的输入权重和偏差随机分配，选择一个无限可微的函数作为隐层神经元的激活函数来计算隐层神经元的隐层输出矩阵H，并验证决策表的精确度。

在对步骤5和步骤6的描述中，进一步参考图3，图3揭示了对步骤5和步骤6的细化实现步骤。

对于任意样本(x_j,t_j),j＝1,2,…,1-N，每个样本x_i是一个d维列向量，则非线性无限可微的激活函数g(x)在数学上被建模为：

其中a_i是连接输入神经元和第i个隐层神经元的权重；β_i是连接第i个隐藏神经元和输出神经元的权重；b_i是第i个隐藏神经元的偏差；L是隐层神经元的数量，N是样本个数，时间t_j是输出标签且t_j＝h(x_j)β，h(x_j)是隐层关于x_j的输出向量。

为了提高泛化能力，在处理分类问题时，ELM一般被正则化为如下最优化问题：

ξ_i是第i个样本的训练误差；C是一个相关的惩罚因子，T是第i个神经元对应的输出矩阵。我们可以构造如下的拉格朗日函数：

其中α_i,j为拉格朗日乘子。

根据函数的偏导数和KKT(Karush-Kuhn-Tucker)条件可以得出结论：

如果L<N，矩阵H^TH(H是隐层输出矩阵，T是整体输出层矩阵)的大小小于矩阵HH^T的大小，则有方程：

β是输出函数与隐含层的权值，所以使用ELM作为BP神经网络的前端分类器的激活函数的最终输出是：

如果L>N，矩阵HH^T的大小小于矩阵H^TH的大小，则方程的解为：

所以使用ELM作为BP神经网络的前端分类器的激活函数的最终输出为：

上述步骤为选择激活函数。

作为本发明的进一步优化方法步骤5中所述的一种类似于二进制搜索方法的算法确定隐层中神经元数量的方法具体如下：

对于单隐层的BP神经网络，隐层神经元的数量L不能太大；设L在区间[0,num]，其中num＝min(N，q)；q是训练数据的维数，N是样本数量。如果两个精度之间的差值小于其中1-α是置信度，R是实际输出值，n是样本个数)，那么当前ELM隐含层神经元个数就是最终结果，算法如下：

根据步骤4约简后的决策表作为BP的训练集x＝{(x_i,t_i)|x_i∈Rⁿ,t_i∈R^m}，其中n是样本个数，m是输出矩阵向量个数，根据经验设定期望输出值形成一个验证集，BP神经网络隐层神经元数量L的上界是num，L被初始化为m＝1，激活函数g(x)，隐层神经元个数L。

步骤S51：随机生成输入节点权重w_i和隐层神经元b_i，i＝1,2，...，L；

步骤S52：计算样本的隐层输出矩阵H，生成具有L个隐藏神经元的神经网络结构，并计算验证集合的精确度v₁；

步骤S53：用L₀个隐藏神经元训练ELM模型并计算验证集合的准确度v₂；

步骤S54：如果v₂-v₁＞ε,则令L＝L₀,v₁＝v₂,然后转向步骤S52，否则转向步骤S54；

步骤S55：用L₂个隐藏神经元训练ELM模型并计算验证集合的准确度v₃；

步骤S56：如果v₃-v₁＞ε，则令m＝L，L＝L₂且v₁＝v₃则转到步骤S52；否则转到步骤S56；

步骤S57：算法终止，输出L值。

上述L值为自适应隐层神经元个数，总的来说，步骤5是步骤6中的一部分。

假设根据以上算法找到隐层神经元数量L＜N，然后计算隐层的输出矩阵H₀，

步骤6：调整输出层权重和阈值，直到输出全局最优解。BP网络通过前向反馈误差来改变权值和阈值，当网络的输出与实际期望的输出均方误差低于某个阈值或者学习次数满足一定条件时，训练完成。

步骤6中，使用梯度下降法确定隐层到输出层的权值，根据收敛方向和速度调整输出层权重和阈值，训练数据集，判断数据漂移直到神经网络的输出值和实际输出值的均方误差小于某一阈值输出最优解。

假设数据流B_k,分类器C_j的精度是v_k，则其权重为：

其中μ是正的极小常数，使得分母不为0。

如果数据流的变化是可见的，由于更新机制，分类器可以递归地学习不需要一再重新训练分类器的新概念。

综上，训练样本算法如下：

设置数据流S；分类器集合的最大值为K；单隐层BP神经网络隐层神经元数量L＝0；阈值ε；集成分类器＝NULL；信号为1；

步骤S61：若S＝NULL，转向步骤S67，否则从S中生成数据块Bi；

步骤S62：若集合空间小于k，则根据步骤51至步骤57和数据块决定隐层中神经元L的数量(即图3所示的确定隐层神经元的数量)，继续执行步骤S63；反之转向步骤S65；

步骤S63：利用隐层神经元算法的前面3个步骤训练一个新的ELM分类器命名为C_j，C_j隐层中神经元的数量为L；然后选择一个激活函数(即图3所示的选择合适的激活函数)，令C_j＝1，如果信号为1，则转向步骤S64，否则转向步骤S65；

步骤S64：重复步骤(1)-(3)，直到系统中存在k个ELM分类器，信号＝0；

步骤S65：用分类器计算具有加权投票机制的各层神经元阈值B_i的准确度v_i，如果v_i-1-v_i≤ε，递增更新集合，重新计算集合的权重，则转到步骤S61；否则表示出现数据漂移，然后转到步骤S66；

步骤S66：重新计算集合权重；按照权重从小到大排序；删除集合中的前半部分类；然后转到步骤S67；

步骤S67：终止算法并输出。

上述步骤S61-S67为图3所示的框架内对应的算法。

以下对本发明提出的一种基于变精度粗糙集和BP神经网络的物流客户流失预测方法及其优选方案的具体应用实施做进一步的具体说明：

第一，收集物流行业客户行为偏好大数据，如价格、产品、技术、服务，还可以从物流行业客户的一些特性上收集数据，比如客户对快递配送时间的偏好，物流网点分布对便利度的影响，物流运输速度的影响等等；我们选择快递延误、收投服务(网上寄件、上门取件、去快递网点寄件)、丢件短少(快件安全性)、服务态度、价格(违规收费)、企业形象、快递网点分布、取件时间限制及人员素质等等。

第二，采用粗糙集理论从收集到的物流行业客户行为偏好大数据中提取出与客户流失相关性较强的的条件因素，构成原始数据集；

第三，对形成的原始决策表中的连续属性值进行一种基于信息熵的离散化处理，离散化后的连续属性值作为初始决策表。具体如下：

连续属性离散化的本质是在连续的属性值中设置若干个中间点，通过中间点将属性值的值域划分成一个个区间。根据图2A至2D首先将断点集合选出，选择断点的具体方法如下：

S100：由条件属性C的属性值将该属性划分成为若干个区间，每个有序区间之间的关系如图2A所示，图中S[m]＝min(H(S₁),H(S₂))，S[n]＝max(L(S₁)，L(S₂))分别表示两个有序区间S₁和S₂最大和最小熵值区间，将这些区间进行排序后得到有序序列，初始化断点集合P，设P＝NULL；

比较相邻两个有序序列区间S_i和S_j(i<j)，如果序列是图2A和图2B，则将max(L(S₁)，L(S₂))放入P中。

S200：继续剩余序列区间的比较，若是图中2C和2D的情况，则将该两个区间合并(即求并集S＝S_i∪S_j)。确定max(L(S₁)，L(S₂))和min(H(S₁),H(S₂))在S中的序号m和n，将S[m]和S[n]的值添加到初始断点集中，断点S[m]和S[n]之间的断点元素记为S[x]。若S[x-1]和S[x]不同时存在于S₂中，就将S[x]加入到P中，反之不加。

S300：检查有序区间是否都比较结束，若不存在可以继续比较的有序区间，则表明条件属性C的断点集计算完成。然后再计算信息熵，进行合并，最终选定停止点，完成离散化过程。对于断点信息熵，计算方法如下：

H(c,L)＝H^Y1(c)+H^Y2(c)+…+H^Ym(c)

其中c是断点，Y_i是子集，L是所有子集的集合。

第四，根据区分矩阵对离散决策表做约简属性，得到二次决策表输入BP神经网络进行样本训练；对应的区分函数为：

其中，(U，U)指x与y在集合U中，β是变精度粗糙集的阈值参数，范围在[0,0.5]，c(x,y)是样本x与y对应的区分矩阵元素，如果集合c(x,y)≠φ，那么指定一个Bool函数c₁∨c₂∨c₃∨…∨c_k，用∑c(x,y)表示，若c(x,y)＝φ，则指定Bool常量1。根据区分矩阵中属性出现的频率标记属性的重要性，根据重要性做出属性约简。

第五，使用一种增量学习算法，利用ELM作为基本分类器，使用一种类似于二进制搜索的方法，自适应决定隐层中神经元的数量，隐层节点的输入权重和偏差随机分配，选择一个无线可微的函数作为隐层神经元的激活函数来计算隐层神经元的输出H，并验证决策表的精确度；根据k+1数据块可以归纳得到数据流下隐层输出矩阵及连接权值：

其中β是隐层与输出层的连接权重，H_k是隐层关于数据块的输出矩阵，L是隐层节点个数，T_k是输出层向量矩阵，m是输出层向量的个数。

第六，调整输出层权重和阈值，直到输出全局最优解。其中权值和阈值的调整是根据全局误差进行的，计算数据块k的全局误差的方法如下：

其中m是样本空间中总的样本个数，q是输出层神经元个数，d_o是期望输出，y_o是实际输出。当网络的输出与实际期望的输出均方误差低于某个阈值或者学习次数满足一定条件时，训练完成，在仿真软件中可以输出客户流失的百分率图形，以此来预测即将流失的客户群体，便于物流公司做出相应的措施。

此外，如图4所示，本发明还揭示了一种物流客户流失预测系统，包括处理器、存储介质和计算机程序，计算机程序存储在存储介质上，并在处理器中运行以执行如上述实施例的物流客户流失预测方法。

本发明还揭示了一种存储介质，存储介质上存储有计算机程序，计算机程序被读取后在处理器中运行以执行如上述的物流客户流失预测方法。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种物流客户流失预测方法，包括：

步骤1：收集物流行业客户行为偏好大数据；

2.根据权利要求1所述的物流客户流失预测方法，其特征在于，步骤1还包括从物流行业客户的特性上收集数据，所述特性包括但不限于客户对快递配送时间的偏好、物流网点分布对便利度的影响、物流运输速度的影响。

3.根据权利要求1所述的物流客户流失预测方法，其特征在于，步骤3中的离散化处理包括：对每个连续属性的值范围首先被划分成几个间隔，每个间隔对应一个非重复值；然后选择两个相邻的间隔进行合并，以便最小化合并之前和之后的熵差，重复此合并过程直到获得停止点，并且存储定义的间隔的分割点即断点。然后再计算信息熵，进行合并，最终选定停止点，完成离散化过程。

4.根据权利要求1所述的物流客户流失预测方法，其特征在于，步骤4中是根据区分矩阵的约简属性得到二次决策表：根据区分矩阵中属性出现的频率标记属性的重要性，对应的区分函数为：

其中，(x,y)∈(U，U)指x与y在集合U中，β是变精度粗糙集的阈值参数，范围在[0,0.5]，c(x,y)是样本x与y对应的区分矩阵元素，如果集合c(x,y)≠φ，则指定一个Bool函数c₁∨c₂∨c₃∨…∨c_k，用∑c(x,y)表示，若c(x,y)＝φ，则指定Bool常量1，然后根据区分矩阵以及区分函数获得初始决策表的约简。

5.根据权利要求4所述的物流客户流失预测方法，其特征在于，根据区分矩阵以及区分函数获得初始决策表的约简的步骤进一步包括：

步骤44：从假设属性集B中选择出现频率最高的条件属性赋值给为a，并将与{a}交集不为空的区分矩阵元素设置为空集，将{a}添加到属性集A中，并从属性集B中删除，转向步骤43。

6.根据权利要求1所述的物流客户流失预测方法，其特征在于，在步骤5中是通过选择一个无限可微的函数作为隐层神经元的激活函数来计算隐层神经元的隐层输出矩阵，对于任意样本(x_j,t_j),j＝1,2,…,N，其中激活函数被建模为：

7.根据权利要求1所述的物流客户流失预测方法，其特征在于，在步骤6中，使用梯度下降法确定隐层到输出层的权值，并根据收敛方向和速度调整输出层权重和阈值。

8.一种物流客户流失预测系统，包括处理器、存储介质和计算机程序，计算机程序存储在存储介质上，并在处理器中运行以执行如权利要求1至7中任一项所述的物流客户流失预测方法。

9.一种存储介质，存储介质上存储有计算机程序，计算机程序被读取后在处理器中运行以执行如权利要求1至7中任一项所述的物流客户流失预测方法。