CN105023041A

CN105023041A - 数据聚类方法及b2b平台客户偏好获取方法、装置

Info

Publication number: CN105023041A
Application number: CN201510490962.4A
Authority: CN
Inventors: 武忠; 张丽媛; 李媛; 吕思杰; 赵飞祥
Original assignee: Wuxi Yun Ge Ecommerce Co Ltd; Southeast University
Current assignee: Wuxi Yun Ge Ecommerce Co Ltd; Southeast University
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-11-04
Anticipated expiration: 2035-08-11
Also published as: CN105023041B

Abstract

本发明公开了一种数据聚类方法，属于数据挖掘技术领域。本发明对传统LF蚁群算法进行了改进，具体改进之处包括：改进了相似度函数的描述，减少了参数设置，增加了权重因素，能够更加准确的描述相似度；自适应调整蚂蚁观察半径，提高蚂蚁的观察效率，增加收敛速度；为空载蚂蚁和负载蚂蚁分别设计了定向移动策略，以提高蚂蚁的移动效率；引入循环终止控制机制，避免了人为设置迭代次数带来的影响，提高了算法的准确性。本发明还公开了一种B2B平台客户偏好获取方法、装置，采用上述数据聚类方法。相比现有技术，本发明在提高聚类效率的同时，提高了聚类结果的准确性。

Description

数据聚类方法及B2B平台客户偏好获取方法、装置

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种改进的LF蚁群聚类方法及其在电子商务技术领域的应用。

背景技术

第三方B2B电子商务平台竞争压力巨大，为保持现有的客户的忠诚度，并吸引更多的潜在客户是现在第三方B2B平台所面临的一大难题。并且相对于消费者市场，企业市场有其自身的特点。因此，获取客户偏好，提供个性化的服务是未来的发展方向，而通过数据挖掘，分析在线客户的偏好是平台个性化服务的起点。

数据挖掘是获取客户偏好的重要方法，而聚类则是数据挖掘中的重要内容，属于无监督学习的过程。聚类的基本原则是根据数据间的不同特征对数据集进行分簇，发现数据中隐含的模式，聚类结果是同一簇中的数据相似度尽量大，不同簇的数据相似度尽量小。

目前存在许多用于客户分析的经典聚类算法，其中近年来科学家根据蚂蚁群体智能所提出的蚁群聚类算法由于可以自动生成集群，不需要预先设定聚类中心，可以有效地发现数据中隐藏的共同特征，因此蚁群聚类算法在客户分析中已受到越来越多的重视。Deneubourg等[Deneubourg,J.L.Goss,S.Franks,N.Sendova-Franks.The dynamics of collective sorting:robot-like ants and ant-likerobot s[C].Proceedings of the 1st International Conference on Simulation ofAdaptive Behaviors,M IT Press,Cambridge,MA,pp.356-363,1991]最早把蚁群算法引入到聚类和分类问题中，提出了BM模型(basic model)用来解释蚂蚁堆积尸体形成墓穴的行为。Lumer和Faieta[Lumer E,Faieta B.Diversity and Adaptationin Populations of Clustering Ants[A].From Animals to Animates 3:Proceedings ofThird International Conference on Simulation of Adaptive Behavior Cambridge[C].Cambridge,MA,USA:MIT Press,1994:501-508.]在BM模型的基础上，提出了用于数据聚类的LF算法。LF算法的思想是：初始时将待处理数据随机放在一个Z×Z的二维网格中，同样也产生一些虚拟的蚂蚁，这些蚂蚁能观察到S×S邻域中的数据对象，因此可以判断搬运对象是否与观察到的对象相似，对象x_i在地点R处的相似度公式为:

f (x_{i}) = m a x {0, \frac{1}{s^{2}} \underset{x_{i} &Element; {Neigh}_{s \times s} (r)}{Σ} [1 - \frac{d (x_{i}, x_{j})}{α}]}

相似度中的距离，一般采用欧式距离：

d (x_{i}, x_{j}) = \sqrt{Σ_{k = 1}^{m} {(x_{i k} - x_{j k})}^{2}}

其中，m表示属性的个数，α为相似度系数。捡起、放下概率的公式分别为:

P_{p} = {(\frac{k_{1}}{f (x_{i}) + k_{1}})}^{2}

P_{d} = \{\begin{matrix} 2 f (x_{i}), & \begin{matrix} i f & f (x_{i}) < k_{2} \end{matrix} \\ 1, & o t h e r w i s e \end{matrix}

其中，k₁、k₂为阈值常量。通过计算相似度，蚂蚁不断拾起或放下对象，不断重复，直到达到设置的最大迭代次数。

传统的LF蚁群聚类算法中，相似度函数、捡起放下概率转换函数参数需要设置多个参数，蚂蚁观察半径不变且运动是随机的，最大迭代次数需要根据经验进行设置。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种数据聚类方法，对现有LF蚁群聚类方法进行改进，在提高聚类效率的同时，提高聚类结果的准确性。

本发明具体采用以下技术方案解决上述技术问题：

数据聚类方法，利用LF蚁群聚类方法进行数据的聚类，所述LF蚁群聚类方法中，负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对象x_i与该蚂蚁能观察到的数据对象之间的相似度f(x_i)按照下式计算：

f (x_{i}) = M i n {\frac{1}{S^{2}} \cdot \frac{d (x_{i}, x_{j})}{n_{i}} | x_{j} &Element; {Neigh}_{s \times s} (r)}

式中，Neigh_S×S(r)表示该蚂蚁所在网格单元r的大小为S×S的邻域；S为蚂蚁的观察半径；n_i表示Neigh_S×S(r)中数据对象的总数；d(x_i,x_j)表示x_i与Neigh_S×S(r)中的数据对象x_j之间的欧氏距离。

进一步地，在所述LF蚁群聚类方法中，空载蚂蚁按照定向移动策略进行移动，具体如下：空载蚂蚁在初始状态随机移动；之后，空载蚂蚁从当前时刻尚未发生过位置变化的数据对象中选择一个，并向该数据对象移动；如所有数据对象均已发生过位置变化，则空载蚂蚁恢复随机移动。

进一步地，在所述LF蚁群聚类方法中，负载蚂蚁按照定向移动策略进行移动，具体如下：负载蚂蚁从全局记忆矩阵A_M中寻找与该蚂蚁当前负载的数据对象相似度最大且没有失效的数据对象X，并以坐标为(x_new，y_new)的点作为目标位置进行移动；如果目标位置在网格内且被其他数据对象占据，则移动至目标位置随机的相邻空位；如果目标位置超越网格边界，则重新计算目标位置；如果多次计算出的目标位置均不在网格内，则该负载蚂蚁保持不动并显示定向移动失败；坐标(x_new，y_new)按照以下公式确定：

x_{n e w} = | x_{0} + α \times I n t (\frac{S}{2}) |

y_{n e w} = | y_{0} + α \times I n t (\frac{S}{2}) |

其中，(x₀，y₀)为数据对象X的当前坐标，Int是向下取整函数，α是[-1,1]之间的随机数；所述全局记忆矩阵A_M为A_L×3的矩阵，其三列数据分别放置的是被任意一只蚂蚁放下的数据对象及该数据对象的被放下的概率和位置坐标；全局记忆矩阵A_M被所有蚂蚁按照以下方法进行共享和操作：全局记忆矩阵A_M初始化时，从待聚类数据中随机选择的A_L个数据对象，将这些数据编号为1到A_L，存放在矩阵第一列，对应第二列全部初始化为0，第三列存放这A_L个数据对象对应的坐标；当任一只蚂蚁放下数据对象X_i时，此时放下的概率为P_d(i)，在全局记忆矩阵A_M中，首先查找是否有被其他蚂蚁“捡起”的数据对象，若被捡起，则该数据对象成为失效点；若有失效点，则使用新的数据对象X_i和P_d(i)替换；如果全局记忆矩阵中没有失效点，则寻找全局记忆矩阵中所存储的所有放下的概率P_d中的最小值P_d _min，如果P_d(i)_min<P_d，使用新的数据对象X_i和P_d(i)替换，否则保持不变。

进一步地，在所述LF蚁群聚类方法中，蚂蚁的观察半径根据算法迭代次数进行自适应调整，具体如下式：

S (t + 1) = \{\begin{matrix} M & \mod (T_{m a x}, n (t)) &NotEqual; 0 \\ M + 1 & M + 1 \leq N, \mod (T_{\max}, n (t)) = 0 \end{matrix}

n (t) = I n t (\frac{T_{m a x}}{N - M})

其中Int()是向下取整函数,mod()是取余函数，T_max是总迭代次数，t表示当前迭代次数，S(t+1)表示第t+1次迭代中蚂蚁的观察半径，M、N分别为预设的观察半径下界、上界。

优选地，在计算欧氏距离时，数据对象各属性的权重预先通过主成分分析方法确定。

优选地，所述LF蚁群聚类方法中的概率转换函数为Sigmoid函数。

优选地，所述LF蚁群聚类方法中的算法终止条件为:在算法运行过程中，蚂蚁不再进行捡起和放下的动作。

根据相同的发明思路还可以得到如下技术方案：

一种B2B平台客户偏好获取方法，利用聚类分析挖掘出B2B平台中的客户偏好，所述聚类分析使用如上任一技术方案所述数据聚类方法。

一种B2B平台客户偏好获取装置，包括：

客户信息收集单元，用于对B2B平台中的客户信息进行收集；

客户信息描述单元，用于根据预设的客户偏好指标体系对客户信息收集单元所收集的客户信息进行量化描述；

聚类分析单元，使用如上任一技术方案所述数据聚类方法对客户信息描述单元所输出的量化描述的客户信息进行聚类分析，从而得到客户偏好。

相比现有技术，本发明及其进一步改进方案具有以下有益效果：

1、本发明改进了传统LF蚁群算法中相似度函数的描述，减少了参数设置，增加了权重因素，能够更加准确的描述相似度，从而在提高聚类效率的同时，提高聚类结果的准确性。

2、本发明对传统的蚁群算法进行了改进，传统的蚁群聚类算法的观察半径是不变的，本发明采用逐渐增加观察半径的方法，能够提高蚂蚁的观察效率，增加收敛速度。

3、本发明对传统的蚁群算法进行了改进，传统的蚁群聚类算法蚂蚁只有短期记忆指导蚂蚁运动，对于负载后的蚂蚁，本发明采用全局记忆和定向移动策略指导其运动，负载蚂蚁可以有效找到合适的位置放下数据，加快了算法收敛速度，减少了无效移动。

4、本发明对传统的蚁群算法进行了改进，用位置记录矩阵指导空载蚂蚁移动，能够有效避免孤立点一直未被捡起的状况，能够提高蚂蚁运动效率，提高算法收敛度。

5、本发明提出了循环终止控制机制，避免了人为设置迭代次数带来的影响，提高了算法的准确性。

附图说明

图1为具体实施方式中本发明数据聚类方法的流程示意图；

图2为本发明B2B平台客户偏好获取装置的结构原理示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

传统的基于LF蚁群算法的数据聚类方法存在聚类效率低下的缺陷，同时其聚类准确度也有待提高。为此，本发明针对传统LF蚁群聚类方法的不足，对其进行改进，以提高聚类效率及聚类准确率。下面对这些改进之处进行详细说明。

现有LF蚁群聚类方法中的相似度函数如下：

f (x_{i}) = m a x {0, \frac{1}{s^{2}} \underset{x_{i} &Element; {Neigh}_{s \times s} (r)}{Σ} [1 - \frac{d (x_{i}, x_{j})}{α}]}

上述相似度函数形式比较复杂，计算复杂度较高，且其中存在多个需要人为设置的参数，较易出现由于参数设置不合理而导致相似性描述不准确的情况发生，进而影响聚类结果的准确性。为此，本发明首先对其中的相似度度量进行了改进，改进后的相似度函数具体如下：

f (x_{i}) = M i n {\frac{1}{S^{2}} \cdot \frac{d (x_{i}, x_{j})}{n_{i}} | x_{j} &Element; {Neigh}_{s \times s} (r)}

式中，f(x_i)表示负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对象x_i与该蚂蚁能观察到的数据对象之间的相似度，Neigh_S×S(r)表示该蚂蚁所在网格单元r的大小为S×S的邻域；S为蚂蚁的观察半径；n_i表示Neigh_S×S(r)中数据对象的总数；d(x_i,x_j)表示x_i与Neigh_S×S(r)中的数据对象x_j之间的欧氏距离；考虑到在数据对象的m个属性中，每个属性的重要程度是不同的，因此对相似度的贡献也不同，因此欧式距离优选采用以下计算方法：

d (x_{i}, x_{j}) = \sqrt{Σ_{k = 1}^{m} {(x_{i k} - x_{j k})}^{2}},

其中，m为数据对象的属性类别数(即数据对象向量的维数)；x_ik、x_jk分别表示数据对象x_i、x_j的第k类属性；λ_k是数据对象的第k类属性的权重，可以根据经验人为设定，也可以预先通过主成分分析(Principal Component Analysis，PCA)方法得到。

上述相似度定义简化了描述方法，减少了参数设置，使得整个算法的复杂度大幅降低，同时能更加准确的描述相似度。

传统LF蚁群算法中蚂蚁的移动是随机的，总是会出现一些孤立点一直未被拾起的现象，或者当前蚂蚁所捡起的数据点是被其他蚂蚁捡起过的数据点，严重降低了算法效率。针对这一问题，本发明为空载蚂蚁和负载蚂蚁分别设计了定向移动策略，以提高蚂蚁的移动效率。

传统的LF蚁群聚类算法中空载蚂蚁是随机移动的，为了提高其运动效率，本发明采用一个B_L×2位置记录矩阵B_N，B_N第一列记录所有待聚类数据对象的序号，第二列记录数据对象的位置坐标(x,y)。只要数据对象的位置有更新，就将新的位置代替原来的位置坐标。如果在位置记录矩阵中有数据对象位置没有变化，表明这些数据对象还没有被捡起，空载蚂蚁移动时，先向这些还没有被捡起过的数据对象移动，这样可以有效避免一些孤立点一直未被拾起的现象，能够提高蚂蚁的移动效率。初始化时，空载蚂蚁是随机移动的；然后，空载蚂蚁就根据位置记录矩阵B_N向这些还没有被捡起过的数据对象进行移动，如存在多个还没有被捡起过的数据对象，则从中随机选取一个作为移动的目标；当位置记录矩阵中的第二列都有变动时，表明所有数据对象均已被捡起过，此时空载蚂蚁就恢复随机移动。

为了提高蚂蚁运动效率，本发明采用全局记忆来指导负载蚂蚁移动。在算法运行过程中，所有蚂蚁共享一个A_L×3的全局记忆矩阵A_M，A_M的第一列放置的是当任意一只蚂蚁放下数据对象时的数据点X，第二列放置的是与数据点相对应的数据对象被放下的概率P_d，第三列放的是数据点X的位置坐标(x₀,y₀)。矩阵A_M被所有蚂蚁共享和操作。初始化阶段，全局记忆矩阵A_M的第一列放入从待聚类数据中随机选择的A_L个数据点，第二列全部初始化为0，随机选择的A_L个数据点称为初始信息。当任一只蚂蚁放下数据点X_i时，此时放下的概率为P_d(i)。在全局记忆矩阵A_M中，首先查找是否有被其他蚂蚁“捡起”的数据点，若被捡起，则该点失去指导意义，成为失效点。若有失效点，则使用新的数据点X_i和P_d(i)替换失效点。如果全局记忆中没有失效点，则寻找P_d中的最小值P_d _min，如果P_d _min<P_d(i)，使用新的数据点X_i和P_d(i)替换P_d _min所对应的数据点，否则保持不变。捡起数据X_i后的负载蚂蚁直接寻找记忆矩阵A_M中与数据点X_i相似度最大且没有失效的点X，找到X当前坐标(x₀，y₀)。找到坐标后，采用以下的定向移动策略移动到X点为中心，边长为蚂蚁观察半径S的正方形区域内的坐标(x_new，y_new)处：

x_{n e w} = | x_{0} + α \times I n t (\frac{S}{2}) |

y_{n e w} = | y_{0} + α \times I n t (\frac{S}{2}) |

其中，Int是向下取整函数，α是[-1,1]之间的随机数。

蚂蚁定向移动时，可能会移动到有数据的位置。因此，如果目标位置在网格内且被其他数据占据，就找其随机的相邻空位；如果超越网格边界，则重新计算定向移动位置；如果多次移动均不在网格内，则保持不动且显示“第x只蚂蚁定向移动失败”。存在多个最相似数据时，随机选取一个数据对象作为定向移动的对象。

传统LF蚁群算法蚂蚁的观察半径S是固定的，本发明采用根据算法运行次数，逐渐增大观察半径的方法，逐渐增大蚂蚁的观察范围，从而加快算法收敛。本发明观察半径自适应调整的公式为：

S (t + 1) = \{\begin{matrix} M & \mod (T_{m a x}, n (t)) &NotEqual; 0 \\ M + 1 & M + 1 \leq N, \mod (T_{\max}, n (t)) = 0 \end{matrix}

n (t) = I n t (\frac{T_{m a x}}{N - M})

其中Int()是向下取整函数,mod()是取余函数，T_max是总迭代次数，t表示当前迭代次数，S(t+1)表示第t+1次迭代中蚂蚁的观察半径，M、N分别为预设的观察半径下界、上界。公式表示蚂蚁观察半径在每n(t)次迭代后就增加1，观察半径S从M逐渐增加到N。

传统蚁群聚类算法的最大迭代次数都是设定的，需要通过测试集来事先确定迭代次数，本发明提出终止运算的控制机制。当运行过程中，蚂蚁不再进行捡起和放下的动作，表明待聚类对象已经聚类到最合适的类中，此时可以终止循环。为实现这样的控制机制，本发明采用蚂蚁运动记录矩阵C_L×3，其第一列是序号，第二、三列初始状态设置为0。蚂蚁运动后，蚂蚁每进行一次捡起、放下的动作，第二、三列就增加1，直到蚂蚁不再捡起、放下，同一只蚂蚁的第二、三列记录的运动次数相等且不再变化时，表明该只蚂蚁找不到需要移动的点，当所有的蚂蚁出现这种情况时，表明聚类已经成功，此时即可终止迭代运算，输出聚类结果。这样的控制机制，可以有效防止达到最大迭代次数时有些蚂蚁捡起数据对象仍未放下的情况，提高了聚类的准确性。

优选地，本发明采用Sigmoid函数作为概率转换函数。该函数是非线性函数，只需要设置1个参数，且设置合适的参数后，比传统的概率转换函数有更好的收敛性。本发明将概率转换函数定义为：

p_{d} = \frac{1 - e^{- c f (X_{i})}}{1 + e^{- c f (X_{i})}}

p_{p} = 1 - \frac{1 - e^{- c f (X_{i})}}{1 + e^{- c f (X_{i})}}

其中，c为需要设置的参数，e为自然底数，f(X_i)为相似度函数。

图1显示了本发明一个优选实施例的基本流程，该优选实施例中包括了上述各项改进。如图1所示，本发明数据聚类方法包括以下步骤：

第一步，初始化观察半径、蚂蚁数目、全局记忆矩阵A_M、位置记录矩阵B_N、蚂蚁运动记录矩阵C。

第二步，将待聚类数据随机投影到二维平面，蚂蚁随机分布到二维平面。

第三步，蚂蚁移动到任意待聚类对象X_i位置R。

第四步，计算R位置处观察半径内相似度f(X_i)、P_p，产生在[0,1]服从均匀分布的随机数Q。

第五步，if P_p>Q then捡起X_i，定向移动到新位置

else空载蚂蚁根据位置记录矩阵B_N移动到新位置。

第六步，负载蚂蚁到达一个空闲位置，计算该位置观察半径内相似度f(X_i)、P_p，产生在[0,1]服从均匀分布的随机数Q。

第六步，if P_d>Q then放下X_i，蚂蚁移动到新位置

else负载蚂蚁根据全局记忆矩阵A_M移动到新位置。

第七步，根据蚂蚁运动记录矩阵C及控制机制，达到最大迭代次数，算法结束，输出结果。

本发明的数据聚类方法可广泛用于各类数据的挖掘，下面以B2B平台客户偏好获取为例来说明其在电子商务技术领域的应用。本发明的B2B平台客户偏好获取方法，具体包括以下步骤：

步骤1、获取影响客户偏好的因素；

本实施例中影响客户偏好的因素具体如下：

供应商维度

1.物流服务

(1)时间质量。时间质量指供应商处理买方客户订单时的效率情况，发货的速度。买方客户在购买时，有时会对时间上做出特别要求。供应商能否达到要求，影响着买方的决策。

(2)人员沟通质量。人员沟通质量是指买方能及时掌握物流信息，能够与物流服务人员保持信息通畅。

(3)响应质量。响应质量主要面对客户提出的物流服务数量变动，日常客户投诉、服务应答以及退换货处理的反应速度。

2.营销服务

(1)售前服务。售前服务是供应商推出的吸引客户的服务，起到帮助客户熟悉产品性能，以及帮助客户了解购物环境等作用。

(2)售中服务。当客户表达购买意愿后以及在实施购买过程中，供应商提供的产品演示、合同签订、安排发货等服务。

(3)售后服务。当购买行为完成后，供应商给客户提供在合同范围内的相应的维护服务，升级服务等相应服务项目。

(4)价格政策。价格政策是指供应商根据客户的购买总量以及质量要求制定价格，以及给客户提供的优惠政策。

B2B平台维度

1.网站质量

(1)信息质量。信息质量是指网站上发布的产品信息的全面性、分类情况、信息实用性。

(2)信息更新速度。信息更新速度是指新的市场信息上线及无用的市场信息下线的速度，网站信息与市场信息同步的程度。

(3)操作便捷性。操作便捷性是指客户使用的界面友好程度。

2.平台可信度

(1)信息可信度。信息可信度是指网站上发布信息的真实性和可靠性，能够将虚假及广告信息及时清除，能够为客户的浏览带来方便。

(2)提供诚信认证服务。平台为买卖方双方企业的真实情况提供认证服务，为客户的选择提供参考。

3.附加服务

(1)行业咨询服务。行业咨询服务是指根据客户需要，针对行业情况，为客户提供咨询、解惑答疑服务。

(2)品牌策划推广。品牌策划推广是指为客户打造品牌形象，提升品牌知名度，使平台用户广泛认同。基于买方客户的品牌推广可以为买方客户获得更多的供应商资源，增加合作机会。

(3)融资担保。平台作为信用担保机构，通过介入包括银行在内的金融机构、企业这些资金出借方与主要为企业资金需求方之间，作为第三方保证机构为债务方向债权方提供信用担保，担保债务方履行合同或其他类资金约定的责任和义务。该服务为企业的融资起到了一定的协助作用。

买方客户行为维度

1.转移成本

(1)平台转移成本。客户从一个平台转换到另一个平台需要花时间和精力进行信息搜寻评估，并且要熟悉新的服务规则和流程。

(2)供应商转换成本。对B2B的买方客户而言，供应商转换成本通常都是巨大的，一般包含合同违约成本、搜寻成本，增加了寻找新供应商的交易成本。

2.对风险的态度

(1)关系风险。关系风险是指交易对本组织和供应商之间的关系带来的影响。

(2)专业风险。专业风险是指，做出决策时，组织中其他人对决策者专业水准的看法。

步骤2、构建客户偏好指标体系；

本实施例中所构建的客户偏好指标体系及数据来源如表1所示：

表1客户偏好指标体系及数据来源

步骤3、根据客户跟电子商务系统的交互，收集客户信息，并根据所建立的客户偏好指标体系对客户信息进行量化描述；

步骤4、利用本发明的数据聚类方法对量化描述的客户信息进行聚类，并通过分析各个簇中的聚类中心，得出各个簇的特点，从而获得客户偏好；

步骤5、对客户和系统的状态进行跟踪，并利用跟踪到的信息对客户信息进行更新，转步骤3。

图2显示了本发明B2B平台客户偏好获取装置的基本结构及原理，如图2所示，该装置包括：

客户信息收集单元，用于对B2B平台中的客户信息进行收集；

聚类分析单元，使用本发明改进后的蚁群聚类聚类方法对客户信息描述单元所输出的量化描述的客户信息进行聚类分析，从而得到客户偏好；

客户偏好分析部件，工作于电子商务网站服务器端，实现对客户偏好的进一步分析。

跟踪管理部件，该部件可以对客户和系统的状态进行跟踪，并将状态以文本信息形式存储于管理信息数据库。

Claims

1.数据聚类方法，利用LF蚁群聚类方法进行数据的聚类，其特征在于，所述LF蚁群聚类方法中，负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对象x_i与该蚂蚁能观察到的数据对象之间的相似度f(x_i)按照下式计算：

f (x_{i}) = M i n {\frac{1}{S^{2}} \cdot \frac{d (x_{i}, x_{j})}{n_{i}} | x_{j} &Element; {Neigh}_{s \times s} (r)}

2.如权利要求1所述数据聚类方法，其特征在于，在所述LF蚁群聚类方法中，空载蚂蚁按照定向移动策略进行移动，具体如下：空载蚂蚁在初始状态随机移动；之后，空载蚂蚁从当前时刻尚未发生过位置变化的数据对象中选择一个，并向该数据对象移动；如所有数据对象均已发生过位置变化，则空载蚂蚁恢复随机移动。

3.如权利要求1所述数据聚类方法，其特征在于，在所述LF蚁群聚类方法中，负载蚂蚁按照定向移动策略进行移动，具体如下：负载蚂蚁从全局记忆矩阵A_M中寻找与该蚂蚁当前负载的数据对象相似度最大且没有失效的数据对象X，并以坐标为(x_new，y_new)的点作为目标位置进行移动；如果目标位置在网格内且被其他数据对象占据，则移动至目标位置随机的相邻空位；如果目标位置超越网格边界，则重新计算目标位置；如果多次计算出的目标位置均不在网格内，则该负载蚂蚁保持不动并显示定向移动失败；坐标(x_new，y_new)按照以下公式确定：

x_{n e w} = | x_{0} + α \times I n t (\frac{S}{2}) |

y_{n e w} = | y_{0} + α \times I n t (\frac{S}{2}) |

其中，(x₀，y₀)为数据对象X的当前坐标，Int是向下取整函数，α是[-1,1]之间的随机数；所述全局记忆矩阵A_M为A_L×3的矩阵，其三列数据分别放置的是被任意一只蚂蚁放下的数据对象及该数据对象的被放下的概率和位置坐标；全局记忆矩阵A_M被所有蚂蚁按照以下方法进行共享和操作：全局记忆矩阵A_M初始化时，从待聚类数据中随机选择的A_L个数据对象，将这些数据编号为1到A_L，存放在矩阵第一列，对应第二列全部初始化为0，第三列存放这A_L个数据对象对应的坐标；当任一只蚂蚁放下数据对象X_i时，此时放下的概率为P_d(i)，在全局记忆矩阵A_M中，首先查找是否有被其他蚂蚁“捡起”的数据对象，若被捡起，则该数据对象成为失效点；若有失效点，则使用新的数据对象X_i和P_d(i)替换；如果全局记忆矩阵中没有失效点，则寻找全局记忆矩阵中所存储的所有放下的概率P_d中的最小值P_dmin，如果P_d(i)_min<P_d，使用新的数据对象X_i和P_d(i)替换，否则保持不变。

4.如权利要求1所述数据聚类方法，其特征在于，在所述LF蚁群聚类方法中，蚂蚁的观察半径根据算法迭代次数进行自适应调整，具体如下式：

S (t + 1) = \{\begin{matrix} M & \mod (T_{m a x}, n (t)) &NotEqual; 0 \\ M + 1 & M + 1 \leq N, \mod (T_{\max}, n (t)) = 0 \end{matrix}

n (t) = I n t (\frac{T_{m a x}}{N - M})

5.如权利要求1～4任一项所述数据聚类方法，其特征在于，在计算欧氏距离时，数据对象各属性的权重预先通过主成分分析方法确定。

6.如权利要求1～4任一项所述数据聚类方法，其特征在于，所述LF蚁群聚类方法中的概率转换函数为Sigmoid函数。

7.如权利要求1～4任一项所述数据聚类方法，其特征在于，所述LF蚁群聚类方法中的算法终止条件为:在算法运行过程中，蚂蚁不再进行捡起和放下的动作。

8.一种B2B平台客户偏好获取方法，利用聚类分析挖掘出B2B平台中的客户偏好，其特征在于，所述聚类分析使用如权利要求1～7任一项所述数据聚类方法。

9.一种B2B平台客户偏好获取装置，包括：

客户信息收集单元，用于对B2B平台中的客户信息进行收集；

聚类分析单元，使用如权利要求1～7任一项所述数据聚类方法对客户信息描述单元所输出的量化描述的客户信息进行聚类分析，从而得到客户偏好。