CN113159881B

CN113159881B - 一种数据聚类及b2b平台客户偏好获取方法、系统

Info

Publication number: CN113159881B
Application number: CN202110276220.7A
Authority: CN
Inventors: 姜伟
Original assignee: Hangzhou Yunsou Network Technology Co ltd
Current assignee: Hangzhou Yunsou Network Technology Co ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-08-12
Anticipated expiration: 2041-03-15
Also published as: CN113159881A

Abstract

本发明属于数据聚类技术领域，公开了一种数据聚类及B2B平台客户偏好获取方法、系统，数据聚类及B2B平台客户偏好获取系统包括：客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块。本发明通过多平台的客户数据采集、处理、分析确定用户需求，同时基于相关数据进行客户的分类，并结合基于聚类的客户偏好数据获取，进行商品分类推荐，提高了推荐的准确度以及客户体验。同时本发明在进行数据获取时，进行了错误数据的过滤以及处理，提高了数据处理的效率，过滤低质量客户数据，也提高了聚类分析以及偏好获取的准确度。

Description

一种数据聚类及B2B平台客户偏好获取方法、系统

技术领域

本发明属于数据聚类技术领域，尤其涉及一种数据聚类及B2B平台客户偏好获取方法、系统方法。

背景技术

所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组，使一组中的成员彼此相似，而与其他组中的成员不同。它对一个数据对象的集合进行分析，但与分类分析不同的是，所划分的类是未知的，因此，聚类分析也称为无指导或无监督的(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster)，在同一簇中的对象之间具有较高的相似度，而不同簇中的对象差异较大。由于聚类分析的上述特征，在许多应用中，对数据集进行了聚类分析后，可将一个簇中的各数据对象作为一个整体对待。B2B平台是电子商务的一种模式，是英文Business-to-Business的缩写，即商业对商业，或者说是企业间的电子商务，即企业与企业之间通过互联网进行产品、服务及信息的交换。它将企业内部网，通过B2B网站与客户紧密结合起来，通过网络的快速反应，为客户提供更好的服务，从而促进企业的业务发展。然而，现有数据聚类方法及B2B平台客户偏好获取系统对客户细分有经验分类方法和基于统计分析法，一般由决策者根据自己经验对客户进行类别划分，具有很强的主观性，细分的结果不客观，缺少说服力；同时，目前B2B电子商务平台商品信息往往先由卖家根据模板进行提交，再由B2B电子中介服务商的信息编辑人员进行审核校正；由于商品分类目录体系庞杂，无论是对卖家还是电子商务平台信息编辑人员而言，对商品进行分类都是一件有难度的工作。

综上所述，现有技术存在的问题是：现有数据聚类方法及B2B平台客户偏好获取系统对客户细分有经验分类方法和基于统计分析法，一般由决策者根据自己经验对客户进行类别划分，具有很强的主观性，细分的结果不客观，缺少说服力；同时，目前B2B电子商务平台商品信息往往先由卖家根据模板进行提交，再由B2B电子中介服务商的信息编辑人员进行审核校正；由于商品分类目录体系庞杂，无论是对卖家还是电子商务平台信息编辑人员而言，对商品进行分类都是一件有难度的工作。

发明内容

针对现有技术存在的问题，本发明提供了一种数据聚类及B2B平台客户偏好获取方法、系统。

本发明是这样实现的，一种数据聚类及B2B平台客户偏好获取方法，所述数据聚类及B2B平台客户偏好获取方法包括以下步骤：

步骤一，通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他相关信息数据：根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列；中心节点的采集任务队列到达阈值时，启动子节点服务器的信息采集服务，中心节点向子节点分配采集任务并初始化其任务控制组件；子节点进行数据采集，根据任务的账号信息选择对应的B2B平台采集组件进行数据采集；

步骤二，根据任务节点的任务数量和采集速率定期进行节点负载测试，对任务负载比较高的节点将部分采集任务回收到中心节点，再由中心节点动态分配给其他任务节点，进行客户属性、行为、需求及其他相关信息数据的采集；对采集的客户属性、行为、需求及其他相关信息数据进行质量评估，过滤低质量的客户属性、行为、需求及其他相关信息数据，得到高质量的客户属性、行为、需求及其他相关信息数据；

步骤三，主控模块通过客户需求提取模块利用提取程序基于采集的客户属性、行为、需求及其他相关信息数据提取客户需求信息：从采集的客户属性、行为、需求及其他相关信息数据中获取客户需求信息；根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则，并根据提取规则从采集的客户属性、行为、需求及其他相关信息数据中提取位置信息；过滤错误数据以及相同数据，将位置信息与公共字段合并为有效数据，即为最终的客户需求信息；

步骤四，通过客户分类模块利用分类程序根据客户需求对客户进行细化分类；通过聚类分析模块利用聚类算法对客户信息进行聚类分析，得到客户偏好；通过商品分类推荐模块利用分类推荐程序对B2B平台商品进行分类推荐：获取不同来源的原始商品数据；对原始商品数据进行统一化预处理，得到预处理后的商品数据；收集B2B电子商务平台中已处理过的商品数据，形成初始的商品实例数据库，所述商品实例数据库中每一条记录应包括基本的商品编号、商品标题、商品描述信息、商品分类代码；

步骤五，对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理，对应几个分类代码就拆分成几条记录，使每一条记录中每个商品只对应一个分类代码；对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理，形成类目特征词串；采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系；将支持度、置信度达到一定阈值的记录保留，生成商品分类知识库；基于商品分类知识库以及客户需求信息、客户分类结果、客户偏好数据进行B2B平台商品的分类推荐；

步骤六，通过客户评价模块利用评价程序对B2B平台进行客户评价；通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。

进一步，步骤二中，所述对采集的客户数据进行质量评估，过滤低质量客户数据包括：

(1)根据客户简介信息计算用户信息能量，每个特征项赋予不同的信息能量权值，计算整体客户信息能量；

其中，w_k表示不同信息特征项对应的能量权值；f表示与单个特征信息v_k缺失率相关的评估函数，是一个指示函数，其中信息缺失时为0，存在时为1；

(2)根据客户的关系网络信息求得用户关系能量，综合客户双向关系计算用户关系网络的能量：

其中，w_e表示与客户关系相关的权值，客户关系出入度分别为||e_in||和||e_out||，e_in和e_out分别表示客户与关注者和关注的人构成的边的集合；

(3)根据步骤(1)与步骤(2)得到的能量模型，得到客户质量评估值，保留达到能量阈值的客户信息：

E_i(v)+E_e(v)≥_Ethreshold；

其中，E_threshold表示根据部分训练客户数据得到的信息能量阈值。

进一步，步骤三中，所述过滤错误数据以及相同数据包括：

获取错误数据和相同数据信息；对错误数据和相同数据进行识别，并获取错误数据和相同数据的特征文本值；当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时，检测已存储特征文本值是否被标记为已处理；若是，则将特征文本值对应的错误数据和相同数据信息过滤。

进一步，所述通过客户分类模块利用分类程序根据客户需求对客户进行细化分类如下：

(1)获取原始客户数据集，对所述原始客户数据集进行数据缺失值填充及去异常值处理，得到客户数据集；从客户数据集中随机抽样，抽取部分数据作为样本数据；

(2)对抽取的样本数据进行k-means聚类，计算出每个样本数据所属的类别；

(3)将聚类结果作为训练样本，采用神经网络计算出每个属性每一层的权值，并得到一个训练好的神经网络；

(4)将客户数据集输入到训练好的神经网络中，计算出其所属的类别。

进一步，所述神经网络为BP神经网络；所述BP神经网络为3层或大于3层的前馈型BP网络。

进一步，所述部分数据不大于客户数据集的30％；所述部分数据不大于客户数据集的15％。

进一步，所述商品实例数据库处理方法：

2.1)对初始的商品实例数据库中的每条数据进行处理，以通用的分词软件对标题和商品描述信息进行分词、词频统计，构建一个基本的商品品名表，用来对商品标题和描述信息进行抽词，以便更准确地抽取商品品名；将过滤后的结果按照分类代码序化生成分类知识库，包括分类代码和类目特征词串两个字段；

2.2)将所有类别特征词串中的分词进行收集、去重，形成一个商品信息分词词表用于对新商品的分词、抽词处理；分类知识库构建完成后，当有新提交的商品，通过对卖家提供的商品标题和描述信息处理，形成商品特征词串，将商品特征词串与分类知识库中所有记录中的类别特征词串计算相似度来找对最合适的分类代码；

2.3)依据相似度计算公式，将新商品的特征词串与商品分类知识库中每一条记录的类目特征词串进行相似度计算和语义相似度计算；当相似度最大值有多条记录时，将相似度最大的记录集中同一类目出现次数最多的类目信息进行推荐，或者推荐多个分类；

相似度计算的公式如下：

式中，T，S分别表示新商品的特征词串和分类知识库中的每条记录中的类目特征词串；α表示两词串中含有相同单词的个数对语义相似度的影响权重；β表示相同元素在词串中的位置关系影响权重；γ表示位置系数，γ＝Min(Num(T)/Num(S)，Num(S)/Num(T))；Match(T，S)表示两个词串中含有相同单词的个数；Num(T)、Num(S)：分别表示词串T，S中所含单词总数；

分别表示相同单词在T、S中各自频次、位置加权之和。

本发明的另一目的在于提供一种实施所述数据聚类及B2B平台客户偏好获取方法的数据聚类系统及B2B平台客户偏好获取系统，所述数据聚类及B2B平台客户偏好获取系统包括：

客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块。

客户信息采集模块，与主控模块连接，用于采集B2B平台客户属性、行为、需求等信息数据；

主控模块，与客户信息采集模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块连接，用于控制各个模块正常工作；

客户需求提取模块，与主控模块连接，用于通过提取程序提取客户需求信息；

客户分类模块，与主控模块连接，用于通过分类程序根据客户需求对客户进行细化分类；

聚类分析模块，与主控模块连接，用于通过聚类算法对客户信息进行聚类分析，从而得到客户偏好；

商品分类推荐模块，与主控模块连接，用于通过分类推荐程序对B2B平台商品进行分类推荐；

客户评价模块，与主控模块连接，用于通过评价程序对B2B平台进行客户评价；

显示模块，与主控模块连接，用于通过显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述数据聚类及B2B平台客户偏好获取方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述数据聚类及B2B平台客户偏好获取方法。

本发明的优点及积极效果为：本发明通过多平台的客户数据采集、处理、分析确定用户需求，同时基于相关数据进行客户的分类，并结合基于聚类的客户偏好数据获取，进行商品分类推荐，提高了推荐的准确度以及客户体验。同时本发明在进行数据获取时，进行了错误数据的过滤以及处理，提高了数据处理的效率，过滤低质量客户数据，也提高了聚类分析以及偏好获取的准确度。

本发明通过客户分类模块随机抽取总体数据中的少数样本，这样在样本中抽取到孤立点的概率就很低，可以忽略不计，提高了聚类的正确率；采用BP神经网络计算出每个属性的权值，避免了每个属性对结果影响一样，聚类效果更切合客户细分的实际需求；同时，通过商品分类推荐模块对B2B电子商务平台中已有的商品分类信息进行处理，生成商品分类知识库，将卖家新提交的商品标题和描述信息进行抽取和表征，将表征结果与商品分类知识库中的记录进行相似度计算，找出最相似的记录，将其对应的分类信息推荐给卖家。本发明通过利用已有商品分类信息来实现新提交商品的自动分类，降低卖家提交商品信息时的分类负担，提高商品分类的准确性。

附图说明

图1是本发明实施例提供的数据聚类及B2B平台客户偏好获取方法流程图。

图2是本发明实施例提供的数据聚类方法及B2B平台客户偏好获取系统结构框图；

图中：1、客户信息采集模块；2、主控模块；3、客户需求提取模块；4、客户分类模块；5、聚类分析模块；6、商品分类推荐模块；7、客户评价模块；8、显示模块。

图3是本发明实施例提供的客户分类方法流程图。

图4是本发明实施例提供的商品分类推荐方法流程图。

图5是本发明实施例提供的商品实例数据库处理方法流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示，本发明实施例提供的数据聚类及B2B平台客户偏好获取方法包括以下步骤：

S101，通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他信息数据；

S102，主控模块通过客户需求提取模块利用提取程序提取客户需求信息；

S103，通过客户分类模块利用分类程序根据客户需求对客户进行细化分类；通过聚类分析模块利用聚类算法对客户信息进行聚类分析，得到客户偏好；

S104，通过商品分类推荐模块利用分类推荐程序基于客户需求信息、客户分类以及偏好数据对B2B平台商品进行分类推荐；通过客户评价模块利用评价程序对B2B平台进行客户评价；

S105，通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。

如图2所示，本发明实施例提供的数据聚类方法及B2B平台客户偏好获取系统包括：客户信息采集模块1、主控模块2、客户需求提取模块3、客户分类模块4、聚类分析模块5、商品分类推荐模块6、客户评价模块7、显示模块8。

客户信息采集模块1，与主控模块2连接，用于采集B2B平台客户属性、行为、需求等信息数据；

主控模块2，与客户信息采集模块1、客户需求提取模块3、客户分类模块4、聚类分析模块5、商品分类推荐模块6、客户评价模块7、显示模块8连接，用于控制各个模块正常工作；

客户需求提取模块3，与主控模块2连接，用于通过提取程序提取客户需求信息；

客户分类模块4，与主控模块2连接，用于通过分类程序根据客户需求对客户进行细化分类；

聚类分析模块5，与主控模块2连接，用于通过聚类算法对客户信息进行聚类分析，从而得到客户偏好；

商品分类推荐模块6，与主控模块2连接，用于通过分类推荐程序对B2B平台商品进行分类推荐；

客户评价模块7，与主控模块2连接，用于通过评价程序对B2B平台进行客户评价；

显示模块8，与主控模块2连接，用于通过显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1

本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示，作为优选实施例，本发明实施例提供的通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他信息数据包括：

根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列；中心节点的采集任务队列到达阈值时，启动子节点服务器的信息采集服务，中心节点向子节点分配采集任务并初始化其任务控制组件；子节点进行数据采集，根据任务的账号信息选择对应的B2B平台采集组件进行数据采集；根据任务节点的任务数量和采集速率定期进行节点负载测试，对任务负载比较高的节点将部分采集任务回收到中心节点，再由中心节点动态分配给其他任务节点，进行客户属性、行为、需求及其他相关信息数据的采集；对采集的客户属性、行为、需求及其他相关信息数据进行质量评估，过滤低质量的客户属性、行为、需求及其他相关信息数据，得到高质量的客户属性、行为、需求及其他相关信息数据。

本发明实施例提供的对采集的客户数据进行质量评估，过滤低质量客户数据包括：

E_i(v)+E_e(v)≥_Ethreshold；

实施例2

本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示，作为优选实施例，本发明实施例提供的主控模块通过客户需求提取模块利用提取程序提取客户需求信息包括：

从采集的客户属性、行为、需求及其他相关信息数据中获取客户需求信息；根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则，并根据提取规则从采集的客户属性、行为、需求及其他相关信息数据中提取位置信息；过滤错误数据以及相同数据，将位置信息与公共字段合并为有效数据，即为最终的客户需求信息。

本发明实施例提供的过滤错误数据以及相同数据包括：

实施例3

本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示，作为优选实施例，如图3所示，本发明实施例提供的通过客户分类模块通过分类程序根据客户需求对客户进行细化分类包括：

S201，获取原始客户数据集，对所述原始客户数据集进行数据缺失值填充及去异常值处理，得到客户数据集；从客户数据集中随机抽样，抽取部分数据作为样本数据；

S202，对抽取的样本数据进行k-means聚类，计算出每个样本数据所属的类别；

S203，将聚类结果作为训练样本，采用神经网络计算出每个属性每一层的权值，并得到一个训练好的神经网络；

S204，将客户数据集输入到训练好的神经网络中，计算出其所属的类别。

本发明实施例提供的神经网络为BP神经网络；所述BP神经网络为3层或大于3层的前馈型BP网络。

本发明实施例提供的部分数据不大于客户数据集的30％；所述部分数据不大于客户数据集的15％。

实施例4

本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示，作为优选实施例，如图4所示，本发明实施例提供的商品分类推荐模块通过分类推荐程序对B2B平台商品进行分类推荐包括：

S301，获取不同来源的原始商品数据；对原始商品数据进行统一化预处理，得到预处理后的商品数据；收集B2B电子商务平台中已处理过的商品数据，形成初始的商品实例数据库，该数据库中每一条记录应包括基本的商品编号、商品标题、商品描述信息、商品分类代码；

S302，对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理，对应几个分类代码就拆分成几条记录，使每一条记录中每个商品只对应一个分类代码；对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理，形成类目特征词串；

S303，采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系；将支持度、置信度达到一定阈值的记录保留，生成商品分类知识库。

如图5所示，本发明实施例提供的商品实例数据库处理方法：

S401，对初始的商品实例数据库中的每条数据进行处理，以通用的分词软件对标题和商品描述信息进行分词、词频统计，构建一个基本的商品品名表，用来对商品标题和描述信息进行抽词，以便更准确地抽取商品品名；将过滤后的结果按照分类代码序化生成分类知识库，包括分类代码和类目特征词串两个字段；

S402，将所有类别特征词串中的分词进行收集、去重，形成一个商品信息分词词表用于对新商品的分词、抽词处理；分类知识库构建完成后，当有新提交的商品，通过对卖家提供的商品标题和描述信息处理，形成商品特征词串，将商品特征词串与分类知识库中所有记录中的类别特征词串计算相似度来找对最合适的分类代码；

S403，依据相似度计算公式，将新商品的特征词串与商品分类知识库中每一条记录的类目特征词串进行相似度计算和语义相似度计算；当相似度最大值有多条记录时，将相似度最大的记录集中同一类目出现次数最多的类目信息进行推荐，或者推荐多个分类；

相似度计算的公式如下：

式中，T，S分别表示新商品的特征词串和分类知识库中的每条记录中的类目特征词串；α：两词串中含有相同单词的个数对语义相似度的影响权重，在B2B电子商务平台系统中设为0.6；β：相同元素在词串中的位置关系影响权重，在B2B电子商务平台系统中是设为0.4；γ：位置系数，γ＝Min(Num(T)/Num(S)，Num(S)/Num(T))；Match(T，S)：表示两个词串中含有相同单词的个数；Num(T)、Num(S)：分别表示词串T，S中所含单词总数；

分别表示相同单词在T、S中各自频次、位置加权之和。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种数据聚类及B2B平台客户偏好获取方法，其特征在于，所述数据聚类及B2B平台客户偏好获取方法包括：

步骤一，通过客户信息采集模块采集B2B平台客户属性、行为、需求数据：根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列；中心节点的采集任务队列到达阈值时，启动子节点服务器的信息采集服务，中心节点向子节点分配采集任务并初始化其任务控制组件；子节点进行数据采集，根据任务的账号信息选择对应的B2B平台采集组件进行数据采集；

步骤二，根据任务节点的任务数量和采集速率定期进行节点负载测试，对任务负载比较高的节点将部分采集任务回收到中心节点，再由中心节点动态分配给其他任务节点，进行客户属性、行为、需求数据的采集；对采集的客户属性、行为、需求数据进行质量评估，过滤低质量的客户属性、行为、需求数据，得到高质量的客户属性、行为、需求数据；

步骤三，主控模块通过客户需求提取模块利用提取程序基于采集的客户属性、行为、需求数据提取客户需求信息：从采集的客户属性、行为、需求数据中获取客户需求信息；根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则，并根据提取规则从采集的客户属性、行为、需求数据中提取位置信息；过滤错误数据以及相同数据，将位置信息与公共字段合并为有效数据，即为最终的客户需求信息；

步骤四，通过客户分类模块利用分类程序根据客户需求对客户进行细化分类；通过聚类分析模块利用聚类算法对客户信息进行聚类分析，得到客户偏好；通过商品分类推荐模块利用分类推荐程序对B2B平台商品进行分类推荐：获取不同来源的原始商品数据；对原始商品数据进行统一化预处理，得到预处理后的商品数据；收集B2B电子商务平台中已处理过的商品数据，形成初始的商品实例数据库，所述商品实例数据库中每一条记录应包括商品编号、商品标题、商品描述信息、商品分类代码；

2.如权利要求1所述数据聚类及B2B平台客户偏好获取方法，其特征在于，步骤二中，所述对采集的客户数据进行质量评估，过滤低质量客户数据包括：

其中，We表示与客户关系相关的权值，客户关系出入度分别为||e_in||和||e_out||，e_in和e_out分别表示客户与关注者和关注的人构成的边的集合；

E_i(v)+E_e(v)≥_Ethreshold；

3.如权利要求1所述数据聚类及B2B平台客户偏好获取方法，其特征在于，步骤三中，所述过滤错误数据以及相同数据包括：

4.如权利要求1所述数据聚类及B2B平台客户偏好获取方法，其特征在于，所述通过客户分类模块利用分类程序根据客户需求对客户进行细化分类包括：

5.如权利要求4所述数据聚类及B2B平台客户偏好获取方法，其特征在于，所述神经网络为BP神经网络；所述BP神经网络为3层或大于3层的前馈型BP网络。

6.如权利要求4所述数据聚类及B2B平台客户偏好获取方法，其特征在于，所述部分数据不大于客户数据集的30％。

7.如权利要求1所述数据聚类及B2B平台客户偏好获取方法，其特征在于，所述商品实例数据库处理方法包括：

2.1)对初始的商品实例数据库中的每条数据进行处理，以通用的分词软件对标题和商品描述信息进行分词、词频统计，构建一个商品品名表，用来对商品标题和描述信息进行抽词，以便更准确地抽取商品品名；将过滤后的结果按照分类代码序化生成分类知识库，包括分类代码和类目特征词串两个字段；

相似度计算的公式如下：

分别表示相同单词在T、S中各自频次、位置加权之和。

8.一种实施如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法的数据聚类及B2B平台客户偏好获取系统，其特征在于，所述数据聚类及B2B平台客户偏好获取系统包括：

客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块；

客户信息采集模块，与主控模块连接，用于采集B2B平台客户属性、行为、需求数据；

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法。

10.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法。