CN113159881B - 一种数据聚类及b2b平台客户偏好获取方法、系统 - Google Patents
一种数据聚类及b2b平台客户偏好获取方法、系统 Download PDFInfo
- Publication number
- CN113159881B CN113159881B CN202110276220.7A CN202110276220A CN113159881B CN 113159881 B CN113159881 B CN 113159881B CN 202110276220 A CN202110276220 A CN 202110276220A CN 113159881 B CN113159881 B CN 113159881B
- Authority
- CN
- China
- Prior art keywords
- data
- client
- customer
- information
- commodity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000007621 cluster analysis Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000013441 quality evaluation Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W90/00—Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于数据聚类技术领域,公开了一种数据聚类及B2B平台客户偏好获取方法、系统,数据聚类及B2B平台客户偏好获取系统包括:客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块。本发明通过多平台的客户数据采集、处理、分析确定用户需求,同时基于相关数据进行客户的分类,并结合基于聚类的客户偏好数据获取,进行商品分类推荐,提高了推荐的准确度以及客户体验。同时本发明在进行数据获取时,进行了错误数据的过滤以及处理,提高了数据处理的效率,过滤低质量客户数据,也提高了聚类分析以及偏好获取的准确度。
Description
技术领域
本发明属于数据聚类技术领域,尤其涉及一种数据聚类及B2B平台客户偏好获取方法、系统方法。
背景技术
所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督的(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。B2B平台是电子商务的一种模式,是英文Business-to-Business的缩写,即商业对商业,或者说是企业间的电子商务,即企业与企业之间通过互联网进行产品、服务及信息的交换。它将企业内部网,通过B2B网站与客户紧密结合起来,通过网络的快速反应,为客户提供更好的服务,从而促进企业的业务发展。然而,现有数据聚类方法及B2B平台客户偏好获取系统对客户细分有经验分类方法和基于统计分析法,一般由决策者根据自己经验对客户进行类别划分,具有很强的主观性,细分的结果不客观,缺少说服力;同时,目前B2B电子商务平台商品信息往往先由卖家根据模板进行提交,再由B2B电子中介服务商的信息编辑人员进行审核校正;由于商品分类目录体系庞杂,无论是对卖家还是电子商务平台信息编辑人员而言,对商品进行分类都是一件有难度的工作。
综上所述,现有技术存在的问题是:现有数据聚类方法及B2B平台客户偏好获取系统对客户细分有经验分类方法和基于统计分析法,一般由决策者根据自己经验对客户进行类别划分,具有很强的主观性,细分的结果不客观,缺少说服力;同时,目前B2B电子商务平台商品信息往往先由卖家根据模板进行提交,再由B2B电子中介服务商的信息编辑人员进行审核校正;由于商品分类目录体系庞杂,无论是对卖家还是电子商务平台信息编辑人员而言,对商品进行分类都是一件有难度的工作。
发明内容
针对现有技术存在的问题,本发明提供了一种数据聚类及B2B平台客户偏好获取方法、系统。
本发明是这样实现的,一种数据聚类及B2B平台客户偏好获取方法,所述数据聚类及B2B平台客户偏好获取方法包括以下步骤:
步骤一,通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他相关信息数据:根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列;中心节点的采集任务队列到达阈值时,启动子节点服务器的信息采集服务,中心节点向子节点分配采集任务并初始化其任务控制组件;子节点进行数据采集,根据任务的账号信息选择对应的B2B平台采集组件进行数据采集;
步骤二,根据任务节点的任务数量和采集速率定期进行节点负载测试,对任务负载比较高的节点将部分采集任务回收到中心节点,再由中心节点动态分配给其他任务节点,进行客户属性、行为、需求及其他相关信息数据的采集;对采集的客户属性、行为、需求及其他相关信息数据进行质量评估,过滤低质量的客户属性、行为、需求及其他相关信息数据,得到高质量的客户属性、行为、需求及其他相关信息数据;
步骤三,主控模块通过客户需求提取模块利用提取程序基于采集的客户属性、行为、需求及其他相关信息数据提取客户需求信息:从采集的客户属性、行为、需求及其他相关信息数据中获取客户需求信息;根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则,并根据提取规则从采集的客户属性、行为、需求及其他相关信息数据中提取位置信息;过滤错误数据以及相同数据,将位置信息与公共字段合并为有效数据,即为最终的客户需求信息;
步骤四,通过客户分类模块利用分类程序根据客户需求对客户进行细化分类;通过聚类分析模块利用聚类算法对客户信息进行聚类分析,得到客户偏好;通过商品分类推荐模块利用分类推荐程序对B2B平台商品进行分类推荐:获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;收集B2B电子商务平台中已处理过的商品数据,形成初始的商品实例数据库,所述商品实例数据库中每一条记录应包括基本的商品编号、商品标题、商品描述信息、商品分类代码;
步骤五,对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理,对应几个分类代码就拆分成几条记录,使每一条记录中每个商品只对应一个分类代码;对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理,形成类目特征词串;采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系;将支持度、置信度达到一定阈值的记录保留,生成商品分类知识库;基于商品分类知识库以及客户需求信息、客户分类结果、客户偏好数据进行B2B平台商品的分类推荐;
步骤六,通过客户评价模块利用评价程序对B2B平台进行客户评价;通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
进一步,步骤二中,所述对采集的客户数据进行质量评估,过滤低质量客户数据包括:
(1)根据客户简介信息计算用户信息能量,每个特征项赋予不同的信息能量权值,计算整体客户信息能量;
其中,wk表示不同信息特征项对应的能量权值;f表示与单个特征信息vk缺失率相关的评估函数,是一个指示函数,其中信息缺失时为0,存在时为1;
(2)根据客户的关系网络信息求得用户关系能量,综合客户双向关系计算用户关系网络的能量:
其中,we表示与客户关系相关的权值,客户关系出入度分别为||ein||和||eout||,ein和eout分别表示客户与关注者和关注的人构成的边的集合;
(3)根据步骤(1)与步骤(2)得到的能量模型,得到客户质量评估值,保留达到能量阈值的客户信息:
Ei(v)+Ee(v)≥Ethreshold;
其中,Ethreshold表示根据部分训练客户数据得到的信息能量阈值。
进一步,步骤三中,所述过滤错误数据以及相同数据包括:
获取错误数据和相同数据信息;对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;若是,则将特征文本值对应的错误数据和相同数据信息过滤。
进一步,所述通过客户分类模块利用分类程序根据客户需求对客户进行细化分类如下:
(1)获取原始客户数据集,对所述原始客户数据集进行数据缺失值填充及去异常值处理,得到客户数据集;从客户数据集中随机抽样,抽取部分数据作为样本数据;
(2)对抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;
(3)将聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;
(4)将客户数据集输入到训练好的神经网络中,计算出其所属的类别。
进一步,所述神经网络为BP神经网络;所述BP神经网络为3层或大于3层的前馈型BP网络。
进一步,所述部分数据不大于客户数据集的30%;所述部分数据不大于客户数据集的15%。
进一步,所述商品实例数据库处理方法:
2.1)对初始的商品实例数据库中的每条数据进行处理,以通用的分词软件对标题和商品描述信息进行分词、词频统计,构建一个基本的商品品名表,用来对商品标题和描述信息进行抽词,以便更准确地抽取商品品名;将过滤后的结果按照分类代码序化生成分类知识库,包括分类代码和类目特征词串两个字段;
2.2)将所有类别特征词串中的分词进行收集、去重,形成一个商品信息分词词表用于对新商品的分词、抽词处理;分类知识库构建完成后,当有新提交的商品,通过对卖家提供的商品标题和描述信息处理,形成商品特征词串,将商品特征词串与分类知识库中所有记录中的类别特征词串计算相似度来找对最合适的分类代码;
2.3)依据相似度计算公式,将新商品的特征词串与商品分类知识库中每一条记录的类目特征词串进行相似度计算和语义相似度计算;当相似度最大值有多条记录时,将相似度最大的记录集中同一类目出现次数最多的类目信息进行推荐,或者推荐多个分类;
相似度计算的公式如下:
式中,T,S分别表示新商品的特征词串和分类知识库中的每条记录中的类目特征词串;α表示两词串中含有相同单词的个数对语义相似度的影响权重;β表示相同元素在词串中的位置关系影响权重;γ表示位置系数,γ=Min(Num(T)/Num(S),Num(S)/Num(T));Match(T,S)表示两个词串中含有相同单词的个数;Num(T)、Num(S):分别表示词串T,S中所含单词总数;分别表示相同单词在T、S中各自频次、位置加权之和。
本发明的另一目的在于提供一种实施所述数据聚类及B2B平台客户偏好获取方法的数据聚类系统及B2B平台客户偏好获取系统,所述数据聚类及B2B平台客户偏好获取系统包括:
客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块。
客户信息采集模块,与主控模块连接,用于采集B2B平台客户属性、行为、需求等信息数据;
主控模块,与客户信息采集模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块连接,用于控制各个模块正常工作;
客户需求提取模块,与主控模块连接,用于通过提取程序提取客户需求信息;
客户分类模块,与主控模块连接,用于通过分类程序根据客户需求对客户进行细化分类;
聚类分析模块,与主控模块连接,用于通过聚类算法对客户信息进行聚类分析,从而得到客户偏好;
商品分类推荐模块,与主控模块连接,用于通过分类推荐程序对B2B平台商品进行分类推荐;
客户评价模块,与主控模块连接,用于通过评价程序对B2B平台进行客户评价;
显示模块,与主控模块连接,用于通过显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述数据聚类及B2B平台客户偏好获取方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述数据聚类及B2B平台客户偏好获取方法。
本发明的优点及积极效果为:本发明通过多平台的客户数据采集、处理、分析确定用户需求,同时基于相关数据进行客户的分类,并结合基于聚类的客户偏好数据获取,进行商品分类推荐,提高了推荐的准确度以及客户体验。同时本发明在进行数据获取时,进行了错误数据的过滤以及处理,提高了数据处理的效率,过滤低质量客户数据,也提高了聚类分析以及偏好获取的准确度。
本发明通过客户分类模块随机抽取总体数据中的少数样本,这样在样本中抽取到孤立点的概率就很低,可以忽略不计,提高了聚类的正确率;采用BP神经网络计算出每个属性的权值,避免了每个属性对结果影响一样,聚类效果更切合客户细分的实际需求;同时,通过商品分类推荐模块对B2B电子商务平台中已有的商品分类信息进行处理,生成商品分类知识库,将卖家新提交的商品标题和描述信息进行抽取和表征,将表征结果与商品分类知识库中的记录进行相似度计算,找出最相似的记录,将其对应的分类信息推荐给卖家。本发明通过利用已有商品分类信息来实现新提交商品的自动分类,降低卖家提交商品信息时的分类负担,提高商品分类的准确性。
附图说明
图1是本发明实施例提供的数据聚类及B2B平台客户偏好获取方法流程图。
图2是本发明实施例提供的数据聚类方法及B2B平台客户偏好获取系统结构框图;
图中:1、客户信息采集模块;2、主控模块;3、客户需求提取模块;4、客户分类模块;5、聚类分析模块;6、商品分类推荐模块;7、客户评价模块;8、显示模块。
图3是本发明实施例提供的客户分类方法流程图。
图4是本发明实施例提供的商品分类推荐方法流程图。
图5是本发明实施例提供的商品实例数据库处理方法流程图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图对本发明的结构作详细的描述。
如图1所示,本发明实施例提供的数据聚类及B2B平台客户偏好获取方法包括以下步骤:
S101,通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他信息数据;
S102,主控模块通过客户需求提取模块利用提取程序提取客户需求信息;
S103,通过客户分类模块利用分类程序根据客户需求对客户进行细化分类;通过聚类分析模块利用聚类算法对客户信息进行聚类分析,得到客户偏好;
S104,通过商品分类推荐模块利用分类推荐程序基于客户需求信息、客户分类以及偏好数据对B2B平台商品进行分类推荐;通过客户评价模块利用评价程序对B2B平台进行客户评价;
S105,通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
如图2所示,本发明实施例提供的数据聚类方法及B2B平台客户偏好获取系统包括:客户信息采集模块1、主控模块2、客户需求提取模块3、客户分类模块4、聚类分析模块5、商品分类推荐模块6、客户评价模块7、显示模块8。
客户信息采集模块1,与主控模块2连接,用于采集B2B平台客户属性、行为、需求等信息数据;
主控模块2,与客户信息采集模块1、客户需求提取模块3、客户分类模块4、聚类分析模块5、商品分类推荐模块6、客户评价模块7、显示模块8连接,用于控制各个模块正常工作;
客户需求提取模块3,与主控模块2连接,用于通过提取程序提取客户需求信息;
客户分类模块4,与主控模块2连接,用于通过分类程序根据客户需求对客户进行细化分类;
聚类分析模块5,与主控模块2连接,用于通过聚类算法对客户信息进行聚类分析,从而得到客户偏好;
商品分类推荐模块6,与主控模块2连接,用于通过分类推荐程序对B2B平台商品进行分类推荐;
客户评价模块7,与主控模块2连接,用于通过评价程序对B2B平台进行客户评价;
显示模块8,与主控模块2连接,用于通过显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1
本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示,作为优选实施例,本发明实施例提供的通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他信息数据包括:
根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列;中心节点的采集任务队列到达阈值时,启动子节点服务器的信息采集服务,中心节点向子节点分配采集任务并初始化其任务控制组件;子节点进行数据采集,根据任务的账号信息选择对应的B2B平台采集组件进行数据采集;根据任务节点的任务数量和采集速率定期进行节点负载测试,对任务负载比较高的节点将部分采集任务回收到中心节点,再由中心节点动态分配给其他任务节点,进行客户属性、行为、需求及其他相关信息数据的采集;对采集的客户属性、行为、需求及其他相关信息数据进行质量评估,过滤低质量的客户属性、行为、需求及其他相关信息数据,得到高质量的客户属性、行为、需求及其他相关信息数据。
本发明实施例提供的对采集的客户数据进行质量评估,过滤低质量客户数据包括:
(1)根据客户简介信息计算用户信息能量,每个特征项赋予不同的信息能量权值,计算整体客户信息能量;
其中,wk表示不同信息特征项对应的能量权值;f表示与单个特征信息vk缺失率相关的评估函数,是一个指示函数,其中信息缺失时为0,存在时为1;
(2)根据客户的关系网络信息求得用户关系能量,综合客户双向关系计算用户关系网络的能量:
其中,we表示与客户关系相关的权值,客户关系出入度分别为||ein||和||eout||,ein和eout分别表示客户与关注者和关注的人构成的边的集合;
(3)根据步骤(1)与步骤(2)得到的能量模型,得到客户质量评估值,保留达到能量阈值的客户信息:
Ei(v)+Ee(v)≥Ethreshold;
其中,Ethreshold表示根据部分训练客户数据得到的信息能量阈值。
实施例2
本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示,作为优选实施例,本发明实施例提供的主控模块通过客户需求提取模块利用提取程序提取客户需求信息包括:
从采集的客户属性、行为、需求及其他相关信息数据中获取客户需求信息;根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则,并根据提取规则从采集的客户属性、行为、需求及其他相关信息数据中提取位置信息;过滤错误数据以及相同数据,将位置信息与公共字段合并为有效数据,即为最终的客户需求信息。
本发明实施例提供的过滤错误数据以及相同数据包括:
获取错误数据和相同数据信息;对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;若是,则将特征文本值对应的错误数据和相同数据信息过滤。
实施例3
本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示,作为优选实施例,如图3所示,本发明实施例提供的通过客户分类模块通过分类程序根据客户需求对客户进行细化分类包括:
S201,获取原始客户数据集,对所述原始客户数据集进行数据缺失值填充及去异常值处理,得到客户数据集;从客户数据集中随机抽样,抽取部分数据作为样本数据;
S202,对抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;
S203,将聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;
S204,将客户数据集输入到训练好的神经网络中,计算出其所属的类别。
本发明实施例提供的神经网络为BP神经网络;所述BP神经网络为3层或大于3层的前馈型BP网络。
本发明实施例提供的部分数据不大于客户数据集的30%;所述部分数据不大于客户数据集的15%。
实施例4
本发明实施例提供的数据聚类及B2B平台客户偏好获取方法如图1所示,作为优选实施例,如图4所示,本发明实施例提供的商品分类推荐模块通过分类推荐程序对B2B平台商品进行分类推荐包括:
S301,获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;收集B2B电子商务平台中已处理过的商品数据,形成初始的商品实例数据库,该数据库中每一条记录应包括基本的商品编号、商品标题、商品描述信息、商品分类代码;
S302,对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理,对应几个分类代码就拆分成几条记录,使每一条记录中每个商品只对应一个分类代码;对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理,形成类目特征词串;
S303,采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系;将支持度、置信度达到一定阈值的记录保留,生成商品分类知识库。
如图5所示,本发明实施例提供的商品实例数据库处理方法:
S401,对初始的商品实例数据库中的每条数据进行处理,以通用的分词软件对标题和商品描述信息进行分词、词频统计,构建一个基本的商品品名表,用来对商品标题和描述信息进行抽词,以便更准确地抽取商品品名;将过滤后的结果按照分类代码序化生成分类知识库,包括分类代码和类目特征词串两个字段;
S402,将所有类别特征词串中的分词进行收集、去重,形成一个商品信息分词词表用于对新商品的分词、抽词处理;分类知识库构建完成后,当有新提交的商品,通过对卖家提供的商品标题和描述信息处理,形成商品特征词串,将商品特征词串与分类知识库中所有记录中的类别特征词串计算相似度来找对最合适的分类代码;
S403,依据相似度计算公式,将新商品的特征词串与商品分类知识库中每一条记录的类目特征词串进行相似度计算和语义相似度计算;当相似度最大值有多条记录时,将相似度最大的记录集中同一类目出现次数最多的类目信息进行推荐,或者推荐多个分类;
相似度计算的公式如下:
式中,T,S分别表示新商品的特征词串和分类知识库中的每条记录中的类目特征词串;α:两词串中含有相同单词的个数对语义相似度的影响权重,在B2B电子商务平台系统中设为0.6;β:相同元素在词串中的位置关系影响权重,在B2B电子商务平台系统中是设为0.4;γ:位置系数,γ=Min(Num(T)/Num(S),Num(S)/Num(T));Match(T,S):表示两个词串中含有相同单词的个数;Num(T)、Num(S):分别表示词串T,S中所含单词总数;分别表示相同单词在T、S中各自频次、位置加权之和。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (10)
1.一种数据聚类及B2B平台客户偏好获取方法,其特征在于,所述数据聚类及B2B平台客户偏好获取方法包括:
步骤一,通过客户信息采集模块采集B2B平台客户属性、行为、需求数据:根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列;中心节点的采集任务队列到达阈值时,启动子节点服务器的信息采集服务,中心节点向子节点分配采集任务并初始化其任务控制组件;子节点进行数据采集,根据任务的账号信息选择对应的B2B平台采集组件进行数据采集;
步骤二,根据任务节点的任务数量和采集速率定期进行节点负载测试,对任务负载比较高的节点将部分采集任务回收到中心节点,再由中心节点动态分配给其他任务节点,进行客户属性、行为、需求数据的采集;对采集的客户属性、行为、需求数据进行质量评估,过滤低质量的客户属性、行为、需求数据,得到高质量的客户属性、行为、需求数据;
步骤三,主控模块通过客户需求提取模块利用提取程序基于采集的客户属性、行为、需求数据提取客户需求信息:从采集的客户属性、行为、需求数据中获取客户需求信息;根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则,并根据提取规则从采集的客户属性、行为、需求数据中提取位置信息;过滤错误数据以及相同数据,将位置信息与公共字段合并为有效数据,即为最终的客户需求信息;
步骤四,通过客户分类模块利用分类程序根据客户需求对客户进行细化分类;通过聚类分析模块利用聚类算法对客户信息进行聚类分析,得到客户偏好;通过商品分类推荐模块利用分类推荐程序对B2B平台商品进行分类推荐:获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;收集B2B电子商务平台中已处理过的商品数据,形成初始的商品实例数据库,所述商品实例数据库中每一条记录应包括商品编号、商品标题、商品描述信息、商品分类代码;
步骤五,对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理,对应几个分类代码就拆分成几条记录,使每一条记录中每个商品只对应一个分类代码;对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理,形成类目特征词串;采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系;将支持度、置信度达到一定阈值的记录保留,生成商品分类知识库;基于商品分类知识库以及客户需求信息、客户分类结果、客户偏好数据进行B2B平台商品的分类推荐;
步骤六,通过客户评价模块利用评价程序对B2B平台进行客户评价;通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
2.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,步骤二中,所述对采集的客户数据进行质量评估,过滤低质量客户数据包括:
(1)根据客户简介信息计算用户信息能量,每个特征项赋予不同的信息能量权值,计算整体客户信息能量;
其中,wk表示不同信息特征项对应的能量权值;f表示与单个特征信息vk缺失率相关的评估函数,是一个指示函数,其中信息缺失时为0,存在时为1;
(2)根据客户的关系网络信息求得用户关系能量,综合客户双向关系计算用户关系网络的能量:
其中,We表示与客户关系相关的权值,客户关系出入度分别为||ein||和||eout||,ein和eout分别表示客户与关注者和关注的人构成的边的集合;
(3)根据步骤(1)与步骤(2)得到的能量模型,得到客户质量评估值,保留达到能量阈值的客户信息:
Ei(v)+Ee(v)≥Ethreshold;
其中,Ethreshold表示根据部分训练客户数据得到的信息能量阈值。
3.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,步骤三中,所述过滤错误数据以及相同数据包括:
获取错误数据和相同数据信息;对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;若是,则将特征文本值对应的错误数据和相同数据信息过滤。
4.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,所述通过客户分类模块利用分类程序根据客户需求对客户进行细化分类包括:
(1)获取原始客户数据集,对所述原始客户数据集进行数据缺失值填充及去异常值处理,得到客户数据集;从客户数据集中随机抽样,抽取部分数据作为样本数据;
(2)对抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;
(3)将聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;
(4)将客户数据集输入到训练好的神经网络中,计算出其所属的类别。
5.如权利要求4所述数据聚类及B2B平台客户偏好获取方法,其特征在于,所述神经网络为BP神经网络;所述BP神经网络为3层或大于3层的前馈型BP网络。
6.如权利要求4所述数据聚类及B2B平台客户偏好获取方法,其特征在于,所述部分数据不大于客户数据集的30%。
7.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,所述商品实例数据库处理方法包括:
2.1)对初始的商品实例数据库中的每条数据进行处理,以通用的分词软件对标题和商品描述信息进行分词、词频统计,构建一个商品品名表,用来对商品标题和描述信息进行抽词,以便更准确地抽取商品品名;将过滤后的结果按照分类代码序化生成分类知识库,包括分类代码和类目特征词串两个字段;
2.2)将所有类别特征词串中的分词进行收集、去重,形成一个商品信息分词词表用于对新商品的分词、抽词处理;分类知识库构建完成后,当有新提交的商品,通过对卖家提供的商品标题和描述信息处理,形成商品特征词串,将商品特征词串与分类知识库中所有记录中的类别特征词串计算相似度来找对最合适的分类代码;
2.3)依据相似度计算公式,将新商品的特征词串与商品分类知识库中每一条记录的类目特征词串进行相似度计算和语义相似度计算;当相似度最大值有多条记录时,将相似度最大的记录集中同一类目出现次数最多的类目信息进行推荐,或者推荐多个分类;
相似度计算的公式如下:
式中,T,S分别表示新商品的特征词串和分类知识库中的每条记录中的类目特征词串;α表示两词串中含有相同单词的个数对语义相似度的影响权重;β表示相同元素在词串中的位置关系影响权重;γ表示位置系数,γ=Min(Num(T)/Num(S),Num(S)/Num(T));Match(T,S)表示两个词串中含有相同单词的个数;Num(T)、Num(S):分别表示词串T,S中所含单词总数;
8.一种实施如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法的数据聚类及B2B平台客户偏好获取系统,其特征在于,所述数据聚类及B2B平台客户偏好获取系统包括:
客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块;
客户信息采集模块,与主控模块连接,用于采集B2B平台客户属性、行为、需求数据;
主控模块,与客户信息采集模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块连接,用于控制各个模块正常工作;
客户需求提取模块,与主控模块连接,用于通过提取程序提取客户需求信息;
客户分类模块,与主控模块连接,用于通过分类程序根据客户需求对客户进行细化分类;
聚类分析模块,与主控模块连接,用于通过聚类算法对客户信息进行聚类分析,从而得到客户偏好;
商品分类推荐模块,与主控模块连接,用于通过分类推荐程序对B2B平台商品进行分类推荐;
客户评价模块,与主控模块连接,用于通过评价程序对B2B平台进行客户评价;
显示模块,与主控模块连接,用于通过显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7任意一项所述数据聚类及B2B平台客户偏好获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276220.7A CN113159881B (zh) | 2021-03-15 | 2021-03-15 | 一种数据聚类及b2b平台客户偏好获取方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276220.7A CN113159881B (zh) | 2021-03-15 | 2021-03-15 | 一种数据聚类及b2b平台客户偏好获取方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159881A CN113159881A (zh) | 2021-07-23 |
CN113159881B true CN113159881B (zh) | 2022-08-12 |
Family
ID=76887132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110276220.7A Active CN113159881B (zh) | 2021-03-15 | 2021-03-15 | 一种数据聚类及b2b平台客户偏好获取方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159881B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806542B (zh) * | 2021-09-18 | 2024-05-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN114980299A (zh) * | 2022-05-19 | 2022-08-30 | 雨果网(厦门)跨境电商有限公司 | 一种一套资料实现多平台阵列开店的系统 |
WO2024049322A1 (ru) * | 2022-09-01 | 2024-03-07 | Общество С Ограниченной Ответственностью "М16.Тех" | Система определения краткосрочных интересов в2в пользователей |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100067816A (ko) * | 2008-12-12 | 2010-06-22 | 주식회사 케이티 | 프라이버시를 보호하는 개인화 추천 서비스 제공방법 및 제공서버 |
CN102622552A (zh) * | 2012-04-12 | 2012-08-01 | 焦点科技股份有限公司 | 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统 |
CN103605815A (zh) * | 2013-12-11 | 2014-02-26 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
CN106204267A (zh) * | 2016-07-06 | 2016-12-07 | 吴本刚 | 一种基于改进k‑means和神经网络聚类的客户细分系统 |
CN110503446A (zh) * | 2018-05-16 | 2019-11-26 | 江苏天智互联科技股份有限公司 | 基于聚类算法的电商平台的客户分类方法与决策方法 |
-
2021
- 2021-03-15 CN CN202110276220.7A patent/CN113159881B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100067816A (ko) * | 2008-12-12 | 2010-06-22 | 주식회사 케이티 | 프라이버시를 보호하는 개인화 추천 서비스 제공방법 및 제공서버 |
CN102622552A (zh) * | 2012-04-12 | 2012-08-01 | 焦点科技股份有限公司 | 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统 |
CN103605815A (zh) * | 2013-12-11 | 2014-02-26 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
CN106204267A (zh) * | 2016-07-06 | 2016-12-07 | 吴本刚 | 一种基于改进k‑means和神经网络聚类的客户细分系统 |
CN110503446A (zh) * | 2018-05-16 | 2019-11-26 | 江苏天智互联科技股份有限公司 | 基于聚类算法的电商平台的客户分类方法与决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113159881A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669750B2 (en) | System and/or method for generating clean records from imperfect data using model stack(s) including classification model(s) and confidence model(s) | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、系统 | |
US8504492B2 (en) | Identification of attributes and values using multiple classifiers | |
US8620836B2 (en) | Preprocessing of text | |
US20100082697A1 (en) | Data model enrichment and classification using multi-model approach | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN111079941B (zh) | 信用信息处理方法、系统、终端和存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN116431931B (zh) | 实时增量数据统计分析方法 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN111209469A (zh) | 一种个性化推荐方法、装置、计算机设备及存储介质 | |
Maneewongvatana et al. | A recommendation model for personalized book lists | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
CN111445028A (zh) | Ai驱动的交易管理系统 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN111598645A (zh) | 一种融合随机森林与协同过滤二手房推荐方法 | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining | |
CN114723516A (zh) | 基于成单数据的用户相似度计算方法及系统 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN112328899A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
CN110737700A (zh) | 一种基于贝叶斯算法的进销存用户分类方法及系统 | |
CN115953166B (zh) | 基于大数据智能匹配的客户信息管理方法及系统 | |
RU2777958C2 (ru) | Система администрирования транзакций с ии | |
JP3452308B2 (ja) | データ分析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A data clustering and B2B platform customer preference acquisition method and system Effective date of registration: 20231215 Granted publication date: 20220812 Pledgee: Hangzhou United Rural Commercial Bank Co.,Ltd. Binjiang District sub branch Pledgor: Hangzhou yunsou Network Technology Co.,Ltd. Registration number: Y2023980071423 |