CN106021590B - 一种b2b平台供应商推荐方法和系统 - Google Patents

一种b2b平台供应商推荐方法和系统 Download PDF

Info

Publication number
CN106021590B
CN106021590B CN201610395086.1A CN201610395086A CN106021590B CN 106021590 B CN106021590 B CN 106021590B CN 201610395086 A CN201610395086 A CN 201610395086A CN 106021590 B CN106021590 B CN 106021590B
Authority
CN
China
Prior art keywords
clustering
ant
ant colony
information
colony
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610395086.1A
Other languages
English (en)
Other versions
CN106021590A (zh
Inventor
武忠
李媛
张丽媛
吕思杰
赵飞祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Yun Ge Ecommerce Co Ltd
Southeast University
Original Assignee
Wuxi Yun Ge Ecommerce Co Ltd
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Yun Ge Ecommerce Co Ltd, Southeast University filed Critical Wuxi Yun Ge Ecommerce Co Ltd
Priority to CN201610395086.1A priority Critical patent/CN106021590B/zh
Publication of CN106021590A publication Critical patent/CN106021590A/zh
Application granted granted Critical
Publication of CN106021590B publication Critical patent/CN106021590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0605Supply or demand aggregation

Abstract

本发明公开了一种基于超图的多蚁群并行组合聚类方法,属于数据挖掘技术领域。本发明针对高维海量数据的快速准确聚类,将改进的基于信息熵的单蚁群聚类算法与超图相结合,其主要思路是不同的蚁群采用改进的基于信息熵的单蚁群聚类算法进行独立地并行工作,通过超图进行聚类结果组合得到不同的相似矩阵,再进行信息交换相互合作,利用相似矩阵对单蚁群聚类过程进行修正;经过反复迭代,最终得到最优的聚类结果。本发明还公开了一种B2B平台供应商推荐方法及系统。本发明可进一步提高面对高维海量数据时的算法搜索效率,同时有效克服现有技术易于过早陷入局部最优解的缺陷,提升聚类结果的准确性。

Description

一种B2B平台供应商推荐方法和系统
技术领域
本发明涉及一种聚类方法,尤其涉及一种基于超图的多蚁群并行组合聚类方法,属于计算机数据挖掘技术领域。
背景技术
电子商务环境下,越来越多的中小企业入驻第三方B2B电子商务平台。平台方可利用已有的海量数据,基于自设的关键因素指标或者基于用户自身的采购需求,向用户推荐符合要求的供应商。虽然相较于传统商业模式,扩大了商业机会,降低了搜索成本,但是由于提供同质商品的企业的大量增加以及描述企业商品质量、服务质量的信息维数的大幅扩展,如何从现有大数据中快速准确地挖掘出少量最能符合用户需求的供应商信息推荐给客户,就成了摆在所有B2B平台面前的主要问题。
数据挖掘是获取符合用户需求的供应商信息的重要方法,而聚类则是数据挖掘中的重要内容,属于无监督学习的过程。聚类的基本原则是根据数据间的不同特征对数据集进行分簇,发现数据中隐含的模式,聚类结果是同一簇中的数据相似度尽量大,不同簇的数据相似度尽量小。
目前存在许多经典聚类算法,其中近年来科学家根据蚂蚁群体智能所提出的蚁群聚类算法由于可以自动生成集群,不需要预先设定聚类中心,可以有效地发现数据中隐藏的共同特征,因此蚁群聚类算法在数据分析中已受到越来越多的重视。蚁群算法不仅结合了贪婪搜索算法的优点,还与正反馈机制及分布式计算方法相结合,使得蚁群算法缩短了搜索时间。分布式计算使得蚁群算法具有极强的并行性,避免陷入局部最优解。另外,蚁群算法具有很好的可扩充性,拓宽了算法应用范围。但是,蚁群算法也存在着一些缺陷。由于个体移具有随机性,即使信息交换能够优化路径,但是对于大规模优化问题,搜索时间仍是一个很大的障碍。虽然硬件设备性能提高,蚁群算法并行性在一定程度上缓解了这一问题。但是由于信息正反馈机制,是一个逐渐积累的过程,因此仍然需要较长时间。此外,在搜索进行到一定程度后,个体所发现的解一致,出现停滞现象,放弃了对解空间进一步搜索,陷入局部最优。
为了解决传统蚁群算法处理高维海量数据时的问题,有研究者提出了一种基于无向超图的多蚁群聚类组合算法,该算法利用多个运动速度各异的蚁群独立并行地进行单蚁群聚类分析,然后将多个蚁群的聚类结果组合表示成超图的关联矩阵,然后将超图的关联矩阵转换为邻接矩阵,最后利用Hmetis进行超图的划分,从而得到最终的聚类结果。该方法一定程度上克服了传统蚁群算法面对高维海量数据时的不足,可有效提高算法效率和准确度。该方法虽然考虑到了蚁群不同的运动类型对聚类结果产生的影响,在一定程度上改善了蚁群过早陷入最优解,或者聚类速度过慢的问题。但是忽略了各个蚁群之间信息交换的生物功能。
发明内容
本发明所要解决的技术问题在于克服现有技术不足,提供一种基于超图的多蚁群并行组合聚类方法,可进一步提高面对高维海量数据时的算法搜索效率,同时有效克服现有技术易于过早陷入局部最优解的缺陷,提升聚类结果的准确性。
本发明具体采用以下技术方案解决上述技术问题:
一种基于超图的多蚁群并行组合聚类方法,包括以下步骤:
S1、多个蚁群并行地对数据对象分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的信息熵E1与拾取对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的信息熵E1与放下对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则放下对象;各蚁群的调整因子在聚类过程中的变化规律各不相同;
S2、蚁后将本轮所收到的所有聚类结果映射为一个超图的邻接矩阵H,并按照下式得到该超图的对称相似性矩阵Z:
Figure BDA0001010123700000021
其中,上标T表示矩阵转置,r为蚁群的数量;
蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,同时将相似性矩阵Z传递给各蚁群;
S3、各蚁群分别以所收到的聚类结果作为本次聚类的初始数据集,并行地分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的改进信息熵E1′与拾取对象Oi后的改进信息熵E2′和调整因子v的乘积进行比较,如果 E1′>vE2′,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的改进信息熵E1′与放下对象Oi后的改进信息熵E2′和调整因子v的乘积进行比较,如果E1′>vE2′,则放下对象Oi;所述改进信息熵的计算方法如下:
Figure BDA0001010123700000031
式中,E′(s2)表示蚂蚁当前所能观察到的边长为s的正方形区域内对象的改进信息熵,Xn表示对象所具有的n个相互独立的属性的取值集合,
Figure BDA0001010123700000032
其中,
Figure BDA0001010123700000033
表示在对称相似性矩阵Z中取s×s邻域内所包括的对象间超边的最大值;
Figure BDA0001010123700000034
式中,count(x)表示s×s邻域内蚂蚁个体搜索满足Ai=x的对象个数;count(s×s) 表示邻域内对象总个数;
S4、蚁后判断是否达到算法结束条件,如是,则结束算法并从本轮各蚁群所发送的聚类结果中选择孤立点最少的聚类结果作为最终聚类结果输出;如否,则转至 S2,进行下一轮迭代。
优选地,各蚁群的调整因子在聚类过程中的变化规律至少包括以下三种:
(1)调整因子v在蚂蚁移动过程中保持预设的常数;
(2)随着蚂蚁的每一次移动,调整因子v在预设取值范围内随机变化;
(3)随着蚂蚁的每一次移动,调整因子v递减。
优选地,所述蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,具体方法为:选择每个蚁群上一次的自身的聚类结果传递给各蚁群;或者,通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群;或者,从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群;又或者,在预设的前若干轮,蚁后通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群,在此之后直至算法停止的每一轮中,蚁后从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群。
优选地,所述算法结束条件具体为:达到预设的迭代次数;或者,各蚁群的聚类结果不再发生变化。
上述聚类方法可广泛用于各种数据挖掘的应用场合,下面是一个将其应用于 B2B平台的一个技术方案:
一种B2B平台供应商推荐方法,包括以下步骤:
步骤1、收集B2B平台中所有的供应商信息,并对供应商信息进行量化,得到各供应商的量化信息;
步骤2、根据用户所提出的供应商指标,从B2B平台中所有供应商中筛选出满足用户所提出的供应商指标的供应商;
步骤3、以所筛选出的各供应商的量化信息作为聚类的数据对象,利用以上任一技术方案所述聚类方法进行聚类;
步骤4、从所得到的每一类中分别选出最接近B2B平台预设指标的前若干个供应商推荐给用户。
根据相同的发明思路还以得到以下技术方案:
一种B2B平台供应商推荐系统,包括:
供应商信息收集与量化单元,用于收集B2B平台中所有的供应商信息,并对供应商信息进行量化,得到各供应商的量化信息;
筛选单元,用于根据用户所提出的供应商指标,从B2B平台中所有供应商中筛选出满足用户所提出的供应商指标的供应商;
聚类单元,以筛选单元所筛选出的各供应商的量化信息作为聚类的数据对象,利用以上任一技术方案所述聚类方法进行聚类;
推荐单元,用于从聚类单元所得到的每一类中分别选出最接近B2B平台预设指标的前若干个供应商推荐给用户。
相比现有技术,本发明具有以下有益效果:
本发明将超图的思想与基于信息熵的单蚁群聚类算法进行有机结合,利用超图矩阵组合思想,将多个单蚁群的聚类结果进行组合,生成相似矩阵,并将相似矩阵反馈至各单蚁群,各单蚁群在后续的每次聚类中,利用更新的相似矩阵修改信息熵计算中的可能性函数p(x),由于相似矩阵组合了各种类型蚁群的聚类结果,有利于改善基于信息熵的蚁群聚类算法过早收敛,陷入局部最优解的缺点。
本发明在基于信息熵的单蚁群聚类算法中引入了对信息熵进行调整的调整因子,并且多个并行蚁群的调整因子在聚类过程中的变化规律各不相同,一方面保持了基于信息熵的蚁群聚类算法所具有的参数较少、收敛速度快的优点,另一方面有效提高了基于信息熵的蚁群聚类算法的鲁棒性。
本发明的优选方案在迭代过程中结合循环策略和最低孤立点策略两种方法选取各单蚁群的聚类数据集,在迭代的早期阶段,选择其它蚁群上一次聚类结果作为聚类的数据集,改善因速度差异造成收敛过慢或者过早出现局部最优解的问题;在迭代的后一阶段,各蚁群均以前一次聚类中孤立点最少的聚类结果作为当前迭代步聚类的数据集,能够加速算法收敛,提高算法运算效率。
本发明B2B平台供应商推荐方法可将满足用户所提出供应商指标的海量供应商快速准确地划分为最具有代表性的若干类别,然后从每个类别中选取少量最优的供应商推荐给用户,避免了仅根据少量用户指标进行推荐所产生的推荐数量巨大、考虑因素不够全面、缺乏针对性等缺陷,有效提高了用户采购效率及采购质量。
附图说明
图1为对称相似性矩阵的生成过程示意图;
图2为本发明基于超图的多蚁群并行组合聚类方法的原理示意图;
图3为具体实施方式中所使用的并行信息交换策略示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明针对高维海量数据的快速准确聚类,将改进的基于信息熵的单蚁群聚类算法与超图相结合,其主要思路是不同的蚁群采用改进的基于信息熵的单蚁群聚类算法进行独立地并行工作,通过超图进行聚类结果组合得到不同的相似矩阵,再进行信息交换相互合作,利用相似矩阵对单蚁群聚类过程进行修正;经过反复迭代,最终得到最优的聚类结果。本发明将蚁群间信息交换行为引入算法中,能够有效改善聚类质量,尤其适合高维数据的聚类分析。
为了便于公众理解,下面以一个具体实施例来对本发明技术方案进行详细说明。
基于超图的多蚁群并行组合聚类方法,包括以下步骤:
S1、多个蚁群并行地对数据对象分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的信息熵E1与拾取对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的信息熵E1与放下对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则放下对象;各蚁群的调整因子在聚类过程中的变化规律各不相同。
传统的LF蚁群算法中,蚂蚁通过相似度概率转换函数判断拾起和放下动作,存在参数过多且具有随机性,影响了算法的运算速度。为解决上述问题,提出了借鉴信息熵的改进思路,通过计算局部区域内的信息熵来判断拾起和放下动作。
信息熵定义:假设x为随机变量,X是其可能的取值集合(连续型数据需离散化),p(x)是取x值的可能函数,信息熵定义E(x)为:
Figure BDA0001010123700000061
多变量向量x={x1,...,xn}的信息熵计算公式:
Figure BDA0001010123700000062
式中p(x)=p(x1,...,xn)表示多变量可能分布函数,X1,...,Xn是相应向量项的可能取值集合(连续型数据需要离散)。
基于信息熵的聚类算法,基本前提是包含聚类的子空间的信息熵比不包含聚类的信息熵小。算法的基本思想为:当空载的蚂蚁随机移动,搜索到对象Oi时,计算邻域s内对象Oi的信息熵。比较拾起对象Oi前的信息熵E1和拾起对象Oi后的信息熵E2,如果E1>E2,则拾起对象Oi。当负载的蚂蚁在二维网格上随机移动到没有对象的空白区域,计算邻域内对象的信息熵,比较放下对象Oi前的信息熵E1及放下对象Oi后该区域信息熵E2。如果E1>E2,则放下对象Oi
如果对象Oi具有多属性,则根据多变量向量信息熵的定义公式邻域s×s内对象的信息熵。假设对象Oi具有n个相互独立的属性A1,A2,...,An,属性的取值集合为X1,X2,...,Xn,s×s内对象信息熵计算公式为:
Figure BDA0001010123700000071
式中p(x)定义如下:
Figure BDA0001010123700000072
式中,count(x)表示s×s邻域内满足Ai=x的对象个数;count(s×s)表示邻域内对象总个数。单蚁群算法引入信息熵,修改了LF算法中拾起、放下对象计算规则,减少了参数数目,能够加快聚类收敛速度。
通过观察发现,蚂蚁行动速度随着环境的变化而改变。速度快的蚂蚁可以将对象粗略地划分为几大类,而速度慢的蚂蚁则可以将对象更精确地细分。为了模仿蚁群的运动规律,本发明在现有基于信息熵的蚁群聚类算法中引入调整因子v,各蚁群的调整因子v在聚类过程中的变化规律各不相同,从而可同时为多蚁群聚类组合提供多样性的聚类分量。
优选地,各蚁群的调整因子v在聚类过程中的变化规律至少包括以下三种:
(1)调整因子v在蚂蚁移动过程中保持预设的常数;各蚁群可采用不同的常数值;
(2)随着蚂蚁的每一次移动,调整因子v在预设取值范围内随机变化;
(3)随着蚂蚁的每一次移动,调整因子v递减;例如可以随机递减。
具体地,在引入调整因子v之后的基于信息熵的单蚁群聚类算法中,每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的信息熵E1与拾取对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的信息熵E1与放下对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则放下对象Oi
在聚类过程中,存在一些与其他对象均不相似的孤立点,蚂蚁拾起后,难以找到与之相似的对象,很难将其放下,从而影响算法的收敛速度。针对这类问题,本发明采取强制蚂蚁放下对象的策略,随机移动到网格上的其他位置。
此外,初始设置的蚂蚁个数也是影响算法性能和收敛速度的主要影响因素。如果蚂蚁数目过多,当对象Oi被拾起或者由蚂蚁负载随机移动过程中,其它负载对象Oj的蚂蚁在计算邻域内的信息熵时,将不能考虑对象Oi,从而出现待聚类对象悬空现象。随着蚂蚁增多,悬空现象越来越严重。而如果蚂蚁数量过少,则算法收敛速度可能很慢,影响算法的运行效率。
综上,本发明引入调整因子v后的基于信息熵的单蚁群聚类算法可描述如下:
Figure BDA0001010123700000091
如果对象为孤立点,则将该对象进行标记;否则给分配一个聚类序列号,并将其聚类内的对象标记为相同的序列号。
多个蚁群以多线程并行的方式分别对数据对象进行单蚁群聚类,并将各自的聚类结果发送至蚁后。
S2、蚁后将本轮所收到的所有聚类结果映射为一个超图的邻接矩阵H,并按照下式得到该超图的对称相似性矩阵Z:
Figure BDA0001010123700000092
其中,上标T表示矩阵转置,r为蚁群的数量;
蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,同时将相似性矩阵Z传递给各蚁群。
现有基于无向超图的多蚁群聚类组合算法,先将多个蚁群的聚类结果组合表示成超图的关联矩阵,然后将超图的关联矩阵转换为邻接矩阵,最后通过超图的划分得到最终的聚类结果。将多蚁群聚类结果组合映射为超图邻接矩阵的方法具体如下:
首先将一组聚类分类表示成一个超图。假设X={x1,x2,...,xn}为一个对象集,包含n个数据对象,被分成k类,Π={θ12,...,θk}。在k组聚类分量中,若第q 个聚类θq被分为t(q)类,则可得到一个二进制成员矩阵
Figure BDA0001010123700000093
在矩阵H(q)中,每个聚类被表示为一条超边,对应矩阵的列。组合成员矩阵得到一个具有N 个顶点,
Figure BDA0001010123700000094
条超边的超图邻接矩阵。
H=(H(1),H(2),...,H(r)) (5)
矩阵H的每一行表示一个顶点(对象),每一列表示一条超边,属于同一超边的顶点取值为1,否则为0。从而,将聚类分类映射成超图的邻接矩阵。下面将通过举例详细说明构造超图矩阵。
表1给出了6个对象Xi(i=1,2,...,6)的3个聚类标记矢量,聚类1和聚类2 在逻辑上一致,而聚类3在对象4和5的分类上有争议,将聚类分量映射成超图的邻接矩阵H如表2所示,其中r=3,t(1,2,3)。超图6个顶点vi(i=1,2,...,6)对应 6个人对象,每个聚类被表示为一条超边,共9条超边。
表1标记矢量
Figure BDA0001010123700000101
表2超图的邻接矩阵
Figure BDA0001010123700000102
现有方法是直接利用Hmetis对邻接矩阵进行超图划分来直接得到组合后的聚类结果。与此不同,本发明是利用超图的邻接矩阵来构造一个对称相似矩阵,并利用该对称相似矩阵对下一迭代步中单蚁群聚类算法进行修正。
基于同一类的对象完全相似,否则完全不相似这一假设,可将超图的邻接矩阵H,通过下式转换成N×N的对称相似性矩阵Z:
Figure BDA0001010123700000103
式中HT是H的转置矩阵。Z的每一行及每一列均对应超图的一个顶点,非对角线上的值反映超边的加权值。若两个顶点属于同一超边的次数越多,超边的加权值越大。
如图1所示,蚁后根据各蚁群的聚类结果映射为一个超图的邻接矩阵,并进一步根据式(6)得到本轮迭代步的对称相似性矩阵Z。
S3、各蚁群分别以所收到的聚类结果作为本次聚类的初始数据集,并行地分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的改进信息熵E1′与拾取对象Oi后的改进信息熵E2′和调整因子v的乘积进行比较,如果 E1′>vE2′,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的改进信息熵E1′与放下对象Oi后的改进信息熵E2′和调整因子v的乘积进行比较,如果E1′>vE2′,则放下对象。
本发明从第二次迭代开始,利用当前的对称相似性矩阵Z对各蚁群的单蚁群聚类算法进行修正,具体为按照式(7)计算p′(x)来替代式(1)、式(2)信息熵计算公式中的可能性函数p(x):
Figure BDA0001010123700000111
用Z[oi,oj]表示对称相似性矩阵,Z的每一行及每一列均对应超图的一个顶点(即对象oi),非对角线上的元素反映超边的加权值。若两个顶点属于同一超边的次数越多,则超边的加权值越大,两个对象的相似性越大。相似矩阵Z可具体表示如下:
Figure BDA0001010123700000112
假设对象Oi具有n个相互独立的属性A1,A2,...,An,属性的取值集合为 X1,X2,...,Xn。x为随机变量,X是其可能的取值集合(连续型数据需离散化),则p(x)是取x值的可能函数(即现有基于信息熵的单蚁群聚类算法中的可能性函数):
Figure BDA0001010123700000121
式中,count(x)表示s×s邻域内蚂蚁个体搜索满足Ai=x的对象个数; count(s×s)表示邻域内对象总个数。p(x)是通过对象属性来计算可能性。
Figure BDA0001010123700000122
在对称相似性矩阵Z中取s×s邻域内所包括的对象间超边的最大值。当蚂蚁进行拾取、放下操作时,对象之间的相似信变化也会对邻域内的信息熵产生影响。
由于对称相似性矩阵Z反映了多个不同特征蚁群的聚类组合结果,因此新的可能性函数p′(x)比式
Figure BDA0001010123700000123
中p(x)单纯对对象计数的方法更有效。
可能性函数变化后的改进信息熵E′的计算公式就变为:
式中,E′(s2)表示蚂蚁当前所能观察到的边长为s的正方形区域内对象的改进信息熵,Xn表示对象所具有的n个相互独立的属性的取值集合。
S4、蚁后判断是否达到算法结束条件,如是,则结束算法并从本轮各蚁群所发送的聚类结果中选择孤立点最少的聚类结果作为最终聚类结果输出;如否,则转至 S2,进行下一轮迭代。
如此反复迭代,直到达到预设的迭代次数或者各蚁群的聚类结果不再发生变化,此时将孤立点最少的当前单蚁群聚类结果作为最终聚类结果输出。整个算法的原理如图2所示。
在本发明方案中,各蚁群在并行聚类过程中并不进行信息传递,而是通过蚁后利用某种策略从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,同时将相似性矩阵Z传递给各蚁群。在本发明并行算法具体实现中,主要可采用三种信息交换策略。保持前任:每个蚁群以自己前一次聚类结果作为当前聚类的数据集;循环交换:每个蚁群选择其他蚁群前一次的聚类结果作为当前聚类的数据集,所有蚁群形成一个虚拟的环;最低孤立点:每个蚁群均选择上一次聚类结果中孤立点最少的作为当前数据集。此外还可采用不同策略结合使用的方式,本发明优选采用循环交换与最低孤立点相结合的方式,具体为:在预设的前若干轮,蚁后通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群,在此之后直至算法停止的每一轮中,蚁后从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群。图2显示了一种迭代过程的具体信息传递方式,其中蚁后仅在第一轮迭代中采用循环交换策略,从第二轮开始直至算法结束,均采用最低孤立点策略。
本发明整体的实现算法可描述如下:
Input:待聚类数据集
Output:待聚类数目和已标记的聚类结果
(1)For i=1,2,...,N//各蚁群分别取不同的类型v:常数、随机数和递减函数
Call单蚁群聚类算法
(2)For i=1,2,...,M//M为迭代次数
(2.1)蚁后获取各类型蚁群的聚类结果,计算邻接矩阵H;
(2.2)蚁后计算相似矩阵Z,并且将相似矩阵返回到各蚁群;
(2.3)每个蚁群按照循环交换或者最低孤立点的策略选择再次聚类的数据集;
(2.4)For j=1,2,...,N//对所有蚁群
重复单蚁群聚类算法中(4)-(5)步骤//用相似矩阵计算p′(x)。
本发明聚类方法可广泛用于各种数据挖掘的应用场合,尤其是高维海量数据的数据挖掘。下面举一个将其应用于B2B平台的实例:
本发明的B2B平台供应商推荐方法,包括以下步骤:
步骤1、收集B2B平台中所有的供应商信息,并对供应商信息进行量化,得到各供应商的量化信息;
该方法是在第三方B2B平台视角下,依赖平台自有数据研究供应商选择的影响因素,即所研究的对象具有相同的平台服务质量特征和平台市场竞争情况。同时为了控制产品质量、外观等对产品销售的影响,选取同质产品。本发明主要研究在线影响因素,对其它变量进行控制。具体的部分影响因素及数据来源见表 3。
表3影响因素及数据来源
Figure BDA0001010123700000141
其次,由于聚类对象具有不同的量纲,为了消除因单位不同而导致分析结果出现偏差的问题,对选取的数据进行预处理。采用“Z-score标准化”方法,将原始数据转化为无量纲化的指标测评值。
Figure BDA0001010123700000142
式中,x为变量值,μ为平均值,σ为方差。
步骤2、根据用户所提出的供应商指标,从B2B平台中所有供应商中筛选出满足用户所提出的供应商指标的供应商;
用户根据其所关注的供应商属性提出相应的供应商指标,这些指标包括但不限于:价格、履约保证金、交易等级、诚信等级、销量、促销活动、客户忠诚度、产品评价、物流服务等。通常用户所提出的供应商指标往往仅覆盖了供应商属性中的极少维度,一方面,对于B2B平台而言,符合用户所提出供应商指标的企业也将会是海量的;另一方面,用户可能也会忽略了很多对于商务合作具有重要影响的供应商属性;因此,有必要先对所筛选出的供应商进行分类,然后从每一类中选取少量最优供应商推荐给客户。
步骤3、以所筛选出的各供应商的量化信息作为聚类的数据对象,利用本发明聚类方法进行聚类;
步骤4、从所得到的每一类中分别选出最接近B2B平台预设指标的前若干个供应商推荐给用户;具体的指标可以参考以下内容,也可根据实际需要自行设计:
价格:价格是产品质量、企业服务质量的最直观的体现,是影响采购决策的重要因素。产品价格按单价计量,元为单位。
履约保证金:履约保证金是交易过程中双方以资金或者财产等作为担保,抓取B2B平台卖方履约保证金数额,元为单位。
企业等级:第三方B2B平台根据企业的注册时间,划定企业诚信等级;根据企业的交易量划分交易等级,等级从1开始,逐级递增。诚信等级越高表明企业信誉越好,交易越有保障;交易等级越高说明企业供货能力越强,都将成为企业定价的筹码。
销量:可以从平台上获取近一个季度的产品销售数量,依据单件产品单位计件。
促销活动:促销活动量化可以通过促销活动引流后转化率与整个产品流量转化率的比值进行统计。流量变现率越高,表明促销活动带动了销量增长,创造了经济效益,说明促销越成功。
客户忠诚度:通过在线获取产品重复购买率数据。产品、售后服务、物流服务的评价由买方企业在线评价,价取值范围为0至5,精确到小数点后一位。
本发明推荐方法可向用户主动推荐最优的供应商,有效提高用户的采购效率和采购质量,降低采购成本。

Claims (8)

1.一种B2B平台供应商推荐方法,其特征在于,包括以下步骤:
步骤1、收集B2B平台中所有的供应商信息,并对供应商信息进行量化,得到各供应商的量化信息;
步骤2、根据用户所提出的供应商指标,从B2B平台中所有供应商中筛选出满足用户所提出的供应商指标的供应商;
步骤3、以所筛选出的各供应商的量化信息作为聚类的数据对象,利用基于超图的多蚁群并行组合聚类方法进行聚类;所述基于超图的多蚁群并行组合聚类方法,包括以下步骤:
S1、多个蚁群并行地对数据对象分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的信息熵E1与拾取对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的信息熵E1与放下对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则放下对象;各蚁群的调整因子在聚类过程中的变化规律各不相同;
S2、蚁后将本轮所收到的所有聚类结果映射为一个超图的邻接矩阵H,并按照下式得到该超图的对称相似性矩阵Z:
Figure FDA0002011259720000011
其中,上标T表示矩阵转置,r为蚁群的数量;
蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,同时将相似性矩阵Z传递给各蚁群;
S3、各蚁群分别以所收到的聚类结果作为本次聚类的初始数据集,并行地分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的改进信息熵E′1与拾取对象Oi后的改进信息熵E′2和调整因子v的乘积进行比较,如果E′1>vE′2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的改进信息熵E′1与放下对象Oi后的改进信息熵E′2和调整因子v的乘积进行比较,如果E′1>vE′2,则放下对象Oi;所述改进信息熵的计算方法如下:
Figure FDA0002011259720000021
式中,E′(s2)表示蚂蚁当前所能观察到的边长为s的正方形区域内对象的改进信息熵,Xn表示对象所具有的n个相互独立的属性的取值集合,
Figure FDA0002011259720000022
其中,
Figure FDA0002011259720000023
表示在对称相似性矩阵Z中取s×s邻域内所包括的对象间超边的最大值;
Figure FDA0002011259720000024
式中,count(x)表示s×s邻域内蚂蚁个体搜索满足Ai=x的对象个数;count(s×s)表示邻域内对象总个数;
S4、蚁后判断是否达到算法结束条件,如是,则结束算法并从本轮各蚁群所发送的聚类结果中选择孤立点最少的聚类结果作为最终聚类结果输出;如否,则转至S2,进行下一轮迭代;
步骤4、从所得到的每一类中分别选出最接近B2B平台预设指标的前若干个供应商推荐给用户。
2.如权利要求1所述B2B平台供应商推荐方法,其特征在于,各蚁群的调整因子在聚类过程中的变化规律至少包括以下三种:
(1)调整因子v在蚂蚁移动过程中保持预设的常数;
(2)随着蚂蚁的每一次移动,调整因子v在预设取值范围内随机变化;
(3)随着蚂蚁的每一次移动,调整因子v递减。
3.如权利要求1所述B2B平台供应商推荐方法,其特征在于,所述蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,具体方法为:选择每个蚁群上一次的自身的聚类结果传递给各蚁群;或者,通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群;或者,从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群;又或者,在预设的前若干轮,蚁后通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群,在此之后直至算法停止的每一轮中,蚁后从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群。
4.如权利要求1所述B2B平台供应商推荐方法,其特征在于,所述算法结束条件具体为:达到预设的迭代次数;或者,各蚁群的聚类结果不再发生变化。
5.一种B2B平台供应商推荐系统,其特征在于,包括:
供应商信息收集与量化单元,用于收集B2B平台中所有的供应商信息,并对供应商信息进行量化,得到各供应商的量化信息;
筛选单元,用于根据用户所提出的供应商指标,从B2B平台中所有供应商中筛选出满足用户所提出的供应商指标的供应商;
聚类单元,以筛选单元所筛选出的各供应商的量化信息作为聚类的数据对象,利用基于超图的多蚁群并行组合聚类方法进行聚类;所述基于超图的多蚁群并行组合聚类方法,包括以下步骤:
S1、多个蚁群并行地对数据对象分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的信息熵E1与拾取对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的信息熵E1与放下对象Oi后的信息熵E2和调整因子v的乘积进行比较,如果E1>vE2,则放下对象;各蚁群的调整因子在聚类过程中的变化规律各不相同;
S2、蚁后将本轮所收到的所有聚类结果映射为一个超图的邻接矩阵H,并按照下式得到该超图的对称相似性矩阵Z:
Figure FDA0002011259720000031
其中,上标T表示矩阵转置,r为蚁群的数量;
蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,同时将相似性矩阵Z传递给各蚁群;
S3、各蚁群分别以所收到的聚类结果作为本次聚类的初始数据集,并行地分别进行基于信息熵的单蚁群聚类,并将聚类结果传递给蚁后;每个蚁群在进行聚类时,拾起、放下对象的判断方法具体如下:对于空载蚂蚁,将拾取对象Oi前的改进信息熵E′1与拾取对象Oi后的改进信息熵E′2和调整因子v的乘积进行比较,如果E′1>vE′2,则拾起对象Oi;对于负载蚂蚁,将放下对象Oi前的改进信息熵E′1与放下对象Oi后的改进信息熵E′2和调整因子v的乘积进行比较,如果E′1>vE′2,则放下对象Oi;所述改进信息熵的计算方法如下:
Figure FDA0002011259720000041
式中,E′(s2)表示蚂蚁当前所能观察到的边长为s的正方形区域内对象的改进信息熵,Xn表示对象所具有的n个相互独立的属性的取值集合,
Figure FDA0002011259720000042
其中,
Figure FDA0002011259720000043
表示在对称相似性矩阵Z中取s×s邻域内所包括的对象间超边的最大值;
式中,count(x)表示s×s邻域内蚂蚁个体搜索满足Ai=x的对象个数;count(s×s)表示邻域内对象总个数;
S4、蚁后判断是否达到算法结束条件,如是,则结束算法并从本轮各蚁群所发送的聚类结果中选择孤立点最少的聚类结果作为最终聚类结果输出;如否,则转至S2,进行下一轮迭代;
推荐单元,用于从聚类单元所得到的每一类中分别选出最接近B2B平台预设指标的前若干个供应商推荐给用户。
6.如权利要求5所述B2B平台供应商推荐系统,其特征在于,各蚁群的调整因子在聚类过程中的变化规律至少包括以下三种:
(1)调整因子v在蚂蚁移动过程中保持预设的常数;
(2)随着蚂蚁的每一次移动,调整因子v在预设取值范围内随机变化;
(3)随着蚂蚁的每一次移动,调整因子v递减。
7.如权利要求5所述B2B平台供应商推荐系统,其特征在于,所述蚁后从本轮所收到的聚类结果中选择相应的聚类结果传递给各蚁群,具体方法为:选择每个蚁群上一次的自身的聚类结果传递给各蚁群;或者,通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群;或者,从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群;又或者,在预设的前若干轮,蚁后通过循环交换的方式,选择其它某一蚁群的上一次聚类结果传递给各蚁群,在此之后直至算法停止的每一轮中,蚁后从本轮所收到的聚类结果中选择孤立点最少的聚类结果传递给各蚁群。
8.如权利要求5所述B2B平台供应商推荐系统,其特征在于,所述算法结束条件具体为:达到预设的迭代次数;或者,各蚁群的聚类结果不再发生变化。
CN201610395086.1A 2016-06-06 2016-06-06 一种b2b平台供应商推荐方法和系统 Active CN106021590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610395086.1A CN106021590B (zh) 2016-06-06 2016-06-06 一种b2b平台供应商推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610395086.1A CN106021590B (zh) 2016-06-06 2016-06-06 一种b2b平台供应商推荐方法和系统

Publications (2)

Publication Number Publication Date
CN106021590A CN106021590A (zh) 2016-10-12
CN106021590B true CN106021590B (zh) 2020-01-10

Family

ID=57089620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610395086.1A Active CN106021590B (zh) 2016-06-06 2016-06-06 一种b2b平台供应商推荐方法和系统

Country Status (1)

Country Link
CN (1) CN106021590B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415418B (zh) * 2018-01-23 2020-11-06 上海交通大学 一种基于无向连通网络的同质无人艇集群编队方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046721A1 (en) * 1999-02-05 2000-08-10 Nval Solutions, Incorporated Enterprise value enhancement system and method
CN102750647A (zh) * 2012-06-29 2012-10-24 南京大学 一种基于交易网络的商家推荐方法
CN105023041A (zh) * 2015-08-11 2015-11-04 东南大学 数据聚类方法及b2b平台客户偏好获取方法、装置
CN105205689A (zh) * 2015-08-26 2015-12-30 深圳市万音达科技有限公司 推荐商户的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140114796A1 (en) * 2012-10-19 2014-04-24 Barnesandnoble.Com Llc Techniques for generating content recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046721A1 (en) * 1999-02-05 2000-08-10 Nval Solutions, Incorporated Enterprise value enhancement system and method
CN102750647A (zh) * 2012-06-29 2012-10-24 南京大学 一种基于交易网络的商家推荐方法
CN105023041A (zh) * 2015-08-11 2015-11-04 东南大学 数据聚类方法及b2b平台客户偏好获取方法、装置
CN105205689A (zh) * 2015-08-26 2015-12-30 深圳市万音达科技有限公司 推荐商户的方法及系统

Also Published As

Publication number Publication date
CN106021590A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN111681059B (zh) 行为预测模型的训练方法及装置
Feng et al. Multi-strategy monarch butterfly optimization algorithm for discounted {0-1} knapsack problem
Guan et al. Matrix factorization with rating completion: An enhanced SVD model for collaborative filtering recommender systems
Kuo et al. Integration of particle swarm optimization and genetic algorithm for dynamic clustering
Sharma Deep challenges associated with deep learning
Chen et al. Using fruit fly optimization algorithm optimized grey model neural network to perform satisfaction analysis for e-business service
CN114219169A (zh) 颖幡供应链销售和库存预测算法模型和应用系统
Xiao et al. Churn prediction in customer relationship management via GMDH-based multiple classifiers ensemble
CN110866782B (zh) 一种客户分类方法、系统以及电子设备
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN104346698A (zh) 基于云计算和数据挖掘的餐饮会员大数据分析和考核系统
CN111061959A (zh) 一种基于开发者特征的群智化软件任务推荐方法
US20160171365A1 (en) Consumer preferences forecasting and trends finding
CN116049536A (zh) 一种推荐方法及相关装置
CN106021590B (zh) 一种b2b平台供应商推荐方法和系统
CN109977979A (zh) 定位种子用户的方法、装置、电子设备和存储介质
Kuo et al. Integration of particle swarm optimization and immune genetic algorithm-based dynamic clustering for customer clustering
Zhu et al. SEM: A softmax-based ensemble model for CTR estimation in real-time bidding advertising
Hyun et al. Interest Sustainability-Aware Recommender System
Jie-Hao et al. A CTR prediction method based on feature engineering and online learning
CN117556147B (zh) 电商数据分类推荐系统、方法
CN114092123A (zh) 一种满意度智能分析系统
CN112070519B (zh) 一种基于数据全局搜索和特征分类的预测方法
Fayaz et al. How Machine Learning is Redefining Agricultural Sciences: An Approach to Predict Apple Crop Production of Kashmir Province.
Liu et al. An enterprise operation management method based on mobile edge computing and data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant