CN102750647A - 一种基于交易网络的商家推荐方法 - Google Patents

一种基于交易网络的商家推荐方法 Download PDF

Info

Publication number
CN102750647A
CN102750647A CN2012102192882A CN201210219288A CN102750647A CN 102750647 A CN102750647 A CN 102750647A CN 2012102192882 A CN2012102192882 A CN 2012102192882A CN 201210219288 A CN201210219288 A CN 201210219288A CN 102750647 A CN102750647 A CN 102750647A
Authority
CN
China
Prior art keywords
user
corporations
cluster
businessman
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102192882A
Other languages
English (en)
Inventor
顾庆
许鼎鼎
蒋智威
汤九斌
陈道蓄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2012102192882A priority Critical patent/CN102750647A/zh
Publication of CN102750647A publication Critical patent/CN102750647A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于交易网络的商家推荐方法,其步骤为:(1)整理交易数据并建立交易网络;(2)根据用户交易历史对用户聚类;(3)对交易网络进行社团划分;(4)应用随机行走方法实现商家推荐。本发明可广泛应用于各类电子商务网站中的商家(卖家)推荐,为广大买家推荐合适的卖家;充分利用买家和卖家的历史交易数据,发掘买家和卖家的偏好特征,分析买家和卖家交易的相似性,合理应用随机行走方法,有效提高商家推荐的准确性和针对性。所采用的计算方法简单高效,切合电子商务网站海量交易数据、同时买家和卖家交易信息稀疏的特性,有较好的扩展性和适用性;有效填补目前电子商务网站商家推荐方面的空白。

Description

一种基于交易网络的商家推荐方法
 
技术领域
本发明涉及电子商务领域中的商家推荐,特别涉及存在大量历史交易数据的情况下,充分发掘买家和卖家的交易偏好,构成用户簇;同时引入社会网络因素,为买家或卖家划分社团;通过随机行走完成商家推荐。
背景技术
推荐系统已应用到信息检索、新闻传媒、电子商务、社会网络服务等诸多领域。在电子商务领域,良好的推荐系统能够有效提升用户体验(包括买家和卖家),增加用户黏着度,促进更多交易行为的发生。目前众多的电子商务网站,如淘宝、大众点评、亚马逊、亿贝、京东等都建立了各自的推荐系统,在商品层面进行有效的统计、建模、挖掘和推荐工作,取得了良好成果。目前的推荐技术大致可分为三大类:基于内容的推荐、协同过滤、以及混合推荐。基于内容的推荐为用户(买家)推荐与其之前的选择相类似的物品(商品);协同过滤为用户推荐与其偏好最相近的用户所选择过的物品;混合方式采用多种推荐方法的组合为用户推荐物品,一种策略是结合基于内容和协同过滤为用户提供推荐,另一种目前比较流行的策略是在协同过滤中引入社会网络技术为用户推荐物品。
目前电子商务网站在交易过程中主要承担平台和中介的角色,每一次交易实际发生在买家和卖家之间。现有的推荐系统在为买家发掘商品、促进买家体验和交易量方面已取得良好成果;但对卖家的关注度仍然不够,实际是较少考虑到社会网络因素的影响。已有市场调查报告显示超过65%的买家更倾向于同信任的卖家进行交易,并建立所谓“老客”、“回头客”等相对稳固的信任交易关系;考虑到在线商品交易中更高的劣质商品风险和质保代价,合理的商家推荐是当前电子商务领域需要立即考虑的问题。现有的推荐方法和技术尚未考虑商家推荐的问题,有效的商家推荐方法将填补这一空白。
发明内容
本发明主要目的是针对传统推荐系统没有考虑商家推荐的问题,提出一种基于交易网络的商家推荐方法,通过在买家和卖家之间建立偏好相似的用户簇,根据交易网络的连接模式划分社团,通过随机行走完成商家推荐。
为实现本发明所述目的,本发明采用如下的步骤:
1)整理交易数据并建立交易网络,包含两个工作:其一为每个用户(包括买家和卖家)建立和维护偏好向量;其二根据历史交易记录在用户之间建立交易网络;
2)根据用户交易历史对用户聚类;采用期望最大化算法EM,通过用户偏好向量进行用户聚类,形成偏好相似的用户簇;
3)对交易网络进行社团划分;采用K均值算法KM,根据交易网络中各(用户)节点的连接模式划分社团;
4)应用随机行走方法实现商家推荐,从买家(目标用户)出发,在社团间随机行走,根据用户簇决定停止概率,完成商家推荐。
上述步骤1)中用户的偏好向量用数组表示:令                                                
Figure 2012102192882100002DEST_PATH_IMAGE001
表示电子商务网站中商品类别的数量;用户的偏好向量为
Figure 2012102192882100002DEST_PATH_IMAGE003
;其中元素
Figure 149025DEST_PATH_IMAGE004
Figure 2012102192882100002DEST_PATH_IMAGE005
)的定义如下:
Figure 928762DEST_PATH_IMAGE006
上述步骤1)中的交易网络是一个有向图
Figure 2012102192882100002DEST_PATH_IMAGE007
,其中
Figure 386288DEST_PATH_IMAGE008
表示电子商务网站中的用户集合;有向边集合
Figure 2012102192882100002DEST_PATH_IMAGE009
反映用户之间的交易历史,对于任意两个用户
Figure 322364DEST_PATH_IMAGE002
Figure 144827DEST_PATH_IMAGE010
Figure 2012102192882100002DEST_PATH_IMAGE011
),有向边
Figure 474177DEST_PATH_IMAGE012
表示用户
Figure 735394DEST_PATH_IMAGE002
曾经从用户
Figure 404273DEST_PATH_IMAGE010
购买过商品;
Figure DEST_PATH_IMAGE013
是一个映射,其中
Figure 459953DEST_PATH_IMAGE014
为自然数集,作用是为
Figure DEST_PATH_IMAGE015
中的每一条有向边赋予权重;简化处理:有向边
Figure 276600DEST_PATH_IMAGE016
的权重表示为
Figure DEST_PATH_IMAGE017
,代表
Figure 661631DEST_PATH_IMAGE010
购买商品的次数,若
Figure 153792DEST_PATH_IMAGE018
,则
Figure DEST_PATH_IMAGE019
,另有
Figure 460664DEST_PATH_IMAGE020
上述步骤2)中的EM算法包含两个阶段:E-Step(Expectation)根据用户簇的当前组成计算每个簇的中心点;M-Step(Maximization)将每个用户重新分配到从属概率最高的用户簇;
2.1)考虑E-Step,计算用户簇
Figure DEST_PATH_IMAGE021
的中心点
Figure 798104DEST_PATH_IMAGE022
,其中
Figure 441575DEST_PATH_IMAGE001
表示商品类别的数量,元素
Figure DEST_PATH_IMAGE023
的计算公式如下:
Figure 901375DEST_PATH_IMAGE024
其中表示用户簇
Figure 692614DEST_PATH_IMAGE021
的规模,即簇中包含的用户数量;
Figure 833745DEST_PATH_IMAGE004
是用户
Figure 331723DEST_PATH_IMAGE002
的偏好向量中的对应元素,
Figure 116325DEST_PATH_IMAGE002
必须属于
Figure 61147DEST_PATH_IMAGE021
2.2)考虑M-Step,用户属于用户簇
Figure 415567DEST_PATH_IMAGE021
的从属概率由
Figure DEST_PATH_IMAGE027
表示,为计算
Figure 915818DEST_PATH_IMAGE027
,引入背景向量
Figure 336435DEST_PATH_IMAGE028
,其中元素的计算公式如下:
Figure 871322DEST_PATH_IMAGE030
其中
Figure 47088DEST_PATH_IMAGE008
为用户集合;再引入平滑因子
Figure 972319DEST_PATH_IMAGE032
Figure 258944DEST_PATH_IMAGE032
可设为0.01,取值范围0.001~0.06,交易数据越稀疏,
Figure 320440DEST_PATH_IMAGE032
取值越大;计算用户簇
Figure 667108DEST_PATH_IMAGE021
的特征向量,其中元素的计算公式如下:
进一步计算系数向量
Figure 232268DEST_PATH_IMAGE036
,其中元素
Figure DEST_PATH_IMAGE037
的计算公式如下:
Figure 479097DEST_PATH_IMAGE038
基于上述,计算用户
Figure 668770DEST_PATH_IMAGE002
属于用户簇
Figure 630910DEST_PATH_IMAGE021
的从属概率
Figure 197020DEST_PATH_IMAGE027
,公式如下:
Figure DEST_PATH_IMAGE039
将每个用户
Figure 561005DEST_PATH_IMAGE002
重新分配到从属概率最大的用户簇
Figure 983896DEST_PATH_IMAGE040
中,即:
Figure DEST_PATH_IMAGE041
上述步骤2)中采用EM算法完成用户聚类的过程是:首先根据电子商务网站中的用户总数设置用户簇的数量,保证用户簇规模的平均范围为500~3000个用户;随机设定个用户簇,对每一个用户,以均一概率(
Figure DEST_PATH_IMAGE043
)分配到某一个簇中;然后开始迭代:第一步执行EM算法为每一个用户重新分配用户簇;第二步对过大和过小的用户簇做处理,过程是:
2.3)判定过小的用户簇:设定用户簇规模的最小值
Figure 756046DEST_PATH_IMAGE044
,一般;如果存在用户簇
Figure 615418DEST_PATH_IMAGE021
的规模小于
Figure 286571DEST_PATH_IMAGE044
,则解散
Figure 460063DEST_PATH_IMAGE021
,其成员以均一概率分配到其他用户簇中;
2.4)判定过大的用户簇:计算所有用户簇规模取对数后的均值,用
Figure 530132DEST_PATH_IMAGE046
表示,再计算用户簇规模取对数后的方差值,用表示,如果用户簇
Figure 560404DEST_PATH_IMAGE021
满足以下公式:
Figure 656536DEST_PATH_IMAGE048
Figure 430457DEST_PATH_IMAGE021
过大,在其中随机设定2个用户簇,的每个成员以均一概率
Figure DEST_PATH_IMAGE049
分配到一个新簇中;
迭代结束时判断用户簇的组成是否发生变化:如果发生变化,则进入下一次迭代;如果没有发生变化,则迭代结束,输出聚类好的用户簇。
上述步骤3)中的KM算法包含两个阶段:K-Step将每个用户重新分配到匹配度最高的社团;M-Step(Means)根据社团的当前组成计算每个社团的特征向量;
3.1)考虑M-Step,计算社团的特征向量
Figure DEST_PATH_IMAGE051
,其中
Figure DEST_PATH_IMAGE053
为用户总数;元素
Figure 267198DEST_PATH_IMAGE054
)的计算公式如下:
其中表示社团
Figure 629751DEST_PATH_IMAGE050
的规模,即社团中包含的用户数量,
Figure 939510DEST_PATH_IMAGE002
必须属于
Figure 10234DEST_PATH_IMAGE050
Figure 125957DEST_PATH_IMAGE058
是无向邻接矩阵
Figure DEST_PATH_IMAGE059
中元素,是一个
Figure 571031DEST_PATH_IMAGE060
对称矩阵,由交易网络
Figure 925789DEST_PATH_IMAGE007
转换而来,矩阵元素
Figure DEST_PATH_IMAGE061
的定义如下:
Figure 845203DEST_PATH_IMAGE062
显然有
Figure DEST_PATH_IMAGE063
;用户的特征向量
Figure 315685DEST_PATH_IMAGE064
为矩阵
Figure 361001DEST_PATH_IMAGE059
中的第
Figure 2012102192882100002DEST_PATH_IMAGE065
行,即有
Figure 651535DEST_PATH_IMAGE066
3.2)考虑K-Step,用户
Figure 262645DEST_PATH_IMAGE002
同社团
Figure 413004DEST_PATH_IMAGE050
的匹配度基于用户特征向量
Figure 680037DEST_PATH_IMAGE064
和社团特征向量
Figure 2012102192882100002DEST_PATH_IMAGE067
之间的欧氏距离
Figure 941254DEST_PATH_IMAGE068
表示,计算公式如下:
Figure DEST_PATH_IMAGE069
将每个用户
Figure 406871DEST_PATH_IMAGE002
重新分配到匹配度最高的社团
Figure 728130DEST_PATH_IMAGE070
中,即:
Figure DEST_PATH_IMAGE071
上述步骤3)中采用KM算法完成交易网络中社团划分的过程是:首先根据电子商务网站中的用户总数设置社团的数量
Figure 482460DEST_PATH_IMAGE072
,保证社团规模的平均值范围为500~3000个用户;然后初始化社团:对交易网络
Figure DEST_PATH_IMAGE073
中的节点(用户)按度数(出度+入度)排序,等分为
Figure 281789DEST_PATH_IMAGE072
个区间;从每个区间随机选择10~30个用户(节点,一般选择20个);每个用户单独作为一个社团,社团特征向量等于用户特征向量;每次选择两个距离(指特征向量的欧氏距离)最近的社团,将这两个社团合并为一个社团,重新计算新社团的特征向量;重复上述操作,直至剩余
Figure 867491DEST_PATH_IMAGE072
个社团;然后迭代执行KM算法,迭代过程的收敛条件是一次迭代后,每个用户同社团的从属关系没有发生改变;最后输出社团划分结果。
上述步骤4)中应用随机行走方法实现商家推荐的过程是:首先确定推荐的商家数量,一般
Figure DEST_PATH_IMAGE075
(范围3~20);然后从目标用户出发随机行走,选择下一个用户
Figure DEST_PATH_IMAGE077
;判定随机行走是否终止;如果未能终止,则将作为当前用户继续随机行走;如果过程终止,输出
Figure 982602DEST_PATH_IMAGE077
为推荐的商家;上述过程重复
Figure 773840DEST_PATH_IMAGE074
次,最后输出所推荐的一组商家。
上述步骤4)中的随机行走过程包含两个阶段:其一是按概率选择一个社团;其二是按概率从
Figure 412949DEST_PATH_IMAGE050
中选择一个用户;
4.1)令当前用户为
Figure 919017DEST_PATH_IMAGE078
,计算选择社团
Figure 197551DEST_PATH_IMAGE050
的概率
Figure DEST_PATH_IMAGE079
,公式如下:
Figure 142374DEST_PATH_IMAGE080
其中
Figure 494857DEST_PATH_IMAGE072
为社团数量,
Figure DEST_PATH_IMAGE081
表示社团
Figure 499723DEST_PATH_IMAGE050
和社团
Figure 59361DEST_PATH_IMAGE082
的连接强度,计算公式如下:
Figure DEST_PATH_IMAGE083
其中
Figure 542295DEST_PATH_IMAGE084
分别代表社团
Figure 77182DEST_PATH_IMAGE050
Figure 925052DEST_PATH_IMAGE082
的规模,
Figure 912600DEST_PATH_IMAGE061
是无向邻接矩阵
Figure 136908DEST_PATH_IMAGE059
中元素;社团
Figure 526301DEST_PATH_IMAGE086
是用户
Figure 810651DEST_PATH_IMAGE078
所在的社团,分别表示社团
Figure 110232DEST_PATH_IMAGE086
同社团
Figure 291814DEST_PATH_IMAGE050
Figure 812313DEST_PATH_IMAGE082
的连接强度;
4.2)选定社团
Figure 712136DEST_PATH_IMAGE050
之后,计算选择另一用户
Figure 340563DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE089
)的概率
Figure 438969DEST_PATH_IMAGE090
,公式如下:
Figure DEST_PATH_IMAGE091
其中
Figure DEST_PATH_IMAGE093
基于交易网络
Figure 259432DEST_PATH_IMAGE007
中的映射
Figure DEST_PATH_IMAGE095
定义,代表用户之间的交易次数,但不考虑交易的方向,计算公式如下:
Figure 428900DEST_PATH_IMAGE096
其中
Figure 647392DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE097
代表用户之间的交易次数。
上述步骤4)中计算随机行走的终止概率分四种情况,其中令所选用户为
Figure 506764DEST_PATH_IMAGE077
,目标用户为
Figure 177917DEST_PATH_IMAGE076
情况1. 
Figure 351409DEST_PATH_IMAGE077
不是卖家,或者
Figure 424407DEST_PATH_IMAGE076
已经同
Figure 392363DEST_PATH_IMAGE077
交易过,不需要再推荐;此时
情况2. 
Figure 996837DEST_PATH_IMAGE077
Figure 189921DEST_PATH_IMAGE076
属于同一个用户簇,此时
Figure DEST_PATH_IMAGE101
,即随机行走立即终止;
情况3. 
Figure 391095DEST_PATH_IMAGE077
所属用户簇
Figure 974523DEST_PATH_IMAGE102
Figure 283626DEST_PATH_IMAGE076
所属用户簇
Figure DEST_PATH_IMAGE103
不相同,此时计算
Figure 331217DEST_PATH_IMAGE076
Figure 640975DEST_PATH_IMAGE102
的隶属度,公式如下:
其中
Figure 889740DEST_PATH_IMAGE001
为商品类别数量,
Figure 791837DEST_PATH_IMAGE106
Figure 272497DEST_PATH_IMAGE076
的偏好向量中的元素;
Figure DEST_PATH_IMAGE107
为组成
Figure 627255DEST_PATH_IMAGE102
中心点的元素;如果,则
Figure DEST_PATH_IMAGE109
情况4. 
Figure 240956DEST_PATH_IMAGE077
所属用户簇
Figure 954834DEST_PATH_IMAGE102
Figure 150DEST_PATH_IMAGE076
所属用户簇
Figure 460606DEST_PATH_IMAGE103
不相同,且
Figure 9399DEST_PATH_IMAGE110
,此时考虑与
Figure 159757DEST_PATH_IMAGE077
交易过的买家集合
Figure DEST_PATH_IMAGE111
,按以下公式计算
Figure 489108DEST_PATH_IMAGE099
Figure 422429DEST_PATH_IMAGE112
其中
Figure DEST_PATH_IMAGE113
Figure 153624DEST_PATH_IMAGE114
分别代表用户
Figure 25951DEST_PATH_IMAGE010
同用户
Figure 90859DEST_PATH_IMAGE077
的交易次数。
本发明可广泛应用于各类电子商务网站中的商家(卖家)推荐,为广大买家推荐合适的卖家;充分利用买家和卖家的历史交易数据,发掘买家和卖家的偏好特征,基于连接模式分析买家和卖家交易的相似性,合理应用随机行走方法,有效提高商家推荐的准确性和针对性。实验数据表明,应用本发明方法,商家推荐的准确率达到了70%以上,考虑到买家和卖家交易的随机性,这个结果已经超过了目前大多数面向商品的推荐方法和技术。所采用的计算方法简单高效,切合电子商务网站海量交易数据、同时买家和卖家交易信息稀疏的特性,有较好的扩展性和适用性;有效填补了目前电子商务网站商家推荐方面的空白。
附图说明
图1 是基于交易网络的商家推荐方法的结构图;
图2 是交易网络的一个示例图;
图3 是采用期望最大化算法EM进行用户聚类的算法流程图;
图4 是采用K均值算法KM进行交易网络社团划分的算法流程图;
图5 是交易网络示例基于连接模式划分社团后的示意图;
图6 是应用随机行走方法实现商家推荐的工作流程图。
具体实施方式
下面结合附图进行详细说明。
如图1所示,基于交易网络的商家推荐方法包含四个主要步骤:整理交易数据并建立交易网络、根据用户交易历史对用户聚类、对交易网络进行社团划分、应用随机行走方法实现商家推荐。方法的输入是电子商务网站中的历史交易记录、以及商品的分类信息;输出是为指定买家推荐的一组商家。期间涉及的数据结构包括用户偏好向量、交易网络、用户簇、以及社团结构。
步骤一是整理交易数据并建立交易网络,其中包含两个工作:一是根据历史交易记录和商品类别信息为每个用户建立偏好向量,这里的用户包含买家和卖家;二是根据历史交易记录在用户之间建立交易网络。
给定用户
Figure 614244DEST_PATH_IMAGE002
,其偏好向量
Figure 840826DEST_PATH_IMAGE003
,其中表示电子商务网站中商品类别的数量。
Figure 705979DEST_PATH_IMAGE002
可以是一个买家,也可以是一个卖家;在大多数电子商务网站中,一个卖家同时也可能是一个买家,本发明方法不受是否单纯买家或卖家的限制。偏好向量中元素的含义由公式(1)定义,即
Figure 746934DEST_PATH_IMAGE004
的值为1或0取决于用户
Figure 272593DEST_PATH_IMAGE116
是否购买或销售过类别为
Figure DEST_PATH_IMAGE117
的商品,例如一个电脑桌或者一个旅行背包:
Figure 679303DEST_PATH_IMAGE006
         (1)
交易网络是一个有向图
Figure 177281DEST_PATH_IMAGE007
,其中
Figure 745665DEST_PATH_IMAGE008
表示电子商务网站中的用户集合;有向边集合
Figure 961883DEST_PATH_IMAGE009
反映用户之间的交易历史,对于任意两个用户
Figure 906705DEST_PATH_IMAGE002
Figure 259189DEST_PATH_IMAGE010
Figure 998475DEST_PATH_IMAGE011
),有向边
Figure 436410DEST_PATH_IMAGE012
表示用户
Figure 184923DEST_PATH_IMAGE002
曾经从用户
Figure 391913DEST_PATH_IMAGE010
购买过商品;
Figure 570609DEST_PATH_IMAGE013
是一个映射,其中
Figure 495840DEST_PATH_IMAGE014
为自然数集,作用是为边集
Figure 782465DEST_PATH_IMAGE015
中的每一条有向边赋予权重;有向边
Figure 109541DEST_PATH_IMAGE016
的权重表示为
Figure 456209DEST_PATH_IMAGE017
,代表
Figure 603156DEST_PATH_IMAGE002
Figure 693472DEST_PATH_IMAGE010
购买商品的次数,即。不失一般性,若
Figure 392624DEST_PATH_IMAGE018
,则
Figure 292447DEST_PATH_IMAGE019
,另有
Figure 920874DEST_PATH_IMAGE020
图2所示是一个交易网络的示例图,其中没有显示有向边的方向和权重;图中存在环路,如1-2-6-1:表示用户
Figure DEST_PATH_IMAGE119
中至少有一个用户即是买家同时也是卖家。
步骤二是根据用户交易历史对用户聚类,采用期望最大化算法EM,过程如图3所示。算法根据所有用户的偏好向量将用户划分为多个偏好相似的用户簇,每个用户必须且只能从属于一个用户簇。用户簇的数量
Figure 19280DEST_PATH_IMAGE042
事先指定:可以根据电子商务网站中的用户总数,除以期望的簇规模来确定,簇规模的范围一般设置为500~3000。例如一个电子商务网站中用户总数为106,簇规模定为1000,则
Figure 645434DEST_PATH_IMAGE042
的值为
EM算法的主体包括两个阶段:E-Step(Expectation)根据用户簇的当前组成计算每个簇的中心点;M-Step(Maximization)将每个用户重新分配到从属概率最高的用户簇。两个阶段迭代计算,收敛条件是一次迭代后,每个用户同用户簇的从属关系没有发生改变。
考虑E-Step,用户簇
Figure 199092DEST_PATH_IMAGE021
的中心点,其中
Figure 211708DEST_PATH_IMAGE001
表示商品类别的数量,与偏好向量
Figure 882861DEST_PATH_IMAGE026
中相同;元素
Figure 790774DEST_PATH_IMAGE023
按公式(2)计算:
Figure 863773DEST_PATH_IMAGE024
                               (2)
其中
Figure 831729DEST_PATH_IMAGE025
表示用户簇
Figure 927861DEST_PATH_IMAGE021
的规模,即簇中包含的用户数量;
Figure 701782DEST_PATH_IMAGE004
是用户
Figure 832549DEST_PATH_IMAGE002
的偏好向量
Figure 33723DEST_PATH_IMAGE026
中的对应元素,
Figure 351572DEST_PATH_IMAGE002
必须属于
考虑M-Step,用户
Figure 976774DEST_PATH_IMAGE002
属于用户簇
Figure 286533DEST_PATH_IMAGE021
的从属概率由
Figure 153994DEST_PATH_IMAGE027
表示,为计算
Figure 207401DEST_PATH_IMAGE027
,首先引入背景向量
Figure 112428DEST_PATH_IMAGE028
,其中元素
Figure 593088DEST_PATH_IMAGE029
由公式(3)计算:
Figure 213425DEST_PATH_IMAGE030
                                  (3)
其中
Figure 804943DEST_PATH_IMAGE008
为所有用户组成的集合。再引入平滑因子
Figure 827126DEST_PATH_IMAGE032
Figure 478687DEST_PATH_IMAGE032
可设为0.01,取值范围0.001~0.06,取决于交易数据的稀疏程度:数据越稀疏,取值越大;意味着数据中的噪声比例越大,更需要背景向量进行平滑处理。
然后基于背景向量
Figure 715950DEST_PATH_IMAGE122
、平滑因子
Figure 592639DEST_PATH_IMAGE032
Figure 415102DEST_PATH_IMAGE021
的中心点
Figure DEST_PATH_IMAGE123
,计算用户簇
Figure 744452DEST_PATH_IMAGE021
的特征向量
Figure 5669DEST_PATH_IMAGE033
,其中元素
Figure 736865DEST_PATH_IMAGE034
由公式(4)计算:
Figure 730229DEST_PATH_IMAGE035
                               (4)
根据特征向量
Figure 543945DEST_PATH_IMAGE124
进一步计算系数向量
Figure 546536DEST_PATH_IMAGE036
,其中元素
Figure 132238DEST_PATH_IMAGE037
由公式(5)计算:
Figure 296503DEST_PATH_IMAGE038
                    (5)
最后根据系数向量
Figure DEST_PATH_IMAGE125
,结合特征向量
Figure 600446DEST_PATH_IMAGE124
等,计算用户
Figure 203465DEST_PATH_IMAGE002
属于用户簇的从属概率
Figure 244420DEST_PATH_IMAGE027
,如公式(6)所示:
Figure 707762DEST_PATH_IMAGE039
(6)
如图3所示,首先是用户簇初始化,随机设定
Figure 114473DEST_PATH_IMAGE042
个用户簇,对每一个用户,以均一概率(
Figure 346871DEST_PATH_IMAGE043
)分配到某一个簇中;然后执行EM算法,在每一次迭代中,第一步执行E-Step,根据每个用户簇的当前构成计算其中心点;第二步执行M-Step,将每个用户
Figure 180835DEST_PATH_IMAGE002
重新分配到从属概率最大的用户簇
Figure 131473DEST_PATH_IMAGE040
中,由公式(7)表示:
                                        (7)
M-Step执行完毕后,在下一次迭代开始之前,对过大和过小的用户簇做进一步处理:对于过小的簇,设定用户簇规模的最小值
Figure 428779DEST_PATH_IMAGE044
,一般
Figure 436574DEST_PATH_IMAGE045
,如果存在用户簇
Figure 874509DEST_PATH_IMAGE021
的规模小于
Figure 623022DEST_PATH_IMAGE044
,则解散
Figure 830012DEST_PATH_IMAGE021
,其成员以均一概率分配到其他用户簇中。
对于过大的簇,计算所有用户簇规模取对数后的均值,用
Figure 943462DEST_PATH_IMAGE046
表示,再计算用户簇规模取对数后的方差值,用
Figure 931009DEST_PATH_IMAGE047
表示,如果用户簇
Figure 217634DEST_PATH_IMAGE021
满足公式(8),则将
Figure 544710DEST_PATH_IMAGE021
拆分成2个用户簇:
Figure 563482DEST_PATH_IMAGE048
                                    (8)
拆分过程是随机设定2个用户簇,中每个成员以均一概率
Figure 66324DEST_PATH_IMAGE049
分配到一个新簇中。
如果一次迭代执行完毕后,用户同用户簇的从属关系没有发生改变,则算法执行过程终止。
步骤三是对交易网络进行社团划分,采用K均值算法KM,过程如图4所示。算法根据交易网络中各节点(代表用户)的连接模式,将节点划分到多个连接模式相近的社团,每一个节点必须且只能从属于一个社团。社团的数量事先指定:可以根据电子商务网站中的用户总数,除以期望的社团规模来确定,社团规模的范围同用户簇规模的范围相当,一般设置为500~3000。考虑一个拥有106个用户的电子商务网站,假设社团规模设置为2000,则
Figure 765476DEST_PATH_IMAGE072
的值为500。
为进行社团划分,需要将交易网络
Figure 462037DEST_PATH_IMAGE007
转换为无向邻接矩阵
Figure 28147DEST_PATH_IMAGE059
是一个
Figure 77673DEST_PATH_IMAGE060
对称矩阵,其中为用户(节点)总数(即),矩阵元素
Figure 787506DEST_PATH_IMAGE061
的值由公式(9)定义:
Figure 646878DEST_PATH_IMAGE062
         (9)
按公式(9),显然有
Figure 255714DEST_PATH_IMAGE063
。定义用户的特征向量
Figure 236625DEST_PATH_IMAGE064
为矩阵
Figure 266898DEST_PATH_IMAGE059
中的第
Figure 363030DEST_PATH_IMAGE065
行,即有
Figure 136951DEST_PATH_IMAGE066
KM算法的主体亦包括两个阶段:K-Step将每个用户重新分配到匹配度最高的社团;M-Step(Means)根据社团的当前组成计算每个社团的特征向量;两个阶段迭代计算,收敛条件是一次迭代后,每个用户同社团的从属关系没有发生改变。
考虑M-Step,社团
Figure 2139DEST_PATH_IMAGE050
的特征向量,其中
Figure 786741DEST_PATH_IMAGE053
为用户总数;元素
Figure 364353DEST_PATH_IMAGE054
按公式(10)计算:
Figure 84047DEST_PATH_IMAGE056
                                                   (10)
其中
Figure 459052DEST_PATH_IMAGE057
表示社团
Figure 529776DEST_PATH_IMAGE050
的规模,即社团中包含的用户数量,
Figure 645500DEST_PATH_IMAGE002
必须属于
Figure 485280DEST_PATH_IMAGE050
考虑K-Step,用户
Figure 28257DEST_PATH_IMAGE002
同社团
Figure 586277DEST_PATH_IMAGE050
的匹配度基于用户特征向量和社团特征向量
Figure 934399DEST_PATH_IMAGE067
之间的欧氏距离表示,由公式(11)计算:
Figure 693593DEST_PATH_IMAGE069
              (11)
如图4所示,首先是社团初始化:对交易网络
Figure 151119DEST_PATH_IMAGE073
中的节点(用户)按度数(出度+入度)排序,等分为
Figure 965492DEST_PATH_IMAGE072
个区间;从每个区间随机选择10~30个用户(节点,一般选择20个);每个用户单独作为一个社团,社团特征向量等于用户特征向量;每次选择两个距离(指特征向量的欧氏距离,按公式(11)计算)最近的社团,将这两个社团合并为一个社团,重新计算新社团的特征向量;重复上述操作,直至剩余
Figure 850271DEST_PATH_IMAGE072
个社团。
然后执行KM算法,在每一次迭代中,第一步执行K-Step,将每个用户
Figure 117304DEST_PATH_IMAGE002
重新分配到匹配度最高的社团
Figure 378521DEST_PATH_IMAGE070
中,由公式(12)表示:
Figure 47400DEST_PATH_IMAGE071
                                         (12)
K-Step执行完毕后,检查每个社团的组成是否发生改变,如果没有则迭代结束,输出社团划分结果;否则继续执行M-Step,根据每个社团的当前构成计算其特征向量;M-Step执行完毕后进入下一次迭代。图5所示是交易网络示例(图2)划分社团后的示意图,其中集合
Figure DEST_PATH_IMAGE127
中各节点的连接模式相似,被划入同一个社团;同理集合中各节点的连接模式与前述集合有较大不同,且彼此相似,被划入另一个社团。
步骤四是基于用户簇和社团划分,应用随机行走方法实现商家推荐,过程如图6所示。从目标用户(买家)出发,一次随机行走到达下一个用户;然后以该用户为当前用户继续随机行走;直至达到终止条件。随机行走包含两个阶段:其一是按概率选择一个社团
Figure 940235DEST_PATH_IMAGE050
;其二是按概率从中选择一个用户。
令当前用户为
Figure 262949DEST_PATH_IMAGE078
,为计算选择社团
Figure 692793DEST_PATH_IMAGE050
的概率,首先计算社团之间的连接强度;给定社团和社团
Figure 915330DEST_PATH_IMAGE082
Figure 312813DEST_PATH_IMAGE050
Figure 41735DEST_PATH_IMAGE082
之间的连接强度
Figure 182866DEST_PATH_IMAGE081
按公式(13)计算:
Figure 680844DEST_PATH_IMAGE083
                                         (13)
其中
Figure 465446DEST_PATH_IMAGE085
分别代表社团
Figure 410268DEST_PATH_IMAGE050
的规模,
Figure 770547DEST_PATH_IMAGE061
是无向邻接矩阵
Figure 208482DEST_PATH_IMAGE059
中元素,由公式(9)定义。按公式(13)也可以计算社团
Figure 691416DEST_PATH_IMAGE050
的自连接强度
令当前用户
Figure 226302DEST_PATH_IMAGE078
属于社团
Figure 402068DEST_PATH_IMAGE086
,社团选择概率
Figure 327299DEST_PATH_IMAGE079
按公式(14)计算:
Figure 613924DEST_PATH_IMAGE080
                                                (14)
其中
Figure 675421DEST_PATH_IMAGE072
为社团总数,
Figure 22089DEST_PATH_IMAGE087
Figure 434615DEST_PATH_IMAGE088
分别表示社团同社团
Figure 706514DEST_PATH_IMAGE050
Figure 958504DEST_PATH_IMAGE082
的连接强度。
选定社团
Figure 858326DEST_PATH_IMAGE050
之后,按公式(15)计算选择另一用户
Figure 483824DEST_PATH_IMAGE002
Figure 785493DEST_PATH_IMAGE089
)的概率
Figure 595503DEST_PATH_IMAGE091
                                              (15)
其中
Figure 965304DEST_PATH_IMAGE092
Figure 918217DEST_PATH_IMAGE093
基于交易网络
Figure 715271DEST_PATH_IMAGE007
中的映射定义,代表用户之间的交易次数,但不考虑交易的方向,如公式(16)所示:
Figure 559916DEST_PATH_IMAGE096
                                                  (16)
按公式(16),显然有
Figure 632915DEST_PATH_IMAGE130
,不考虑
Figure 600871DEST_PATH_IMAGE002
谁是买家或卖家。
一次随机行走后,计算随机行走的终止概率
Figure 470924DEST_PATH_IMAGE099
;令所选用户为
Figure 398428DEST_PATH_IMAGE077
,目标用户为
Figure 537286DEST_PATH_IMAGE076
,分以下4种情况:
情况1. 
Figure 183031DEST_PATH_IMAGE077
不是卖家,或者
Figure DEST_PATH_IMAGE131
,即
Figure 497993DEST_PATH_IMAGE076
已经同交易过,不需要再推荐;此时
情况2. 属于同一个用户簇,此时
Figure 881570DEST_PATH_IMAGE101
,即随机行走立即终止;
情况3. 
Figure 424547DEST_PATH_IMAGE077
所属用户簇
Figure 716988DEST_PATH_IMAGE102
Figure 636402DEST_PATH_IMAGE076
所属用户簇
Figure 330689DEST_PATH_IMAGE103
不相同,此时计算
Figure 44567DEST_PATH_IMAGE076
Figure 89883DEST_PATH_IMAGE102
的隶属度
Figure 547409DEST_PATH_IMAGE104
,如公式(17)所示:
Figure 96202DEST_PATH_IMAGE105
                                  (17)
其中
Figure 246561DEST_PATH_IMAGE106
Figure 513594DEST_PATH_IMAGE076
的偏好向量中的元素,由公式(1)定义;
Figure 771882DEST_PATH_IMAGE107
为组成
Figure 175181DEST_PATH_IMAGE102
中心点的元素,由公式(2)定义;
Figure 496441DEST_PATH_IMAGE001
表示商品类别的数量。如果
Figure 250770DEST_PATH_IMAGE108
,则
Figure 50099DEST_PATH_IMAGE109
情况4. 
Figure 573484DEST_PATH_IMAGE077
所属用户簇
Figure 65646DEST_PATH_IMAGE102
Figure 41692DEST_PATH_IMAGE076
所属用户簇
Figure 644711DEST_PATH_IMAGE103
不相同,且
Figure 288182DEST_PATH_IMAGE110
,此时考虑与
Figure 685666DEST_PATH_IMAGE077
交易过的买家集合
Figure 414587DEST_PATH_IMAGE111
,按公式(18)计算
Figure 555719DEST_PATH_IMAGE099
Figure 53696DEST_PATH_IMAGE112
                               (18)
其中
Figure 622081DEST_PATH_IMAGE113
Figure 838298DEST_PATH_IMAGE114
分别代表用户
Figure 786050DEST_PATH_IMAGE002
Figure 138534DEST_PATH_IMAGE010
同用户的交易次数;公式(18)揭示
Figure 581334DEST_PATH_IMAGE076
是否与
Figure 64268DEST_PATH_IMAGE077
的大部分买家偏好相似。如果一次随机行走未能终止,则将所选用户
Figure 536838DEST_PATH_IMAGE077
作为当前用户,继续下一次的随机行走。
如图6所示,首先确定本次推荐的商家数量
Figure 447025DEST_PATH_IMAGE074
,一般
Figure 372255DEST_PATH_IMAGE075
(范围3~20);然后从目标用户
Figure 596563DEST_PATH_IMAGE076
出发随机行走,选择下一个用户
Figure 985956DEST_PATH_IMAGE077
;分四种情况判定随机行走是否终止;如果未能终止,则将
Figure 270307DEST_PATH_IMAGE077
作为当前用户
Figure 745151DEST_PATH_IMAGE078
继续随机行走;如果过程终止,输出
Figure 507571DEST_PATH_IMAGE077
为推荐的商家;上述过程重复
Figure 751470DEST_PATH_IMAGE074
次,最后输出所推荐的一组商家。
我们根据电子商务网站中实际采集的交易数据对本发明方法进行检验:从所建立的交易网络中随机删除部分有向边,即删除部分买家和卖家之间的交易关系;然后以这些买家作为目标用户,应用本发明方法为其推荐合适的卖家(商家),如果推荐的卖家就是之前删除了交易关系的卖家,则证明推荐方法的合理性和准确性。实验数据表明,应用本发明方法,商家推荐的准确率达到了70%以上;考虑到买家和卖家交易的随机性,这个结果已经超过了目前大多数面向商品的推荐方法和技术。本发明方法计算简单高效,适合电子商务网站海量交易数据的特点,具有良好的适用性和扩展性。

Claims (10)

1.一种基于交易网络的商家推荐方法,其特征在于包括以下步骤:
1)整理交易数据并建立交易网络,包括为每个用户,即买家和卖家,建立和维护偏好向量;并根据历史交易记录在用户之间建立交易网络;
2)根据用户交易历史对用户聚类;采用期望最大化算法EM,通过用户偏好向量进行用户聚类,形成偏好相似的用户簇;
3)对交易网络进行社团划分;采用K均值算法KM,根据交易网络中各用户节点的连接模式划分社团;
4)应用随机行走方法实现商家推荐,从买家出发,在社团间随机行走,根据用户簇决定停止概率,完成商家推荐。
2.根据权利要求1所述的基于交易网络的商家推荐方法,其特征在于,上述步骤1)中用户的偏好向量用数组表示:令                                               
Figure 2012102192882100001DEST_PATH_IMAGE002
表示电子商务网站中商品类别的数量;用户
Figure 2012102192882100001DEST_PATH_IMAGE004
的偏好向量为
Figure 2012102192882100001DEST_PATH_IMAGE006
;其中元素
Figure 2012102192882100001DEST_PATH_IMAGE008
Figure 2012102192882100001DEST_PATH_IMAGE010
)的定义如下:
Figure 2012102192882100001DEST_PATH_IMAGE012
3.根据权利要求1所述的基于交易网络的商家推荐方法,其特征在于,上述步骤1)中的交易网络是一个有向图
Figure 2012102192882100001DEST_PATH_IMAGE014
,其中
Figure 2012102192882100001DEST_PATH_IMAGE016
表示电子商务网站中的用户集合;有向边集合反映用户之间的交易历史,对于任意两个用户
Figure 635818DEST_PATH_IMAGE004
Figure 2012102192882100001DEST_PATH_IMAGE022
),有向边
Figure 2012102192882100001DEST_PATH_IMAGE024
表示用户
Figure 786177DEST_PATH_IMAGE004
曾经从用户
Figure 364794DEST_PATH_IMAGE020
购买过商品;
Figure 2012102192882100001DEST_PATH_IMAGE026
是一个映射,其中
Figure 2012102192882100001DEST_PATH_IMAGE028
为自然数集,作用是为
Figure 2012102192882100001DEST_PATH_IMAGE030
中的每一条有向边赋予权重;简化处理:有向边
Figure 2012102192882100001DEST_PATH_IMAGE032
的权重表示为
Figure 2012102192882100001DEST_PATH_IMAGE034
,代表
Figure 173481DEST_PATH_IMAGE004
Figure 842360DEST_PATH_IMAGE020
购买商品的次数,若
Figure 2012102192882100001DEST_PATH_IMAGE036
,则
Figure 2012102192882100001DEST_PATH_IMAGE038
,另有
Figure 2012102192882100001DEST_PATH_IMAGE040
4.根据权利要求1、2或3所述的基于交易网络的商家推荐方法,其特征在于,上述步骤2)中的EM算法包含两个阶段:E-Step根据用户簇的当前组成计算每个簇的中心点;M-Step将每个用户重新分配到从属概率最高的用户簇;具体过程为:
2.1)考虑E-Step,计算用户簇
Figure 2012102192882100001DEST_PATH_IMAGE042
的中心点
Figure 2012102192882100001DEST_PATH_IMAGE044
,其中
Figure 540451DEST_PATH_IMAGE002
表示商品类别的数量,元素
Figure 2012102192882100001DEST_PATH_IMAGE046
的计算公式如下:
Figure 2012102192882100001DEST_PATH_IMAGE048
其中表示用户簇
Figure 842251DEST_PATH_IMAGE042
的规模,即簇中包含的用户数量;
Figure 844842DEST_PATH_IMAGE008
是用户
Figure 430544DEST_PATH_IMAGE004
的偏好向量
Figure 2012102192882100001DEST_PATH_IMAGE052
中的对应元素,
Figure 906393DEST_PATH_IMAGE004
必须属于
2.2)考虑M-Step,用户
Figure 688722DEST_PATH_IMAGE004
属于用户簇
Figure 128930DEST_PATH_IMAGE042
的从属概率由
Figure 2012102192882100001DEST_PATH_IMAGE054
表示,为计算
Figure 729676DEST_PATH_IMAGE054
,引入背景向量
Figure 2012102192882100001DEST_PATH_IMAGE056
,其中元素
Figure 2012102192882100001DEST_PATH_IMAGE058
的计算公式如下:
Figure 2012102192882100001DEST_PATH_IMAGE060
其中为用户集合;再引入平滑因子
Figure 2012102192882100001DEST_PATH_IMAGE062
Figure 721433DEST_PATH_IMAGE062
可设为0.01,取值范围0.001~0.06,交易数据越稀疏,
Figure 219410DEST_PATH_IMAGE062
取值越大;计算用户簇
Figure 725478DEST_PATH_IMAGE042
的特征向量,其中元素
Figure 2012102192882100001DEST_PATH_IMAGE066
的计算公式如下:
Figure 2012102192882100001DEST_PATH_IMAGE068
进一步计算系数向量
Figure 2012102192882100001DEST_PATH_IMAGE070
,其中元素
Figure 2012102192882100001DEST_PATH_IMAGE072
的计算公式如下:
Figure 2012102192882100001DEST_PATH_IMAGE074
基于上述,计算用户
Figure 879379DEST_PATH_IMAGE004
属于用户簇
Figure 761884DEST_PATH_IMAGE042
的从属概率
Figure 425953DEST_PATH_IMAGE054
,公式如下:
将每个用户
Figure 102922DEST_PATH_IMAGE004
重新分配到从属概率最大的用户簇
Figure 2012102192882100001DEST_PATH_IMAGE078
中,即:
Figure 2012102192882100001DEST_PATH_IMAGE080
5.根据权利要求4所述的基于交易网络的商家推荐方法,其特征在于,上述步骤2)中采用EM算法完成用户聚类的过程是:首先根据电子商务网站中的用户总数设置用户簇的数量,保证用户簇规模的平均范围为500~3000个用户;随机设定
Figure 416222DEST_PATH_IMAGE082
个用户簇,对每一个用户,以均一概率
Figure 2012102192882100001DEST_PATH_IMAGE084
分配到某一个簇中;然后开始迭代:第一步执行EM算法为每一个用户重新分配用户簇;第二步对过大和过小的用户簇做处理,过程是:
2.3)判定过小的用户簇:设定用户簇规模的最小值
Figure 2012102192882100001DEST_PATH_IMAGE086
,一般
Figure 2012102192882100001DEST_PATH_IMAGE088
;如果存在用户簇
Figure 541567DEST_PATH_IMAGE042
的规模小于,则解散
Figure 675056DEST_PATH_IMAGE042
,其成员以均一概率分配到其他用户簇中;
2.4)判定过大的用户簇:计算所有用户簇规模取对数后的均值,用
Figure 2012102192882100001DEST_PATH_IMAGE090
表示,再计算用户簇规模取对数后的方差值,用
Figure 2012102192882100001DEST_PATH_IMAGE092
表示,如果用户簇
Figure 662603DEST_PATH_IMAGE042
满足以下公式:
Figure 2012102192882100001DEST_PATH_IMAGE094
Figure 886911DEST_PATH_IMAGE042
过大,在其中随机设定2个用户簇,
Figure 525572DEST_PATH_IMAGE042
的每个成员以均一概率
Figure 2012102192882100001DEST_PATH_IMAGE096
分配到一个新簇中;
迭代结束时判断用户簇的组成是否发生变化:如果发生变化,则进入下一次迭代;如果没有发生变化,则迭代结束,输出聚类好的用户簇。
6.根据权利要求1、2或3所述的基于交易网络的商家推荐方法,其特征在于,上述步骤3)中的KM算法包含两个阶段:K-Step将每个用户重新分配到匹配度最高的社团;M-Step根据社团的当前组成计算每个社团的特征向量;具体过程为:
3.1)考虑M-Step,计算社团
Figure 2012102192882100001DEST_PATH_IMAGE098
的特征向量
Figure 2012102192882100001DEST_PATH_IMAGE100
,其中
Figure DEST_PATH_IMAGE102
为用户总数;元素
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE106
)的计算公式如下:
Figure DEST_PATH_IMAGE108
其中
Figure DEST_PATH_IMAGE110
表示社团的规模,即社团中包含的用户数量,
Figure 226646DEST_PATH_IMAGE004
必须属于
Figure 254645DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE112
是无向邻接矩阵
Figure DEST_PATH_IMAGE114
中元素,
Figure 498544DEST_PATH_IMAGE114
是一个对称矩阵,由交易网络
Figure 766846DEST_PATH_IMAGE014
转换而来,矩阵元素的定义如下:
显然有
Figure DEST_PATH_IMAGE122
;用户
Figure 728985DEST_PATH_IMAGE004
的特征向量
Figure DEST_PATH_IMAGE124
为矩阵中的第
Figure DEST_PATH_IMAGE126
行,即有
Figure DEST_PATH_IMAGE128
3.2)考虑K-Step,用户
Figure 705086DEST_PATH_IMAGE004
同社团
Figure 331240DEST_PATH_IMAGE098
的匹配度基于用户特征向量
Figure 265829DEST_PATH_IMAGE124
和社团特征向量之间的欧氏距离
Figure DEST_PATH_IMAGE132
表示,计算公式如下:
Figure DEST_PATH_IMAGE134
将每个用户
Figure 697947DEST_PATH_IMAGE004
重新分配到匹配度最高的社团中,即:
Figure DEST_PATH_IMAGE138
7.根据权利要求6所述的基于交易网络的商家推荐方法,其特征在于,上述步骤3)中采用KM算法完成交易网络中社团划分的过程是:首先根据电子商务网站中的用户总数设置社团的数量
Figure DEST_PATH_IMAGE140
,保证社团规模的平均值范围为500~3000个用户;然后初始化社团:对交易网络中的用户节点按度数,即出度+入度排序,等分为个区间;从每个区间随机选择10~30个用户节点;每个用户节点单独作为一个社团,社团特征向量等于用户特征向量;每次选择两个特征向量的欧氏距离最近的社团,将这两个社团合并为一个社团,重新计算新社团的特征向量;重复上述操作,直至剩余
Figure 841057DEST_PATH_IMAGE140
个社团;然后迭代执行KM算法,迭代过程的收敛条件是一次迭代后,每个用户同社团的从属关系没有发生改变;最后输出社团划分结果。
8.根据权利要求1、2或3所述的基于交易网络的商家推荐方法,其特征在于,上述步骤4)中应用随机行走方法实现商家推荐的过程是:首先确定推荐的商家数量
Figure DEST_PATH_IMAGE144
, 
Figure 512210DEST_PATH_IMAGE144
=3~20;然后从目标用户
Figure DEST_PATH_IMAGE146
出发随机行走,选择下一个用户
Figure DEST_PATH_IMAGE148
;判定随机行走是否终止;如果未能终止,则将作为当前用户
Figure DEST_PATH_IMAGE150
继续随机行走;如果过程终止,输出
Figure 804706DEST_PATH_IMAGE148
为推荐的商家;上述过程重复
Figure 772662DEST_PATH_IMAGE144
次,最后输出所推荐的一组商家。
9.根据权利要求8所述的基于交易网络的商家推荐方法,其特征在于,
上述步骤4)中的随机行走过程包含两个阶段:其一是按概率选择一个社团
Figure 868794DEST_PATH_IMAGE098
;其二是按概率从
Figure 393447DEST_PATH_IMAGE098
中选择一个用户;
4.1)令当前用户为
Figure 524214DEST_PATH_IMAGE150
,计算选择社团的概率
Figure DEST_PATH_IMAGE152
,公式如下:
Figure DEST_PATH_IMAGE154
其中
Figure 351892DEST_PATH_IMAGE140
为社团数量,表示社团
Figure 867187DEST_PATH_IMAGE098
和社团的连接强度,计算公式如下:
Figure DEST_PATH_IMAGE160
其中
Figure DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE164
分别代表社团
Figure 727827DEST_PATH_IMAGE098
Figure 99902DEST_PATH_IMAGE158
的规模,
Figure 905047DEST_PATH_IMAGE118
是无向邻接矩阵
Figure 958454DEST_PATH_IMAGE114
中元素;社团是用户
Figure 109818DEST_PATH_IMAGE150
所在的社团,
Figure DEST_PATH_IMAGE168
Figure DEST_PATH_IMAGE170
分别表示社团同社团
Figure 23865DEST_PATH_IMAGE098
的连接强度;
4.2)选定社团
Figure 575249DEST_PATH_IMAGE098
之后,计算选择另一用户
Figure 289127DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE172
)的概率
Figure DEST_PATH_IMAGE174
,公式如下:
其中
Figure DEST_PATH_IMAGE180
基于交易网络
Figure 445695DEST_PATH_IMAGE014
中的映射定义,代表用户之间的交易次数,但不考虑交易的方向,计算公式如下:
Figure DEST_PATH_IMAGE184
其中代表用户之间的交易次数。
10.根据权利要求9所述的基于交易网络的商家推荐方法,其特征在于,上述步骤4)中计算随机行走的终止概率
Figure DEST_PATH_IMAGE188
分四种情况,其中令所选用户为
Figure 530643DEST_PATH_IMAGE148
,目标用户为
Figure 353105DEST_PATH_IMAGE146
情况1. 不是卖家,或者
Figure 130623DEST_PATH_IMAGE146
已经同
Figure 799502DEST_PATH_IMAGE148
交易过,不需要再推荐;此时
情况2. 
Figure 855183DEST_PATH_IMAGE148
属于同一个用户簇,此时
Figure DEST_PATH_IMAGE192
,即随机行走立即终止;
情况3. 
Figure 425153DEST_PATH_IMAGE148
所属用户簇
Figure 10855DEST_PATH_IMAGE146
所属用户簇
Figure DEST_PATH_IMAGE196
不相同,此时计算
Figure 483775DEST_PATH_IMAGE146
的隶属度
Figure DEST_PATH_IMAGE198
,公式如下:
Figure DEST_PATH_IMAGE200
其中
Figure 328420DEST_PATH_IMAGE002
为商品类别数量,
Figure DEST_PATH_IMAGE202
Figure 519361DEST_PATH_IMAGE146
的偏好向量中的元素;为组成中心点的元素;如果
Figure DEST_PATH_IMAGE206
,则
情况4. 
Figure 957350DEST_PATH_IMAGE148
所属用户簇
Figure 301744DEST_PATH_IMAGE194
Figure 534142DEST_PATH_IMAGE146
所属用户簇
Figure 368106DEST_PATH_IMAGE196
不相同,且
Figure DEST_PATH_IMAGE210
,此时考虑与交易过的买家集合
Figure DEST_PATH_IMAGE212
,按以下公式计算
Figure 14299DEST_PATH_IMAGE188
其中
Figure DEST_PATH_IMAGE216
分别代表用户
Figure 743614DEST_PATH_IMAGE004
Figure 686162DEST_PATH_IMAGE020
同用户的交易次数。
CN2012102192882A 2012-06-29 2012-06-29 一种基于交易网络的商家推荐方法 Pending CN102750647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102192882A CN102750647A (zh) 2012-06-29 2012-06-29 一种基于交易网络的商家推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102192882A CN102750647A (zh) 2012-06-29 2012-06-29 一种基于交易网络的商家推荐方法

Publications (1)

Publication Number Publication Date
CN102750647A true CN102750647A (zh) 2012-10-24

Family

ID=47030800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102192882A Pending CN102750647A (zh) 2012-06-29 2012-06-29 一种基于交易网络的商家推荐方法

Country Status (1)

Country Link
CN (1) CN102750647A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065258A (zh) * 2012-12-25 2013-04-24 苏州博康生物医疗科技有限公司 一种实现智能服务平台的方法
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法
CN103559626A (zh) * 2013-09-24 2014-02-05 浙江工商大学 基于二部图资源非均匀分配的个性化商品推荐方法
CN103942255A (zh) * 2014-03-19 2014-07-23 华存数据信息技术有限公司 个性化信息推荐系统及其推荐方法
CN104239335A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 特定用户信息获取方法及装置
CN104504597A (zh) * 2014-12-26 2015-04-08 湖南亿谷信息科技发展有限公司 学习平台的知识商城管理系统及方法
CN104574108A (zh) * 2014-12-30 2015-04-29 苏州亚安智能科技有限公司 一种智能化实现电子服务平台的方法
CN104714971A (zh) * 2013-12-16 2015-06-17 深圳先进技术研究院 移动终端商家个性推荐方法
CN104899763A (zh) * 2015-05-07 2015-09-09 西安电子科技大学 基于二分网络双向扩散的个性化推荐方法
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置
CN105488684A (zh) * 2015-11-16 2016-04-13 孙宝文 交易系统中的推荐关系确定方法及装置
CN105590234A (zh) * 2014-12-30 2016-05-18 中国银联股份有限公司 一种向目标用户推荐商品的方法和系统
CN106021590A (zh) * 2016-06-06 2016-10-12 东南大学 一种基于超图的多蚁群并行组合聚类方法
CN106095987A (zh) * 2016-06-20 2016-11-09 广州中大电讯科技有限公司 一种基于社区网络的内容个性化推送方法及系统
CN106779749A (zh) * 2016-12-26 2017-05-31 安徽维智知识产权代理有限公司 一种基于ip地址的专利产品交易方法
CN106909932A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种网站聚类的方法及装置
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置
CN107004221A (zh) * 2014-11-28 2017-08-01 Bc卡有限公司 用于预测使用行业的卡使用模式分析方法及执行其的服务器
CN107135137A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 网络群组识别方法及装置
CN107194723A (zh) * 2017-05-17 2017-09-22 中国科学技术大学 网络小额贷款中借款项目与出借人的双向匹配推荐方法
CN107248095A (zh) * 2017-04-14 2017-10-13 北京小度信息科技有限公司 推荐方法及装置
CN107507028A (zh) * 2017-08-16 2017-12-22 北京京东尚科信息技术有限公司 用户偏好确定方法、装置、设备及存储介质
CN107590690A (zh) * 2017-09-05 2018-01-16 阿里巴巴集团控股有限公司 数据处理方法、装置及服务器
CN108140203A (zh) * 2015-08-18 2018-06-08 万事达卡国际股份有限公司 用于通过性质图形模型生成关系的系统和方法
CN108154425A (zh) * 2018-01-19 2018-06-12 广州天源信息科技股份有限公司 一种结合社会网络和位置的线下商户推荐方法
CN108701313A (zh) * 2015-12-11 2018-10-23 万事达卡国际股份有限公司 使用数据语料库生成推荐的系统和方法
CN109241202A (zh) * 2018-09-11 2019-01-18 杭州飞弛网络科技有限公司 一种基于聚类的陌生人社交用户匹配方法和系统
CN109474703A (zh) * 2018-12-24 2019-03-15 杭州云纪网络科技有限公司 个性化产品组合推送方法、装置及系统
CN109597858A (zh) * 2018-12-14 2019-04-09 拉扎斯网络科技(上海)有限公司 一种商户的分类方法及其装置和商户的推荐方法及其装置
CN109685630A (zh) * 2019-01-09 2019-04-26 苏州大学 电子商务团购推荐方法及系统
WO2019141072A1 (zh) * 2018-01-22 2019-07-25 阿里巴巴集团控股有限公司 店铺信息推荐方法、装置及客户端
CN111209473A (zh) * 2019-12-26 2020-05-29 武汉物易云通网络科技有限公司 一种基于大数据的车货匹配方法及系统
CN112070577A (zh) * 2020-08-31 2020-12-11 深圳市卡牛科技有限公司 一种商品推荐方法、系统、设备及介质
CN112862539A (zh) * 2021-03-03 2021-05-28 拉扎斯网络科技(上海)有限公司 流量处理方法、装置、电子设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096997A1 (en) * 2003-10-31 2005-05-05 Vivek Jain Targeting shoppers in an online shopping environment
US20080262918A1 (en) * 2007-04-19 2008-10-23 Jay Wiener Exercise recommendation engine and internet business model
US20090271246A1 (en) * 2008-04-28 2009-10-29 American Express Travel Related Services Company, Inc. Merchant recommendation system and method
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法
US20110184806A1 (en) * 2010-01-27 2011-07-28 Ye Chen Probabilistic recommendation of an item

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096997A1 (en) * 2003-10-31 2005-05-05 Vivek Jain Targeting shoppers in an online shopping environment
US20080262918A1 (en) * 2007-04-19 2008-10-23 Jay Wiener Exercise recommendation engine and internet business model
US20090271246A1 (en) * 2008-04-28 2009-10-29 American Express Travel Related Services Company, Inc. Merchant recommendation system and method
US20110184806A1 (en) * 2010-01-27 2011-07-28 Ye Chen Probabilistic recommendation of an item
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨长春等: "一种新的基于用户群体关系挖掘的随机漫游社会推荐模型", 《小型微型计算机系统》 *
王小红: "改进的K_均值聚类算法在社团划分中的应用", 《青海师范大学学报(自然科学版)》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065258A (zh) * 2012-12-25 2013-04-24 苏州博康生物医疗科技有限公司 一种实现智能服务平台的方法
CN104239335A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 特定用户信息获取方法及装置
CN104239335B (zh) * 2013-06-19 2017-10-27 阿里巴巴集团控股有限公司 特定用户信息获取方法及装置
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法
CN103559626A (zh) * 2013-09-24 2014-02-05 浙江工商大学 基于二部图资源非均匀分配的个性化商品推荐方法
CN104714971A (zh) * 2013-12-16 2015-06-17 深圳先进技术研究院 移动终端商家个性推荐方法
CN103942255A (zh) * 2014-03-19 2014-07-23 华存数据信息技术有限公司 个性化信息推荐系统及其推荐方法
CN107004221A (zh) * 2014-11-28 2017-08-01 Bc卡有限公司 用于预测使用行业的卡使用模式分析方法及执行其的服务器
CN104504597A (zh) * 2014-12-26 2015-04-08 湖南亿谷信息科技发展有限公司 学习平台的知识商城管理系统及方法
CN104574108A (zh) * 2014-12-30 2015-04-29 苏州亚安智能科技有限公司 一种智能化实现电子服务平台的方法
CN105590234A (zh) * 2014-12-30 2016-05-18 中国银联股份有限公司 一种向目标用户推荐商品的方法和系统
CN104899763A (zh) * 2015-05-07 2015-09-09 西安电子科技大学 基于二分网络双向扩散的个性化推荐方法
CN108140203B (zh) * 2015-08-18 2022-06-03 万事达卡国际股份有限公司 用于通过性质图形模型生成关系的系统和方法
CN108140203A (zh) * 2015-08-18 2018-06-08 万事达卡国际股份有限公司 用于通过性质图形模型生成关系的系统和方法
CN105488684A (zh) * 2015-11-16 2016-04-13 孙宝文 交易系统中的推荐关系确定方法及装置
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置
CN105447117B (zh) * 2015-11-16 2019-03-26 北京邮电大学 一种用户聚类的方法和装置
CN108701313A (zh) * 2015-12-11 2018-10-23 万事达卡国际股份有限公司 使用数据语料库生成推荐的系统和方法
US11790431B2 (en) 2015-12-11 2023-10-17 Mastercard International Incorporated Systems and methods for generating recommendations using a corpus of data
CN106909932A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种网站聚类的方法及装置
CN107135137A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 网络群组识别方法及装置
CN107135137B (zh) * 2016-02-26 2020-03-27 阿里巴巴集团控股有限公司 网络群组识别方法及装置
CN106021590B (zh) * 2016-06-06 2020-01-10 东南大学 一种b2b平台供应商推荐方法和系统
CN106021590A (zh) * 2016-06-06 2016-10-12 东南大学 一种基于超图的多蚁群并行组合聚类方法
CN106095987A (zh) * 2016-06-20 2016-11-09 广州中大电讯科技有限公司 一种基于社区网络的内容个性化推送方法及系统
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置
CN106779749A (zh) * 2016-12-26 2017-05-31 安徽维智知识产权代理有限公司 一种基于ip地址的专利产品交易方法
CN107248095A (zh) * 2017-04-14 2017-10-13 北京小度信息科技有限公司 推荐方法及装置
CN107194723A (zh) * 2017-05-17 2017-09-22 中国科学技术大学 网络小额贷款中借款项目与出借人的双向匹配推荐方法
CN107507028B (zh) * 2017-08-16 2021-11-30 北京京东尚科信息技术有限公司 用户偏好确定方法、装置、设备及存储介质
CN107507028A (zh) * 2017-08-16 2017-12-22 北京京东尚科信息技术有限公司 用户偏好确定方法、装置、设备及存储介质
CN107590690B (zh) * 2017-09-05 2021-02-23 创新先进技术有限公司 数据处理方法、装置及服务器
CN107590690A (zh) * 2017-09-05 2018-01-16 阿里巴巴集团控股有限公司 数据处理方法、装置及服务器
CN108154425A (zh) * 2018-01-19 2018-06-12 广州天源信息科技股份有限公司 一种结合社会网络和位置的线下商户推荐方法
WO2019141072A1 (zh) * 2018-01-22 2019-07-25 阿里巴巴集团控股有限公司 店铺信息推荐方法、装置及客户端
CN109241202A (zh) * 2018-09-11 2019-01-18 杭州飞弛网络科技有限公司 一种基于聚类的陌生人社交用户匹配方法和系统
CN109597858A (zh) * 2018-12-14 2019-04-09 拉扎斯网络科技(上海)有限公司 一种商户的分类方法及其装置和商户的推荐方法及其装置
CN109474703A (zh) * 2018-12-24 2019-03-15 杭州云纪网络科技有限公司 个性化产品组合推送方法、装置及系统
CN109685630A (zh) * 2019-01-09 2019-04-26 苏州大学 电子商务团购推荐方法及系统
CN111209473A (zh) * 2019-12-26 2020-05-29 武汉物易云通网络科技有限公司 一种基于大数据的车货匹配方法及系统
CN112070577A (zh) * 2020-08-31 2020-12-11 深圳市卡牛科技有限公司 一种商品推荐方法、系统、设备及介质
CN112862539A (zh) * 2021-03-03 2021-05-28 拉扎斯网络科技(上海)有限公司 流量处理方法、装置、电子设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN102750647A (zh) 一种基于交易网络的商家推荐方法
Han et al. A fuzzy TOPSIS method for performance evaluation of reverse logistics in social commerce platforms
Kang et al. Evaluation of e-commerce websites using fuzzy hierarchical TOPSIS based on ES-QUAL
CN103310353B (zh) 一种抗攻击的数据过滤优化系统和方法
CN110135952A (zh) 一种基于品类相似度的商品推荐方法和系统
CN103353880A (zh) 一种利用相异度聚类和关联的数据挖掘方法
Wei et al. Research on social e-commerce reputation formation and state-introduced model
Zhao et al. CoEA: A cooperative–competitive evolutionary algorithm for bidirectional recommendations
Burke et al. Patterns of multistakeholder recommendation
JP2006195848A (ja) 電力取引市場における約定価格の決定要因分析方法及び分析のためのコンピュータプログラム
Jin et al. Procurement auctions and supply chain performance
Jibril et al. Association rule mining approach: evaluating pre-purchase risk intentions in the online second-hand goods market
Ali et al. Inferring context with reliable collaborators: a novel similarity estimation method for recommender systems
Yang Equivalence in business models for informational intermediaries
Matsuo et al. A buyers integration support system in group buying
CN105488684A (zh) 交易系统中的推荐关系确定方法及装置
Koppius et al. Electronic multidimensional auctions and the role of information feedback
CN113744051A (zh) 分布式数据交易方法和系统
Schur Approximately Optimal Solutions for Nonlinear Dynamic Pricing
Bergemann et al. Designing and pricing information
CN115392406B (zh) 一种基于历史交易信息的用户分类管理方法
Petric et al. Multi-attribute auction model for agent-based content trading in telecom markets
JP7440363B2 (ja) 企業評価システム及び方法
Ren Cooperation Performance between E-Commerce and Sports Commodity based on Online Marketing Strategy
Li et al. Priority based matchmaking method of buyers and suppliers in b2b e-marketplace using multi-objective optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121024