CN102044009A - 群组推荐方法和系统 - Google Patents
群组推荐方法和系统 Download PDFInfo
- Publication number
- CN102044009A CN102044009A CN2009102071301A CN200910207130A CN102044009A CN 102044009 A CN102044009 A CN 102044009A CN 2009102071301 A CN2009102071301 A CN 2009102071301A CN 200910207130 A CN200910207130 A CN 200910207130A CN 102044009 A CN102044009 A CN 102044009A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- user
- group
- munder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000694 effects Effects 0.000 claims description 93
- 238000005065 mining Methods 0.000 claims description 32
- 101100421536 Danio rerio sim1a gene Proteins 0.000 claims description 12
- 101100495431 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cnp1 gene Proteins 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 22
- 230000006399 behavior Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 241000722713 Carcharodon carcharias Species 0.000 description 2
- 240000000233 Melia azedarach Species 0.000 description 2
- 101150034699 Nudt3 gene Proteins 0.000 description 2
- 235000010575 Pueraria lobata Nutrition 0.000 description 2
- 244000046146 Pueraria lobata Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- JZPGURKWXUBQLP-UHFFFAOYSA-N 2-[[2-(2-methylpropylsulfanyl)-1,3-benzothiazol-6-yl]iminomethyl]phenol Chemical group CC(C)CSC1=NC2=C(S1)C=C(C=C2)N=CC3=CC=CC=C3O JZPGURKWXUBQLP-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种群组推荐方法和系统。该方法包括:根据用户特征发现并创建共性群组;根据用户在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。该系统包括:共性群组发现子系统,用于根据用户特征发现并创建共性群组;共性群组推荐子系统,用于根据用户在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。本发明实施例通过用户的共性群组并根据用户与共性群组的匹配程度和在共性群组中活跃程度对用户进行推荐,从而能实现更为有效的推荐。
Description
技术领域
本发明涉及一种信息处理技术领域,尤其涉及一种群组推荐方法和系统。
背景技术
随着Web2.0技术的发展,SNS(Social Networking Services社会性网络服务)在网络用户的生活中扮演的角色越来越重要。在这些SNS网络上,用户常常有寻找共性群体的内在需求。例如,论文网络上的用户常常迫切地需要与他人探讨某篇文章或某个领域中的问题,电影网络上的用户在看过某部电影后可能有需求与他人交流对该部电影的看法,读书网络上的用户也常常需要类似的交流。
通常,用户通过建立主题群组来寻找共性群体。建立主题群组的过程如下:首先某个用户(群主)发起建立群组的请求并将群组主题概括为群组名称,然后他在他所知的用户里面选择符合群组要求的用户并向他们发出入群邀请,每个加入了该群的用户自动具备邀请他人加入的权限。
不过,这种办法具有一定的局限性。首先,只有少部分人具有这种建群的能动性,有些人即使意识到有需要建立某群组,也可能缺少驱动力使之付诸行动。其次,这样的群组往往主题比较单一,比如学友群一般只谈论与张学友有关的内容,王菲群一般只谈论涉及王菲的事件。而一个用户通常喜欢多个歌手,且用户的兴趣不只是音乐,还包括运动等等,如果用户要为自己的每一个兴趣爱好加一个群或组建一个群,那么每个用户对应的群组将会有许多个,这不利于用户在SNS网络上形成稳固的关系。而且,主题群组的主题单一性割裂了用户各种兴趣爱好之间可能存在的潜在联系,不利于用户的使用体验。最后,推荐的群组一般都是用户目前感兴趣的,难以根据用户的潜在兴趣以及兴趣变化推荐更合适的群组。
用户需要具有以下功能的群组:能够稳定地在其中讨论任何他感兴趣的内容——这意味着该群组中的其他用户与他有着相似的兴趣爱好,在很多兴趣爱好上他们都保持一致——只有这样,用户提出的带有主题交叉性质的议题才不至于被该群组其他用户反感或非议,而更可能受到大家欢迎。这样的群组不像一般的主题群组,它没有明确的主题,但是该群组中的用户在兴趣爱好上具有很强的共性,称这样的群组为共性群组。
当前已有的群组推荐方案都是基于主题群组的。这种方案必须由用户创建群组,然后系统平台提取该群组的特征,通过访问用户数据库与用户特征匹配,最后将该群组推荐给最匹配的用户。具体过程为:群主用户创建某个主题群组,并将其发布在系统平台上;系统平台将该群组的相关属性特征传送到用户数据库,并与其中的用户进行特征匹配;用户数据库将与该群组属性特征最匹配的一组用户发送到系统平台;系统平台将该群组整合到这组用户的个人主页空间中作为推荐项。
发明人在实现本发明的过程中发现:上述方案需要用户自己创建群组,受用户能动性影响;用户创建的群组主题往往由创建者决定,往往比较单一;系统推荐的群组过多会增加用户的困扰,降低用户体验值;推荐的群组一般都是用户目前感兴趣的,难以根据用户未来的潜在兴趣以及兴趣变化推荐更合适的群组。
发明内容
本发明实施例提供一种群组推荐方法和系统,以在用户数据库中发现用户的共性群组,和根据用户个人属性信息和个人行为历史向用户推荐最适合的共性群组。
本发明实施例提供一种群组推荐方法,该方法包括:根据用户特征发现并创建共性群组;根据在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
本发明实施例还提供一种群组推荐系统,该系统包括:共性群组发现子系统,用于根据用户特征发现并创建共性群组;共性群组推荐子系统,用于根据在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
本发明实施例通过创建包容性更强的用户的共性群组,克服了一般群组主题比较单一的缺陷;因为共性群组中的用户的偏好特征相似而具有更大的相容性,群组中的用户将获得更好的情感体验;以及共性群组中的用户偏好特征相似而具有很强的趋同性,使得在这样的群组中进行推荐将更具效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明实施例一中群组推荐方法的流程图;
图2为本发明实施例六中推荐算法的流程图;
图3为本发明实施例七中群组更新算法的流程图;
图4为本发明实施例八中群组推荐系统的结构示意图;
图5为本发明实施例八中共性群组发现子系统的结构示意图;
图6为本发明实施例八中共性群组推荐系统的结构示意图;
图7为本发明实施例九中用户特征提取单元的结构示意图;
图8为本发明实施例十中用户关系网络构建单元的结构示意图;
图9为本发明实施例十一中用户共性群组发现单元的结构示意图;
图10为本发明实施例十二中共性群组创建单元的结构示意图;
图11为本发明实施例十三中共性群组管理子系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。在后面的描述中,本说明书中的“群组”特指“共性群组”,“一般群组”等同于“主题群组”。
实施例一
本实施例提供一种群组推荐方法。如图1所示,该方法包括:
步骤S110:根据用户特征发现并创建共性群组;
在该步骤中,要提取用户特征(包括用户基本特征,偏好特征)并计算用户偏好特征的权重和建立用户特征描述文件以规范用户特征;根据提取的用户特征计算用户之间的特征相似度,当超过相似度阈值时在用户对应的顶点之间连线从而构建用户关系网络;在用户关系网络中进行社团挖掘,即计算社团相似度并依此找到最佳社团邻居对,根据合并的Q值增益来确定是否合并该最佳社团邻居对,所述社团是用户关系网络中彼此交集为空的顶点子集;根据社团挖掘的结果创建共性群组,记录群组用户信息,群组用户的活动信息,群组用户共享的资源信息,群组中推荐内容的相关信息,以及群组宏观信息;
该步骤还包括当所述群组活跃程度低于群组活跃程度阈值时,重新构建共性群组。所述群组活跃程度为所有用户在群时间的总和与所有用户在线时间的总和之比,或者所有用户在群活动的总和与所有用户在线活动的总和之比。
步骤S120根据在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
在该步骤中,需要衡量用户在所加入的共性群组中的用户活跃程度,具体为计算用户在群时间与用户在线时间的比例或者用户在群活动与用户在线活动的比例;当所述用户活跃程度低于用户活跃程度阈值时,在用户和其他共性群组之间进行特征匹配确定匹配程度;将与用户匹配的且未超出推荐次数阈值的共性群组推荐给所述用户。
本实施例通过用户的共性群组并根据用户与共性群组的匹配程度和在共性群组中活跃程度对用户进行推荐,从而能实现更为有效的推荐。
实施例二
本实施例进一步详细描述了实施例一中提取并规范用户特征的技术手段。
提取并规范用户特征具体包括:
首先,收集用户的特征信息;用户特征信息包括用户的个人属性信息(例如年龄、学历、职业等等)、用户对自身兴趣爱好的描述(最爱看的书和电影、最爱听的音乐等等)和用户个人的行为历史(例如用户曾浏览了哪些页面、对什么书或电影做了评论、网购了什么商品等等)。
然后,根据收集得到的用户信息计算用户偏好特征的权重。例如在一个电影社区群组推荐中,用户x的偏好包含其对某种类型的电影、某个导演、某个演员以及某部的电影的喜好程度,依次记录这四种偏好为[4]、[3]、[2]、[1]。从用户x注册时填写的兴趣爱好信息中可以直接得到该用户的一些偏好,为:
S1x={喜剧片[4],科幻片[4],战争片[4],
史蒂夫·斯皮尔伯格[3],吴宇森[3],张艺谋[3],
周星驰[2],周润发[2],Marlon·Brando[2]
大话西游[1],SavingPrivateRyan[1],The GodFather[1]}
其对应的权值为:
R1x={10,8,9,9,8,7,10,10,9,10,9,10}
用户x的行为信息不仅包含其对某些影片的偏好程度的明信息,还包含其对某些导演、某些类型电影、某些演员的偏好程度的暗信息。以对导演的偏好程度为例子,介绍如何提取这些暗信息:
对用户x评分过的所有电影中出现的每个导演,做如下处理:
若该导演在用户填写的兴趣爱好表中已被评分,说明用户x对该导演的偏好程度已经记录到Sx和Rx中,故不必再为此导演评分;
否则在用户x看过该导演的电影数超过num部(num为给定阈值)时,则计算用户x对该导演的所有电影的评分值的平均,作为用户x对该导演的偏好程度,填入Sx和Rx中;
如果用户x看过该导演的电影数没有超过num部,则不将用户x对该导演的评分作为一种偏好,因为个别电影不能反映其对该部电影的导演的偏好程度。
最后,建立用户特征描述文件;
用户描述文件格式可以采取表格的形式,以反映用户的基本信息、偏好信息和行为信息,下面以电影推荐系统的用户描述文件为例说明。
其中通过权重值的大小来记录用户对影片类型的喜欢程度。例如对用户“gjhdy”,其喜欢的影片类型可表示如下:
影片类型 | 权重 |
喜剧类型 | 7 |
科幻片 | 6 |
战争片 | 6 |
同样,对用户“gjhdy”,其喜欢的影星、影片、导演可分别表示如下:
影星姓名 | 权重 |
周星驰 | 7 |
周润发 | 7 |
葛优 | 5 |
陈道明 | 5 |
导演姓名 | 权重 |
史蒂文·斯皮尔伯格 | 6 |
约翰尼·帕金斯 | 5 |
吴宇森 | 6 |
张艺谋 | 5 |
影片名字 | 权重 |
大话西游 | 7 |
Saving Private Ryan | 7 |
英雄本色 | 7 |
Jungle 2 Jungle | 5 |
用户行为信息在这里主要体现为用户对影片的评分,可用下表表示:
影片名字 | 评分 |
Forrest Gump | 6 |
The Godfather | 7 |
英雄本色 | 7 |
无极 | 2 |
对于新用户,系统可以要求用户注册自己的基本信息和感兴趣的内容,包括自己的姓名、性别、年龄、教育背景、兴趣等等,系统也可以隐式地收集这些信息。
在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,用户信息就可以随用户兴趣的变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目的。隐式跟踪不要求用户提供什么信息,所有的跟踪都由系统自动完成。
显式跟踪是简单而直接的做法,系统可以要求用户反馈自己对当前资源的喜好程度。这种情况下,系统将用户对资源的爱好程度划分为若干个等级,当用户浏览某个资源时被要求基于已划分的等级对当前资源评分。(注:电影推荐系统一般要基于用户评分的,否则很难预测到用户的偏好)电影推荐系统MovieLens使用打分的方法获取用户对电影的偏好数据。在正式使用其服务前,需要用户对至少15部电影进行打分(douban网也是这种模式,在系统开始做出推荐之前,用户需要至少给9部电影打分)。当然,当你浏览一部电影简介的时候,也会被要求对该部电影进行评分,分值为1~5(实际上为1,1.5,2,…,4.5,5十个等级,因此上面建立的用户描述表用户的评分分值设为1~10)。分值与偏好程度对应如下表:
评分 | 定义 |
5 | 必看 |
4 | 会喜欢 |
3 | 还可以 |
2 | 相当差 |
1 | 极糟糕 |
但一般很少有用户会向系统主动表达自己的喜好。比较实际的做法是隐式跟踪,即跟踪用户的行为动作,因为用户的很多动作都能暗示用户对当前资源的喜好程度。比如在论文社区网络中,用户的动作可以是添加书签、下载文档、浏览摘要、忽略文档和删除书签等,这些动作体现用户不同的兴趣,所以具有不同的意义,见下表。
用户动作的意义表
用户动作 | 意义 |
添加书签 | 非常高的热情 |
下载书档 | 较高热情 |
浏览摘要 | 中等热情 |
忽略文档 | 不太热情 |
删除烧钱 | 完全不热情 |
本实施例通过建立用户特征描述文件,从而准确并适当的表达用户的特征信息,并便于对用户特征信息进行跟踪和修改。
实施例三
本实施例进一步详细描述实施例一中根据提取的用户特征构建用户关系网络的技术手段。
用顶点表示每个用户个体,以顶点之间的边表示用户个体间的特征相似度(即当两个用户个体间特征(包括基本特征与偏好特征)相似性程度达到给定阈值,就在这两个用户个体对应的顶点之间连上一条边(无权有权均可)),那么用户群体可以表示成一个网络,称这个网络为用户关系网络。
根据提取的用户特征构建用户关系网络具体包括:
计算用户之间的特征相似度,根据用户基本特征的相似度和用户偏好特征的相似度求得;
其中,设BI={bi1,bi2,...,bik}为对用户兴趣偏好有影响的k个基本特征集合,BIX={biX,1,biX,2,...,biX,k}为用户x相对于BI的k个基本特征的值集合,BIR={bir1,bir2,...,birk}为对应于BI的对用户偏好的影响权重集合。用户基本特征的相似度根据公式(1)计算得到,
用户x的k个基本特征的值集合,BIR={birx,1,birx,2,...,birx,k}为对应于k个基本特征的对用户x兴趣的影响权重集合。
same函数对不同的的基本信息有不同的计算方法。考虑用户的年龄、学历、职业这三项基本信息即BI={AGE,EDU,OCCU},则BIx={AGEx,EDUx,OCCUx}。
令
设BIR={2,5,3},BI1={35,大学,软件工程师},BI2={30,大学,高中教师},则
设Sx={sx,1,sx,2,...,sx,m}为用户x的m个偏好特征的集合,Rx={rx,1,rx,2,...,rx,m}为用户x对应于Sx的特征权重集合。用户偏好特征的相似度根据公式(2)或公式(3)计算得到,
用户的特征相似度根据公式(4)计算得到,
sim(x,y)=a·sim1(x,y)+b·sim2(x,y),其中a+b=1(4)
当用户之间的特征相似度超过相似度阈值时,在用户对应的顶点之间连线。
例如,令a=0.1,b=0.9,阈值th=0.7,针对1,2,3三个用户,
通过公式(1)得到sim1(1,2)=0.6,sim1(1,3)=0.8,sim1(2,3)=0.65;
通过公式(2)得到sim2(1,2)=0.8,sim2(1,3)=0.6,sim2(2,3)=0.75;
则由公式(4)得到sim(1,2)=0.6*0.1+0.8*0.9=0.78>0.7=th,因此在用户1和2之间连一条边;同理由(4)得到sim(1,3)=0.62<0.7=th,因此用户1和3之间没有连线;sim(2,3)=0.74>0.7=th,因此用户2和3之间连一条线。
不同的系统可以采用不同的相似度计算方法以使得两个用户的特征相似度尽可能准确。由于用户的兴趣和爱好是随时间变化的,所以用户关系网建立完以后并非是永远不变的。一种普遍采用的策略是,当发现当前网络已经不能再反映用户之间的关系时(如何发现在后面讨论,即当发现大部分群组的大部分成员在自身群组中的热度已经降低到某种程度时,重构之,进而重新生成共性群组并进行群组推荐),就对该网络进行一次更新,即重新计算所有用户的相似度sim(x,y),然后重新构建用户关系网络。
由上面的分析可知,构建用户关系网络的主要开销在于计算每对用户之间的偏好相似度。设用户总数n,每个用户的平均偏好数为m,那么算法的最大复杂度为n*n*m*m。由于网络很长时间才重构一次,可以在线下计算用户之间的偏好相似度,从而不会对系统的实施造成影响。
本实施例考虑用户基本信息的相似度和用户偏好信息的相似度来构建用户关系网络,从而能够提高推荐的有效性和效率。
实施例四
本实施例进一步详细描述实施例一中的在用户关系网络中进行社团挖掘,发现共性群组的技术手段。
用户网络通常会呈现出明显的社团结构(community structure)特征。社团结构是指:网络中的顶点可以分为一个个子集,它们的交集为空,子集内顶点的边联系比较稠密,子集间顶点的边联系比较稀疏。由于用户关系网络中的边联系反映了用户之间的相似关系,属于同一社团的用户具有更为相似的特征,而属于不同社团的用户则具有不相似的特征。不同的社团代表了不同的用户特征。在用户关系网络上进行社团挖掘从而得到一个个代表不同用户特征的社团。每一个社团都对应一个共性群组,社团中的顶点对应共性群组中的用户,被划分在同一个共性群组中的用户将具有相似的特征。
在用户关系网络中进行社团挖掘的步骤具体包括:
以单个用户对应的顶点为社团,计算所有有连线的社团之间的相似度;
根据所述社团相似度找到最佳社团邻居对;
根据最佳社团邻居对合并的Q值增益来确定是否合并最佳社团邻居对。
社团发现算法(群组发现算法)包括谱聚类算法、基于Q值优化的算法、基于网络动力学的算法(如随机行走)等等。
本实施例算法过程使用Q值增益作为社团合并的收益。Q的定义如下:
其中,i是社团编号,eij是连接社团i中的顶点与社团j中的顶点的边占所有边的比例,ai=∑jeij表示所有连接了社团i中的顶点的边占所有边的比例如果社团内部顶点间的边没有随机连接得到的边多,则Q函数的值为负数。相反,当Q函数的值接近1时,表明这种社团划分很好。实际应用中,Q的最高值一般在0.3至0.7的范围内,更高的值很少出现。社团i、j合并带来的Q值增益为:2(eij-aiaj)。
本实施例通过改进的Newman快速贪心算法CNM(Clauset-Newman-Moore)的加权版本,时间复杂度为O(nlog2n),能够在数天时间内完成对百万规模网络的社团挖掘,而且具有很好的挖掘效果。
实施例五
本实施例进一步详细描述实施例一中的根据社团挖掘的结果创建共性群组的技术手段。
根据社团挖掘的结果创建共性群组包括创建群组数据表和存储群组数据表中的相关信息。
共性群组的数据表及相关信息包括如下:
群组用户表:记录已加入到群组中的用户信息,包括用户名、用户ID、用户主页地址等,每一个用户对应一个元组。
群组成员表:记录社团挖掘得到的群组用户信息,这些用户不一定已经加入群组,可以是推荐对象。
群组特征表:通过统计方法,记录每种偏好特征(如,在电影社区网络上,用户的偏好特征包括用户喜欢的影片类型、导演、演员、影片等)在群组中出现的频度以及权重,该表由管理子系统中的群组基本信息管理子模块更新和管理。
群组信息文件:记录群组用户数目、主要特征、资源空间路径等宏观信息,该文件由管理子系统中的群组基本信息管理子模块更新和管理。
群组用户活动日志表:记录群组用户在该群组中的活动,每一个活动对应一个元组,表属性包括活动内容(发帖、跟帖、下载群组资源、上传群组资源等)、活动时间、发起活动的群组用户ID等。
群组资源表:用于记录群组中可供群组用户共享的资源信息(包括资源ID,资源名,资源特征),每一条资源对应一个元组。
群组推荐表:用于记录要在该群组中推荐的内容的相关信息(包括推荐内容所属的数据表,推荐内容的ID,推荐内容的特征与群组特征的匹配程度值等),一条推荐信息对应一个元组。
其中除群组成员表、群组特征表和群组信息文件之外,其他表初始时均可为空。群组成员表根据社团挖掘的结果创建,每个社团对应一张群组成员表,社团中的顶点对应群组中的成员。群组基本信息管理子模块根据社团挖掘的结果,访问用户数据库中的用户特征,使用上文中描述的群组特征计算方法计算得到群组特征,保存到群组特征表中,并使用上文中描述的群组主要特征计算方法计算出群组的主要特征保存到群组信息文件中。此外,本模块还要为共性群组开辟一个群组资源共享空间,并将该共享空间对应的路径记录到群组信息文件中。
下面说明群组的特征计算,具体涉及群组特征的频度和权重:
设群组i的成员集合为Si,偏好特征j在群组i中的频度为Pij,则
其中,
设群组i的成员集合为Si,偏好特征j在群组i中的权重为Wij,则
其中,rjk是用户k在特征j上的权重。
为了得到群组主要特征,首先要对群组成员的偏好特征在群组中的重要性进行评估。
因为特征在整个用户网络上的分布是不均的,主要利用这种不均衡来评估特征的重要性。
每种特征可能在某些群组中分布得多,而在某些群组中分布得少。特征在某个群组中分布越稠密,则在该群组中越重要,越可能成为该群组的主要特征,所以群组成员的偏好特征在群组中的重要性与该特征在群组中的相对频度有关。定义特征j在群组i中的相对频度pij为
其中,∑iPij为特征j在整个网络上出现的总频度,Pij为特征j在群组i中的频度。
每种特征可能在某些群组中的权重大,而在某些群组中的权重小。特征在某个群组中的权重超过在整个网络上的平均权重越多,则在该群组中越重要,越有可能成为该群组的主要特征,所以群组成员的偏好特征在群组中的重要性与该特征在群组中的相对权重有关。定义特征在群组i中的相对权重wij为
其中,Wj=∑i(PijWij)/Pj为特征在整个网络上的权重,Wij为特征j在群组i中的权重。
特征j在群组i中的重要程度Dij既与该特征在群组中出现的相对频度pij有关,也与该特征在群组中的相对权重wij有关。令Dij=f(pij,wij),对于一般应用,可以选取Dij=pij×wij。
这样,就能计算群组中每一种特征的重要程度值,对其从高到底排序,可以选取Dij值最高的若干个特征或者Dij超过某个阈值的群组成员的偏好特征作为群组的主要特征。
在创建共性群组的同时,还需要创建其他必要的信息表结构,包括用户-推荐群组表、群组表等。
为了便于向用户推荐共性群组,在群组存储数据库中创建一个用户-推荐群组表,该表的格式如下:
用户ID(UID) | 推荐的群组ID(GID) | 已推荐的次数(CNT) |
U10001 | G103 | 0 |
U10002 | G102 | 0 |
该表以UID为主键,GID中记录了要向用户推荐的共性群组ID(创建表时,推荐的群组ID初始化为经过社团挖掘得知的用户所属的共性群组ID),CNT用于记录已经向用户推荐该共性群组的次数。
为了便于组织共性群组,在群组存储数据库中创建一个群组表。该表以共性群组ID为主键,以每个群组对应的各种表ID为属性,包括群组用户表、群组用户活动日志表、群组资源表、群组推荐内容表、群组信息文件等。该表的格式如下:
本实施例通过记录群组的相关信息,包括群组重要信息、用户的活动信息、和群组的推荐情况,从而能够提高推荐的有效性和效率。
实施例六
本实施例进一步详细说明实施例一中根据用户在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组的技术手段。
根据用户与共性群组的匹配程度和在所加入的共性群组的活跃程度向用户推荐共性群组的步骤包括:
衡量用户在所加入的共性群组中的用户活跃程度;
当所述用户活跃程度低于用户活跃程度阈值时,在用户和其他共性群组之间进行特征匹配以确定匹配程度;
将与用户匹配的且未超出推荐次数阈值的共性群组推荐给所述用户。
下面参照图2详细进一步详细描述其中的推荐算法:
步骤S201:判断用户U是否已经加入到了某些共性群组中,如果是,进入步骤S202,否则进入步骤s204;
步骤S202:计算用户U在其目前加入的每个共性群组中的活跃程度,进入步骤S203;
步骤S203:判断是否存在某个活跃程度超过阈值,如果是,则不推荐任何群组,流程结束,否则进入步骤S204;
步骤S204:判断用户U在用户-推荐群组表中的“推荐的群组ID”项是否为空,如果不为空,进入步骤S205,否则进入步骤S206;
步骤S205:判断“已推荐的次数”是否超过了阈值,如果是,置其对应的“推荐的群组ID”项为空,转到步骤S206,否则进入步骤S207;
步骤S206:从未超出推荐次数阈值给该用户的共性群组中寻找与该用户特征最匹配的共性群组,将其ID填入到该用户在用户-推荐群组表中的“推荐的群组ID”项,并置其对应的“已推荐的次数”为0,进入步骤S207;
步骤S207:将“推荐的群组ID”项对应的共性群组推荐给用户,并将相应的“已推荐次数”加1,本次推荐过程结束。
可以设定该推荐算法在用户登录时执行,并且该算法每天最多只执行一次。在这个算法过程中,可采用用户在群时间与用户在线时间的比例或者用户在群活动与用户在线活动的比例作为用户在该群组中的活跃程度的度量。特征匹配可以通过以下办法解决。假设从用户描述表中读取了用户U的特征集合为F1,从群组信息文件中读取了群组的主要特征集合为F2,群组主要特征根据群组成员的偏好特征在群组中的重要程度确定,所述重要程度与所述偏好特征在所述群组中的相对频度和相对权重成正比。可以采用如下几种方式计算它们的匹配值M:
M=|F1∩F2|;
M=|F1∩F2|/|F1∪F2|;
由于这两种方法都没有考虑特征的权重,如果出现多个群组和用户匹配值相同的情况,可以进一步前面所述用户和群组之间的偏好相似性,并用它作为用户和群组的特征匹配值。
以电影社区网络为例,假设已经发现了三个共性群组A、B、C,它们的主要特征集合和权重集合如下:
SA={战争片[4],科幻片[4],喜剧片[4],
史蒂夫·斯皮尔伯格[3],迈克尔·贝[3],张艺谋[3],
周星驰[2],本·艾弗莱克[2],凯特·贝金赛尔[2]
大话西游[1],Saving Private Ryan[1],珍珠港[1]}
RA={10,9,9,10,8,7,10,10,10,9,9,10}
SB={文艺片[4],爱情片[4],动作片[4],
贾樟柯[3],成龙[3],李安[3],
李连杰[2],孙艺珍[2],刘亦菲[2]
阿甘正传[1],叶问[1],爱有天意[1]}
RB={10,9,9,9,8,8,10,10,8,10,9,9}
SC={科幻片[4],侦探推理片[4],爱情片[4],
史蒂夫·斯皮尔伯格[3],戈尔·维宾斯基[3],乔治·卢卡斯[3],
约翰尼·戴普[2],塞缪尔·杰克逊[2],孙艺珍[2]
大白鲨[1],星战前传[1],冷山[1]}
RC={10,9,8,9,8,10,10,10,8,9,9,10}
假设用户U的主要特征集合和权重集合如下:
SU={科幻片[4],爱情片[4],动作片[4],
史蒂夫·斯皮尔伯格[3],成龙[3],戈尔·维宾斯基[3],
李连杰[2],孙艺珍[2],约翰尼·戴普[2]
阿甘正传[1],星战前传[1],爱有天意[1]}
RU={10,9,8,9,8,10,10,10,9,10,9,10}
求群组和用户的特征交集可得,
SUA=SU∩SA={科幻片[4],史蒂夫·斯皮尔伯格[3]}
SUB=SU∩SB={爱情片[4],动作片[4],成龙[3],李连杰[2],
孙艺珍[2],阿甘正传[1],爱有天意[1]}
SUC=SU∩SC={科幻片[4],爱情片[4],
史蒂夫·斯皮尔伯格[3],戈尔·维宾斯基[3],
孙艺珍[2],约翰尼·戴普[2],星战前传[1]}
由于群组A和用户U的特征交集最少,可以首先将其排除,而群组B和群组C与用户U的特征交集大小相同,均有7个元素,所以必须进一步采用Pearson相关性或者夹角余弦相关性。这里采用Pearson相关性。
首先计算群组B和用户U的偏好相似性。
由前文所述的Pearson相关性,
类似地,可以算得sim(U,C)=-0.20。
应该先向用户U推荐群组B。
推荐的形式可以采取两个办法:一、内容诱导:当将要推荐的群组确定下来之后,将该群组的链接嵌入到用户个人主页的某个推荐板块上(如“您可能感兴趣的群组”这样的板块),并用简短的文字简要地介绍共性群组和普通群组的不同之处。当用户通过点击(click-through)进入到该群组所在的页面时,他将看到一个与他的个人特点切合度非常高的群组,从基本信息模块可以看到该群组的公共兴趣爱好与他非常接近,从群组用户活动展示模块可以看到该群组中其他用户的最新活动与他的个人品味相符,从群组话题模块看到他感兴趣的话题讨论,从群组资源模块看到一些他十分喜欢收集的资源材料,这将诱使他乐意加入这个群组。二、情感诱导:可以设定加入该群组的用户自动获得邀请其他用户加入群组的权限。
本实施例通过根据用户在共性群组中的匹配程度和在所加入的共性群组的活跃程度向用户推荐共性群组,从而提高了推荐的有效性和效率。
实施例七
本实施例进一步详细描述实施例一中当所述群组活跃程度低于群组活跃程度阈值时重新构建共性群组的技术手段。
当大部分共性群组的活跃程度低于某个阈值时,重新根据用户特征发现新共性群组并实现新旧共性群组的交替。
所述群组活跃程度为所有用户在群时间的总和与所有用户在线时间的总和之比,或者所有用户在群活动的总和与所有用户在线活动的总和之比。
由于新共性群组(简称新群组)和旧共性群组(简称新群组)的交替可能给用户带来不好的体验。因而,建议维持旧群组的总体架构不变根据每个旧群组在用户构成上与每个新群组的匹配关系,找到与其匹配的新群组;将与某旧群组匹配的新群组的成员表导入到该旧群组的群组成员表中覆盖原来的内容,同时相应更新“用户-推荐群组表”(群组成员中的用户,如果是该旧群组的用户,或者其对应的“推荐的群组ID”项中已含该旧群组,则不更新,否则,将该旧群组ID添加进“推荐的群组ID”一栏,并记推荐的次数为0;非群组成员表中的用户,删除用户-推荐群组表中含该群组的推荐表项、群组特征表和群组信息文件;对于没有匹配群组的旧群组,将群组成员表中的内容清空,利用该群组用户的信息重新计算该群组的群组特征表和群组信息文件,删除用户-推荐群组表中包含该群组的表项;对于没有匹配群组的新群组,为其创建实际的群组结构,同时更新用户-推荐群组表(即为群组成员在推荐的群组ID中添加该群组ID,并记推荐的次数为0)。
由于群组成员表中记录的是该群组的推荐对象和潜在用户,所以将重新社团挖掘的结果(新群组的成员表)导入到旧群组的群组成员表中,将引导旧群组从过时的用户组成向新的用户组成转变。
假设整个用户网络中的全体用户集合为Ω={u1,u2,...un}。假设第i个旧群组的用户集合为Ai(i=1,2,...,s),令S={A1,A2,...,As};第k个新群组的成员集合为Bk(k=1,2,...,t),Bk∩Bl=Φ,k,l=1,2,...,t。令T={B1,B2,...,Bt}。并做如下定义:如果Ai∈S,Bk∈T满足且则称Ai,Bk是一对匹配群组。
参照图3,详细描述群组更新算法。该算法包括:
步骤S301:输入旧群组集合S和新群组集合T;
步骤S302:判断S是否为空集,如果否则执行步骤S303,否则执行步骤S307;
步骤S303:计算S中群组的活跃程度,选取活跃程度最高的一个群组Ai;
步骤S304:判断T中是否存在群组Bk为Ai的匹配群组,如果是则执行步骤S305,否则执行步骤S306;
步骤S305:令S=S-Ai,T=T-Bk,将新群组Bk中的成员导入到旧群组Ai的群组成员表中,并更新旧群组Ai的群组特征表、群组信息文件和用户-推荐群组表,然后执行步骤S302;
步骤S306:令S=S-Ai,清空群组Ai的群组成员表,更新群组Ai的群组特征表、群组信息文件和用户-推荐群组表,然后执行步骡S302;
步骤S307:判断T是否为空集,如果是则结束,否则执行步骤S308;
步骤S308:从T中任取一个群组Bk,为新群组Bk创建一个实际的群组结构,为该群组中的每个成员在用户-推荐群组表中创建相应表项,并令T=T-Bk,然后执行步骤S307。
下面通过一个例子来说明这个将新群组构成导入旧群组的过程。假设S={A1,A2,A3,A4,A5},T={B1,B2,B3,B4,B5}。用一个表来描述新旧群组在用户构成上的关系:
表格中的数字表示两个新旧群组用户集合的交集大小,即两个群组的共同用户数目,比如A2和B2的共同用户有37人。
从上表根据定义1可以计算出(A3,B3),(A4,B4)是匹配群组,将新群组B3中的成员导入到旧群组A3中,将新群组B4中的成员导入到旧群组A4中,同时相应更新旧群组A3和A4的群组特征表和群组信息文件,相应更新用户-推荐群组表。旧群组A1、A2、A5的群组成员表删除,根据群组用户更新群组特征表和群组信息文件,并相应更新用户-推荐群组表。同时为新群组B1、B2、B5创建实际的群组结构(新创建群组的群组用户表为空表),并相应更新用户-推荐群组表。
由于旧群组A3,A4中的成员分化程度不高,所以使用与之匹配的新群组B3,B4作为改进目标对其进行改良(即将新群组B3,B4中的成员导入A3,A4的群组成员表作为推荐对象)。旧群组A1,A5中的成员分化过大,不对其进行处理,它们最终可能被其他群组吸收而逐渐变得弱小。旧群组A2分化不大,也没有与之匹配的群组,故保持原状。
本实施例通过根据群组活跃程度调整共性群组,从而提高了推荐的准确性和有效性。
实施例八
本实施例提供一种群组推荐系统。下面参照图4到图6对该系统详细进行描述。
如图4所示,该群组推荐系统400包括:
共性群组发现子系统410,用于根据用户特征发现并创建共性群组;
共性群组推荐子系统420,用于根据用户在所加入共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
如图5所示,共性群组发现子系统410包括:用户特征提取单元411,用于提取并规范用户特征,所述用户特征包括用户基本特征,偏好特征;用户关系网络构建单元412,用于根据提取的用户特征构建用户关系网络;用户共性群组发现单元413,用于在用户关系网络中进行社团挖掘,所述社团是用户关系网络中彼此交集为空的顶点子集;共性群组创建单元414,用于根据社团挖掘的结果创建共性群组。
其中,用户特征提取单元411提取用户特征(包括用户基本特征,偏好特征)并计算用户偏好特征的权重和建立用户特征描述文件以规范用户特征;用户关系网络构建单元412根据提取的用户特征计算用户之间的特征相似度,当超过相似度阈值时在用户对应的顶点之间连线从而构建用户关系网络;用户共性群组发现单元413在用户关系网络中进行社团挖掘,即计算社团相似度并依此找到最佳社团邻居对,根据合并的Q值增益来确定是否合并该最佳社团邻居对,所述社团是用户关系网络中彼此交集为空的顶点子集;共性群组创建单元414根据社团挖掘的结果创建共性群组,记录群组用户信息,群组用户的活动信息,群组用户共享的资源信息,群组中推荐内容的相关信息,以及群组宏观信息。
如图6所示,共性群组推荐子系统420包括:活跃程度衡量单元421,用于衡量用户在所加入的共性群组中的用户活跃程度;特征匹配单元422,用于当所述用户活跃程度低于用户活跃程度阈值时,计算用户和其他共性群组之间的特征匹配值;推荐单元423,用于将与用户匹配的且未超出推荐次数阈值的共性群组推荐给所述用户。
活跃程度衡量单元421衡量用户在所加入的共性群组中的用户活跃程度,具体为计算用户在群时间与用户在线时间的比例或者用户在群活动与用户在线活动的比例。
此外,该系统还进一步包括共性群组管理子系统430,用于当所述群组活跃程度低于群组活跃程度阈值时,通知所述共性群组发现子系统重新发现并构建共性群组。
本实施例通过创建用户的共性群组并根据用户与共性群组的匹配程度和在共性群组中活跃程度对用户进行推荐,从而能实现更为有效的推荐。
实施例九
本实施例进一步详细描述实施例七中的用户特征提取单元。如图7所示,该用户特征提取单元包括:收集模块701,用于收集用户的特征信息;计算模块702,用于计算用户偏好特征的权重;建立模块703,用于建立用户特征描述文件。
用户特征信息包括用户的个人属性信息(例如年龄、学历、职业等等)、用户对自身兴趣爱好的描述(最爱看的书和电影、最爱听的音乐等等)和用户个人的行为历史(例如用户曾浏览了哪些页面、对什么书或电影做了评论、网购了什么商品等等)。
用户描述文件格式可以采取表格的形式,以反映用户的基本信息、偏好信息和行为信息,下面以电影推荐系统的用户描述文件为例说明。
其中通过权重值的大小来记录用户对影片类型的喜欢程度。例如对用户“gjhdy”,其喜欢的影片类型可表示如下:
影片类型 | 权重 |
喜剧类型 | 7 |
科幻片 | 6 |
战争片 | 6 |
同样,对用户“gjhdy”,其喜欢的影星、影片、导演可分别表示如下:
影星姓名 | 权重 |
周星驰 | 7 |
周润发 | 7 |
葛优 | 5 |
陈道明 | 5 |
导演姓名 | 权重 |
史蒂文·斯皮尔伯格 | 6 |
约翰尼·帕金斯 | 5 |
吴宇森 | 6 |
张艺谋 | 5 |
影片名字 | 权重 |
大话西游 | 7 |
Saving Private Ryan | 7 |
英雄本色 | 7 |
Jungle 2 Jungle | 5 |
用户行为信息在这里主要体现为用户对影片的评分,可用下表表示:
影片名字 | 评分 |
Forrest Gump | 6 |
The Godfather | 7 |
英雄本色 | 7 |
无极 | 2 |
此外,用户特征提取单元还包括跟踪修改模块704,用于跟踪用户偏好特征并修改用户特征描述文件。
在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,用户信息就可以随用户兴趣的变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目的。隐式跟踪不要求用户提供什么信息,所有的跟踪都由系统自动完成。
显式跟踪是简单而直接的做法,系统可以要求用户反馈自己对当前资源的喜好程度。这种情况下,系统将用户对资源的爱好程度划分为若干个等级,当用户浏览某个资源时被要求基于已划分的等级对当前资源评分。(注:电影推荐系统一般要基于用户评分的,否则很难预测到用户的偏好)电影推荐系统MovieLens使用打分的方法获取用户对电影的偏好数据。在正式使用其服务前,需要用户对至少15部电影进行打分(douban网也是这种模式,在系统开始做出推荐之前,用户需要至少给9部电影打分)。
但一般很少有用户会向系统主动表达自己的喜好。比较实际的做法是隐式跟踪,即跟踪用户的行为动作,因为用户的很多动作都能暗示用户对当前资源的喜好程度。比如在论文社区网络中,用户的动作可以是添加书签、下载文档、浏览摘要、忽略文档和删除书签等,这些动作体现用户不同的兴趣,所以具有不同的意义。
本实施例通过建立用户特征描述文件,从而准确并适当的表达用户的特征信息,以便于对用户特征信息进行跟踪和修改。
实施例十
本实施例进一步详细描述实施例七中的用户关系网络构建单元。如图8所示,该用户关系网络构建单元包括:计算模块801,用于计算用户之间的特征相似度;连线模块802,用于当用户之间的特征相似度超过相似度阈值时,在用户对应的顶点之间连线。
用顶点表示每个用户个体,以顶点之间的边表示用户个体间的特征相似度(即当两个用户个体间特征(包括基本特征与偏好特征)相似性程度达到给定阈值,就在这两个用户个体对应的顶点之间连上一条边(无权有权均可)),那么用户群体可以表示成一个网络,称这个网络为用户关系网络。
其中用户特征相似度根据下式计算,
sim(x,y)=a·sim1(x,y)+b·sim2(x,y),其中a+b=1,sim1(x,y)为用户基本特征的相似度,sim2(x,y)为用户偏好特征的相似度,sim1(x,y)根据下式计算,
其中,BIx={bix,1,bix,2,...,bix,k}为用户x的k个基本特征的值集合,BIR={birx,1,birx,2,...,birx,k}为对应于k个基本特征的对用户x兴趣的影响权重集合;
sim2(x,y)根据下面两式之一计算,
不同的系统可以采用不同的相似度计算方法以使得两个用户的特征相似度尽可能准确。由于用户的兴趣和爱好是随时间变化的,所以用户关系网建立完以后并非是永远不变的。一种普遍采用的策略是,当发现当前网络已经不能再反映用户之间的关系时(如何发现在后面讨论,即当发现大部分群组的大部分成员在自身群组中的热度已经降低到某种程度时,重构之,进而重新生成共性群组并进行群组推荐),就对该网络进行一次更新,即重新计算所有用户的相似度sim(x,y),然后重新构建用户关系网络。
本实施例考虑用户基本信息的相似度和用户偏好信息的相似度来构建用户关系网络,从而能够提高推荐的有效性和效率。
实施例十一
本实施例进一步详细描述实施例七中的用户共性群组发现单元。
用户网络通常会呈现出明显的社团结构(community structure)特征。社团结构是指:网络中的顶点可以分为一个个子集,它们的交集为空,子集内顶点的边联系比较稠密,子集间顶点的边联系比较稀疏。由于用户关系网络中的边联系反映了用户之间的相似关系,属于同一社团的用户具有更为相似的特征,而属于不同社团的用户则具有不相似的特征。不同的社团代表了不同的用户特征。在用户关系网络上进行社团挖掘从而得到一个个代表不同用户特征的社团。每一个社团都对应一个共性群组,社团中的顶点对应共性群组中的用户,被划分在同一个共性群组中的用户将具有相似的特征。
如图9所示,用户共性群组发现单元包括:计算模块901,用于以单个用户对应的顶点为社团,计算所有有连线的社团之间的相似度;确定模块902,根据所述社团相似度找到最佳社团邻居对,并最佳社团邻居对合并的Q值增益来确定是否合并最佳社团邻居对。
社团发现算法(群组发现算法)包括谱聚类算法、基于Q值优化的算法、基于网络动力学的算法(如随机行走)等等。
本实施例算法过程使用Q值增益作为社团合并的收益。其中,所述Q值增益下式计算:
其中,i是社团编号,eij是连接社团i中的顶点与社团j中的顶点的边占所有边的比例,ai=∑jeij表示所有连接了社团i中的顶点的边占所有边的比例。
如果社团内部顶点问的边没有随机连接得到的边多,则Q函数的值为负数。相反,当Q函数的值接近1时,表明这种社团划分很好。实际应用中,Q的最高值一般在0.3至0.7的范围内,更高的值很少出现。社团i、j合并带来的Q值增益为:2(eij-aiaj)。
本实施例通过CNM算法的加权版本,时间复杂度为O(nlog2n),能够在数天时间内完成对百万规模网络的社团挖掘,而且具有很好的挖掘效果。
实施例十二
本实施例进一步详细描述实施例七中的共性群组创建单元。如图10所示,共性群组创建单元包括:
数据表构建模块1001,用于构建群组数据表,所述群组数据表包括群组用户表,群组成员表,群组用户活动日志表,群组资源表,群组推荐内容表和群组信息文件;
存储模块1002,用于存储上述群组数据表及相关信息;
确定模块1003,用于根据偏好特征在群组中的重要程度确定群组的主要特征,所述重要程度与所述偏好特征在所述群组中的相对频度和相对权重成正比;
计算单元1004,用于计算所述偏好特征在所述群组中的相对频度和相对权重。
共性群组的数据表及相关信息包括如下:
群组用户表:记录已加入到群组中的用户信息,包括用户名、用户ID、用户主页地址等,每一个用户对应一个元组。
群组成员表:记录社团挖掘得到的群组用户信息,这些用户不一定已经加入群组,可以是推荐对象。
群组特征表:通过统计方法,记录每种偏好特征(如,在电影社区网络上,用户的偏好特征包括用户喜欢的影片类型、导演、演员、影片等)在群组中出现的频度以及权重,该表由管理子系统中的群组基本信息管理子模块更新和管理。
群组信息文件:记录群组用户数目、主要特征、资源空间路径等宏观信息,该文件由管理子系统中的群组基本信息管理子模块更新和管理。
群组用户活动日志表:记录群组用户在该群组中的活动,每一个活动对应一个元组,表属性包括活动内容(发帖、跟帖、下载群组资源、上传群组资源等)、活动时间、发起活动的群组用户ID等。
群组资源表:用于记录群组中可供群组用户共享的资源信息(包括资源ID,资源名,资源特征),每一条资源对应一个元组。
群组推荐表:用于记录要在该群组中推荐的内容的相关信息(包括推荐内容所属的数据表,推荐内容的ID,推荐内容的特征与群组特征的匹配程度值等),一条推荐信息对应一个元组。
其中除群组成员表、群组特征表和群组信息文件之外,其他表初始时均可为空。群组成员表根据社团挖掘的结果创建,每个社团对应一张群组成员表,社团中的顶点对应群组中的成员。群组基本信息管理子模块根据社团挖掘的结果,访问用户数据库中的用户特征,使用上文中描述的群组特征计算方法计算得到群组特征,保存到群组特征表中,并使用上文中描述的群组主要特征计算方法计算出群组的主要特征保存到群组信息文件中。此外,还要为共性群组开辟一个群组资源共享空间,并将该共享空间对应的路径记录到群组信息文件中。
偏好特征在群组中的相对频度根据下式计算,
其中,∑iPij为特征j在整个网络上出现的总频度,偏好特征在群组中的频度根据下式计算得到,
其中,Si为群组i的成员集合,Pij为偏好特征j在群组i中的频度,
偏好特征在群组中的相对权重根据下式计算得到,
其中,∑i(PijWij/∑iPij)为特征在整个网络上的权重,偏好特征在群组中的权重根据下计算得到,
其中,Wij为偏好特征j在群组i中的权重,rjk是用户k在偏好特征j上的权重。
特征j在群组i中的重要程度Dij既与该特征在群组中出现的相对频度pij有关,也与该特征在群组中的相对权重wij有关。令Dij=f(pij,wij),对于一般应用,可以选取Dij=pij×wij。
这样,就能计算群组中每一种特征的重要程度值,对其从高到底排序,可以选取Dij值最高的若干个特征或者Dij超过某个阈值的群组成员的偏好特征作为群组的主要特征。
本实施例通过记录群组的相关信息,包括群组重要信息、用户的活动信息、和群组的推荐情况,从而能够提高推荐的有效性和效率。
实施例十三
本实施例进一步描述实施例七中的共性群组推荐子系统。如图6所示,共性群组推荐子系统包括:
活跃程度衡量单元421,用于衡量用户在所加入的共性群组中的用户活跃程度;
特征匹配单元422,用于当所述用户活跃程度低于用户活跃程度阈值时,在计算用户和其他共性群组之间的特征匹配值以确定匹配程度;
推荐单元423,用于将与用户匹配的且未超出推荐次数阈值的共性群组推荐给所述用户。
活跃程度衡量单元421包括计算单元,用于计算用户在群时间与用户在线时间的比例或者用户在群活动与用户在线活动的比例。
特征匹配单元422具体通过下面两式之一求得共性群组之间的匹配值,
M=|F1∩F2|
M=|F1∩F2|/|F1∪F2|
其中,用户U的特征集合为F1,共性群组的主要特征集合为F2,群组主要特征根据群组成员的偏好特征在群组中的重要程度确定,所述重要程度与所述偏好特征在所述群组中的相对频度和相对权重成正比。
由于这两种方法都没有考虑特征的权重,如果出现多个群组和用户匹配值相同的情况,可以进一步采用前面所述用户和群组之间的偏好相似性,并用它作为用户和群组的特征匹配值。
以电影社区网络为例,假设已经发现了三个共性群组A、B、C,它们的主要特征集合和权重集合如下:
SA={战争片[4],科幻片[4],喜剧片[4],
史蒂夫·斯皮尔伯格[3],迈克尔·贝[3],张艺谋[3],
周星驰[2],本·艾弗莱克[2],凯特·贝金赛尔[2]
大话西游[1],Saving Private Ryan[1],珍珠港[1]}
RA={10,9,9,10,8,7,10,10,10,9,9,10}
SB={文艺片[4],爱情片[4],动作片[4],
贾樟柯[3],成龙[3],李安[3],
李连杰[2],孙艺珍[2],刘亦菲[2]
阿甘正传[1],叶问[1],爱有天意[1]}
RB={10,9,9,9,8,8,10,10,8,10,9,9}
SC={科幻片[4],侦探推理片[4],爱情片[4],
史蒂夫·斯皮尔伯格[3],戈尔·维宾斯基[3],乔治·卢卡斯[3],
约翰尼·戴普[2],塞缪尔·杰克逊[2],孙艺珍[2]
大白鲨[1],星战前传[1],冷山[1]}
RC={10,9,8,9,8,10,10,10,8,9,9,10}
假设用户U的主要特征集合和权重集合如下:
SU={科幻片[4],爱情片[4],动作片[4],
史蒂夫·斯皮尔伯格[3],成龙[3],戈尔·维宾斯基[3],
李连杰[2],孙艺珍[2],约翰尼·戴普[2]
阿甘正传[1],星战前传[1],爱有天意[1]}
RU={10,9,8,9,8,10,10,10,9,10,9,10}
求群组和用户的特征交集可得,
SUA=SU∩SA={科幻片[4],史蒂夫·斯皮尔伯格[3]}
SUB=SU∩SB={爱情片[4],动作片[4],成龙[3],李连杰[2],
孙艺珍[2],阿甘正传[1],爱有天意[1]}
SUC=SU∩SC={科幻片[4],爱情片[4],
史蒂夫·斯皮尔伯格[3],戈尔·维宾斯基[3],
孙艺珍[2],约翰尼·戴普[2],星战前传[1]}
由于群组A和用户U的特征交集最少,可以首先将其排除,而群组B和群组C与用户U的特征交集大小相同,均有7个元素,所以必须进一步采用Pearson相关性或者夹角余弦相关性。这里采用Pearson相关性。
首先计算群组B和用户U的偏好相似性。
由前文所述的Pearson相关性,
类似地,可以算得sim(U,C)=-0.20。
应该先向用户U推荐群组B。
本实施例通过根据用户与共性群组的匹配程度和在所加入的共性群组的活跃程度向用户推荐共性群组,从而提高了推荐的有效性和效率。
实施例十四
本实施例进一步详细描述实施例七中的共性群组管理子系统,用于当所述群组活跃程度低于群组活跃程度阈值时,通知所述共性群组发现子系统重新构建共性群组。如图11所示,共性群组管理子系统包括:计算单元1101,用于计算所有用户在群时间的总和与所有用户在线时间的总和之比,或者所有用户在群活动的总和与所有用户在线活动的总和之比,作为所述群组活跃程度;更新单元1102,用于当新共性群组有相匹配的原共性群组时,将原共性群组更新为新共性群组,删除新共性群组;当新共性群组没有相匹配的原共性群组时,创建新共性群组;更新没有新共性群组相匹配的原共性群组的群组数据表中的相关信息,具体为清空没有新共性群组的原共性群组的成员表中的内容,重新计算该群组的群组特征表和群组信息文件,并更新用户-推荐群组表提取根本特征限定。
其中,群组活跃程度为所有用户在群时间的总和与所有用户在线时间的总和之比,或者所有用户在群活动的总和与所有用户在线活动的总和之比。
由于新共性群组(简称新群组)和旧共性群组(简称新群组)的交替可能给用户带来不好的体验。因而,建议维持旧群组的总体架构不变根据每个旧群组在用户构成上与每个新群组的匹配关系,找到与其匹配的新群组;将与某旧群组匹配的新群组的成员表导入到该旧群组的群组成员表中覆盖原来的内容,同时相应更新“用户-推荐群组表”(群组成员中的用户,如果是该旧群组的用户,或者其对应的“推荐的群组ID”项中已含该旧群组,则不更新,否则,将该旧群组ID添加进“推荐的群组ID”一栏,并记推荐的次数为0;非群组成员表中的用户,删除用户-推荐群组表中含该群组的推荐表项、群组特征表和群组信息文件;对于没有匹配群组的旧群组,将群组成员表中的内容清空,利用该群组用户的信息重新计算该群组的群组特征表和群组信息文件,删除用户-推荐群组表中包含该群组的表项;对于没有匹配群组的新群组,为其创建实际的群组结构,同时更新用户-推荐群组表(即为群组成员在推荐的群组ID中添加该群组ID,并记推荐的次数为0)。
由于群组成员表中记录的是该群组的推荐对象和潜在用户,所以将重新社团挖掘的结果(新群组的成员表)导入到旧群组的群组成员表中,将引导旧群组从过时的用户组成向新的用户组成转变。
假设整个用户网络中的全体用户集合为Ω={u1,u2,...un}。假设第i个旧群组的用户集合为Ai(i=1,2,...,s),令S={A1,A2,...,As};第k个新群组的成员集合为Bk(k=1,2,...,t),Bk∩Bl=Φ,k,l=1,2,...,t。令T={B1,B2,...,Bi}。并做如下定义:如果Ai∈S,Bk∈T满足且则称Ai,Bk是一对匹配群组。
下面通过一个例子来说明这个将新群组构成导入旧群组的过程。假设S={A1,A2,A3,A4,A5},T={B1,B2,B3,B4,B5}。用一个表来描述新旧群组在用户构成上的关系:
表格中的数字表示两个新旧群组用户集合的交集大小,即两个群组的共同用户数目,比如A2和B2的共同用户有37人。
从上表根据定义1可以计算出(A3,B3),(A4,B4)是匹配群组,将新群组B3中的成员导入到旧群组A3中,将新群组B4中的成员导入到旧群组A4中,同时相应更新旧群组A3和A4的群组特征表和群组信息文件,相应更新用户-推荐群组表。旧群组A1、A2、A5的群组成员表删除,根据群组用户更新群组特征表和群组信息文件,并相应更新用户-推荐群组表。同时为新群组B1、B2、B5创建实际的群组结构(新创建群组的群组用户表为空表),并相应更新用户-推荐群组表。
由于旧群组A3,A4中的成员分化程度不高,所以使用与之匹配的新群组B3,B4作为改进目标对其进行改良(即将新群组B3,B4中的成员导入A3,A4的群组成员表作为推荐对象)。旧群组A1,A5中的成员分化过大,不对其进行处理,它们最终可能被其他群组吸收而逐渐变得弱小。旧群组A2分化不大,也没有与之匹配的群组,故保持原状。
本实施例通过根据群组活跃程度调整共性群组,从而提高了推荐的准确性和有效性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种群组推荐方法,其特征在于,该方法包括:
根据用户特征发现并创建共性群组;
根据用户在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
2.根据权利要求1所述的方法,其特征在于,根据用户特征发现并创建共性群组的步骤具体包括:
提取并规范用户特征,所述用户特征包括用户基本特征和偏好特征;
根据提取的用户特征构建用户关系网络;
在用户关系网络中进行社团挖掘,所述社团是用户关系网络中彼此交集为空的顶点子集;
根据社团挖掘的结果创建共性群组。
3.根据权利要求2所述的方法,其特征在于,提取并规范用户特征的步骤具体包括:
收集用户的特征信息;
计算用户偏好特征的权重;
建立用户特征描述文件。
4.根据权利要求2所述的方法,其特征在于,计算用户之间的特征相似度包括:
计算用户基本特征的相似度;
计算用户偏好特征的相似度;
根据用户基本特征的相似度和用户偏好特征的相似度计算用户的特征相似度。
5.根据权利要求4所述的方法,其特征在于:
用户基本特征的相似度根据公式(1)计算得到,
其中,sim1(x,y)表示用户基本特征的相似度,BIx={bix,1,bix,2,...,bix,k}为用户x的k个基本特征的值集合,BIR={birx,1,birx,2,...,birx,k}为用户x的对应于k个基本特征的兴趣影响权重的集合;
用户偏好特征的相似度根据公式(2)或公式(3)计算得到,
其中,sim2(x,y)表示用户偏好特征的相似度,Sx,Sy为用户x和用户y的偏好特征集合,Sxy=Sx∩Sy,rx,s和rys分别为用户x和用户y对应于s偏好特征的权重,和分别为用户x和用户y对Sxy中所有偏好权重的平均值;
用户的特征相似度根据公式(4)计算得到,
sim(x,y)=a·sim1(x,y)+b·sim2(x,y),其中a+b=1 (4)。
6.根据权利要求2所述的方法,其特征在于,在用户关系网络中进行社团挖掘的步骤具体包括:
计算所有有连线的社团之间的相似度,初始时以单个用户对应的顶点为社团;
根据所述社团相似度找到最佳社团邻居对;
根据最佳社团邻居对合并的Q值增益来确定是否合并最佳社团邻居对。
7.根据权利要求6所述的方法,其特征在于,所述Q值增益根据公式(5)计算:
其中,i是社团编号,eij是连接社团i中的顶点与社团j中的顶点的边占所有边的比例,ai=∑jeij表示所有连接了社团i中的顶点的边占所有边的比例。
8.根据权利要求2所述的方法,其特征在于,根据社团挖掘的结果创建共性群组的步骤包括:
创建群组数据表;
存储群组数据表中的相关信息,其中,所述群组数据表中的相关信息包括群组用户信息,群组成员信息,群组特征信息,群组用户的活动信息,群组资源信息,群组推荐信息,以及群组宏观信息。
9.根据权利要求8所述的方法,其特征在于:所述群组宏观信息包括群组的用户数目、主要特征和资源空间路径,其中群组主要特征根据群组成员的偏好特征在群组中的重要程度确定,所述重要程度与所述偏好特征在所述群组中的相对频度和相对权重成正比;
其中,偏好特征在群组中的频度根据公式(6)计算得到,
其中,Si为群组i的成员集合,Pij为偏好特征j在群组i中的频度,
偏好特征在群组中的相对频度根据公式(7)计算得到,
其中,∑iPij为特征j在整个网络上出现的总频度;
偏好特征在群组中的权重根据公式(8)计算得到,
其中,Wij为偏好特征j在群组i中的权重,rjk是用户k在偏好特征j上的权重;
偏好特征在群组中的相对权重根据公式(9)计算得到,
其中,∑i(PijWij/∑iPij)为特征在整个网络上的权重。
10.根据权利要求1所述的方法,其特征在于,根据用户在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组的步骤包括:
衡量用户在所加入的共性群组中的用户活跃程度;
当所述用户活跃程度低于用户活跃程度阈值时,计算用户和其他共性群组之间的特征匹配值并确定用户与所述其他共性群组之间的匹配程度;
将与用户匹配且未超出推荐次数阈值的共性群组推荐给所述用户。
11.根据权利要求10所述的方法,其特征在于:所述用户和其他共性群组之间的特征匹配值计算采用公式(10)或公式(11),
M=|F1∩F2| (10)
M=|F1∩F2|/|F1∪F2| (11)
其中,用户的特征集合为F1,共性群组的主要特征集合为F2,M为用户与共性群组的特征匹配值。
12.一种群组推荐系统,其特征在于,该系统包括:
共性群组发现子系统,用于根据用户特征发现并创建共性群组;
共性群组推荐子系统,用于根据在所加入的共性群组中的活跃程度和用户与其他共性群组的匹配程度向用户推荐共性群组。
13.根据权利要求12所述的系统,其特征在于,所述共性群组发现子系统包括:
用户特征提取单元,用于提取并规范用户特征,所述用户特征包括用户基本特征,偏好特征;
用户关系网络构建单元,用于根据提取的用户特征构建用户关系网络;
用户共性群组发现单元,用于在用户关系网络中进行社团挖掘,所述社团是用户关系网络中彼此交集为空的顶点子集;
共性群组创建单元,用于根据社团挖掘的结果创建共性群组。
14.根据权利要求13所述的系统,其特征在于,所述用户特征提取单元包括:
收集模块,用于收集用户的特征信息;
计算模块,用于计算用户偏好特征的权重;
建立模块,用于建立用户特征描述文件。
15.根据权利要求13所述的系统,其特征在于,所述用户关系网络构建单元包括:
计算模块,用于计算用户之间的特征相似度;
连线模块,用于当用户之间的特征相似度超过相似度阈值时,在用户对应的顶点之间连线;
其中特征相似度根据下式计算,
sim(x,y)=a·sim1(x,y)+b·sim2(x,y),其中a+b=1,sim1(x,y)为用户基本特征的相似度,sim2(x,y)为用户偏好特征的相似度,sim1(x,y)根据下式计算,
用户x的k个基本特征的值集合,BIR={birx,1,birx,2,...,birx,k}为用户x的对应于k个基本特征的兴趣影响权重的集合;
sim2(x,y)根据下面两式之一计算,
16.根据权利要求13所述的系统,其特征在于,所述用户共性群组发现单元包括:
计算模块,用于计算所有有连线的社团之间的相似度,初始时以单个用户对应的顶点为社团;
确定模块,根据所述社团相似度找到最佳社团邻居对,并最佳社团邻居对合并的Q值增益来确定是否合并最佳社团邻居对;
其中,所述Q值增益下式计算:
其中,i是社团编号,eij是连接社团i中的顶点与社团j中的顶点的边占所有边的比例,ai=∑jeij表示所有连接了社团i中的顶点的边占所有边的比例。
17.根据权利要求13所述的系统,其特征在于,所述共性群组创建单元包括:
数据表构建模块,用于构建群组数据表,所述群组数据表包括群组用户表,群组成员表,群组用户活动日志表,群组资源表,群组推荐内容表和群组信息文件;
存储模块,用于存储上述群组数据表及相关信息;
确定模块,用于根据群组成员的偏好特征在群组中的重要程度确定群组的主要特征,所述重要程度与所述偏好特征在所述群组中的相对频度和相对权重成正比;
计算单元,用于计算所述偏好特征在所述群组中的相对频度和相对权重;其中
偏好特征在群组中的相对频度根据下式计算,
其中,∑iPij为特征j在整个网络上出现的总频度,偏好特征在群组中的频度根据下式计算得到,
其中,Si为群组i的成员集合,Pij为偏好特征j在群组i中的频度,
偏好特征在群组中的相对权重根据下式计算得到,
其中,∑i(PijWij/∑iPij)为特征在整个网络上的权重,偏好特征在群组中的权重根据下计算得到,
其中,Wij为偏好特征j在群组i中的权重,rjk是用户k在偏好特征j上的权重。
18.根据权利要求12所述的系统,其特征在于,所述共性群组推荐子系统包括:
活跃程度衡量单元,用于衡量用户在所加入的共性群组中的用户活跃程度;
特征匹配单元,用于当所述用户活跃程度低于用户活跃程度阈值时,计算用户和其他共性群组之间的特征匹配值并确定用户与所述其他共性群组的匹配程度;
推荐单元,用于将与用户匹配且未超出推荐次数阈值的共性群组推荐给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102071301A CN102044009A (zh) | 2009-10-23 | 2009-10-23 | 群组推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102071301A CN102044009A (zh) | 2009-10-23 | 2009-10-23 | 群组推荐方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102044009A true CN102044009A (zh) | 2011-05-04 |
Family
ID=43910130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102071301A Pending CN102044009A (zh) | 2009-10-23 | 2009-10-23 | 群组推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102044009A (zh) |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790707A (zh) * | 2011-05-18 | 2012-11-21 | 北京千橡网景科技发展有限公司 | 一种归类对象的方法和装置 |
CN102831114A (zh) * | 2011-06-14 | 2012-12-19 | 北京思博途信息技术有限公司 | 实现互联网用户访问情况统计分析的方法及装置 |
CN102902696A (zh) * | 2011-07-29 | 2013-01-30 | 国际商业机器公司 | 用于社交网络的内容管理的方法和设备 |
CN102902681A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 一种群信息查找方法、装置及即时通讯工具 |
CN103049496A (zh) * | 2012-12-07 | 2013-04-17 | 北京百度网讯科技有限公司 | 一种对多个用户进行用户群划分的方法、装置与设备 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN103150345A (zh) * | 2013-02-06 | 2013-06-12 | 福建伊时代信息科技股份有限公司 | 在线文档分享方法 |
CN103164416A (zh) * | 2011-12-12 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种用户关系的识别方法及设备 |
CN103248639A (zh) * | 2012-02-06 | 2013-08-14 | 阿里巴巴集团控股有限公司 | 一种用于确定信息传播能力的方法及系统 |
CN103632294A (zh) * | 2013-12-20 | 2014-03-12 | 互动通天图信息技术有限公司 | 基于媒体和第三方数据平台的用户数据整合方法 |
CN103646060A (zh) * | 2013-11-29 | 2014-03-19 | 宇龙计算机通信科技(深圳)有限公司 | 一种搜索群组的方法及装置 |
CN104050258A (zh) * | 2014-06-15 | 2014-09-17 | 中国传媒大学 | 一种基于兴趣群组的群体推荐方法 |
CN104079960A (zh) * | 2013-12-05 | 2014-10-01 | 深圳市腾讯计算机系统有限公司 | 文件推荐方法和装置 |
CN104092596A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种音乐用户群组的管理方法、装置及系统 |
CN104731982A (zh) * | 2015-04-17 | 2015-06-24 | 天天艾米(北京)网络科技有限公司 | 一种动态群演化生成方法 |
CN104750856A (zh) * | 2015-04-16 | 2015-07-01 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的系统与方法 |
CN105245356A (zh) * | 2015-10-23 | 2016-01-13 | 邱彼特 | 一种信息交互方法和装置 |
CN105825311A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团湖南有限公司 | 一种套餐确定方法及系统 |
CN105956048A (zh) * | 2016-04-27 | 2016-09-21 | 上海遥薇(集团)有限公司 | 一种社区服务大数据算法挖掘系统 |
CN106022839A (zh) * | 2016-05-31 | 2016-10-12 | 北京红马传媒文化发展有限公司 | 一种特定群体的识别方法、系统及终端 |
CN102902681B (zh) * | 2011-07-26 | 2016-12-14 | 腾讯科技(深圳)有限公司 | 一种群信息查找方法、装置及即时通讯工具 |
CN106250407A (zh) * | 2016-07-21 | 2016-12-21 | 北京朗势科技有限公司 | 一种社交通信方法和装置 |
CN106294500A (zh) * | 2015-06-09 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 内容项目的推送方法、装置及系统 |
CN106302085A (zh) * | 2015-05-18 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 即时通讯群组的推荐方法及系统 |
CN106447558A (zh) * | 2016-06-23 | 2017-02-22 | 温州职业技术学院 | 一种结合本体论与聚类分析技术的导学方法及学习系统 |
CN106504105A (zh) * | 2017-01-04 | 2017-03-15 | 温州职业技术学院 | 一种基于信任度因子的用户虚拟社区构建装置及方法 |
CN103327045B (zh) * | 2012-03-21 | 2017-03-22 | 腾讯科技(深圳)有限公司 | 社交网络中的用户推荐方法和系统 |
CN103841121B (zh) * | 2014-03-28 | 2017-03-29 | 中国科学技术大学 | 一种基于本地文件的评论和互动系统及方法 |
CN107341162A (zh) * | 2016-05-03 | 2017-11-10 | 北京搜狗科技发展有限公司 | 网页处理方法和装置、用于网页处理的装置 |
CN107481166A (zh) * | 2017-06-29 | 2017-12-15 | 北京易教阳光教育科技有限公司 | 一种用户分组方法、系统、终端及其存储介质 |
CN107526759A (zh) * | 2016-06-21 | 2017-12-29 | 富士施乐株式会社 | 信息处理设备和信息处理方法 |
CN107657048A (zh) * | 2017-09-21 | 2018-02-02 | 北京麒麟合盛网络技术有限公司 | 用户识别方法及装置 |
CN108416607A (zh) * | 2017-12-29 | 2018-08-17 | 南京邮电大学 | 一种基于旅客信任度的智能旅馆推荐方法 |
CN108846767A (zh) * | 2017-04-27 | 2018-11-20 | 清华大学 | 社交群组的特征获取方法及装置 |
WO2018210131A1 (zh) * | 2017-05-16 | 2018-11-22 | 清华大学 | 邀请行为预测方法、装置及存储介质 |
WO2018233472A1 (zh) * | 2017-06-21 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 入群、建群方法及其设备 |
WO2019019579A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳市爱的网络科技有限公司 | 一种社交系统、终端及计算机可读存储介质 |
CN109639444A (zh) * | 2019-02-20 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 消息处理方法、装置、电子设备及存储介质 |
CN110517158A (zh) * | 2019-08-09 | 2019-11-29 | 福建路阳信息科技有限公司 | 一种活动组织管理方法 |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110690981A (zh) * | 2019-09-23 | 2020-01-14 | 北京谦仁科技有限公司 | 数据处理方法和计算机可读存储介质 |
CN111107180A (zh) * | 2019-12-30 | 2020-05-05 | 上海赛连信息科技有限公司 | 将用户归属于实体的方法和装置 |
CN111797320A (zh) * | 2020-07-02 | 2020-10-20 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN112118116A (zh) * | 2019-06-20 | 2020-12-22 | 秀铺菲公司 | 基于电子商务平台中的设置来推荐商家讨论组的系统和方法 |
CN112215052A (zh) * | 2019-07-10 | 2021-01-12 | 丰田自动车株式会社 | 信息决定装置以及信息决定方法 |
CN112990430A (zh) * | 2021-02-08 | 2021-06-18 | 辽宁工业大学 | 基于长短时记忆网络的群组划分方法及系统 |
CN113158082A (zh) * | 2021-05-13 | 2021-07-23 | 聂佼颖 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113726537A (zh) * | 2021-08-27 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 一种互动方法、终端、设备及存储介质 |
WO2022166115A1 (en) * | 2021-02-08 | 2022-08-11 | Huawei Technologies Co., Ltd. | Recommendation system with adaptive thresholds for neighborhood selection |
WO2023071404A1 (zh) * | 2021-10-29 | 2023-05-04 | 花瓣云科技有限公司 | 推荐方法、电子设备及存储介质 |
-
2009
- 2009-10-23 CN CN2009102071301A patent/CN102044009A/zh active Pending
Cited By (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790707A (zh) * | 2011-05-18 | 2012-11-21 | 北京千橡网景科技发展有限公司 | 一种归类对象的方法和装置 |
CN102831114A (zh) * | 2011-06-14 | 2012-12-19 | 北京思博途信息技术有限公司 | 实现互联网用户访问情况统计分析的方法及装置 |
CN102831114B (zh) * | 2011-06-14 | 2015-09-16 | 北京思博途信息技术有限公司 | 实现互联网用户访问情况统计分析的方法及装置 |
CN102902681A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 一种群信息查找方法、装置及即时通讯工具 |
CN102902681B (zh) * | 2011-07-26 | 2016-12-14 | 腾讯科技(深圳)有限公司 | 一种群信息查找方法、装置及即时通讯工具 |
CN102902696A (zh) * | 2011-07-29 | 2013-01-30 | 国际商业机器公司 | 用于社交网络的内容管理的方法和设备 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN103164416B (zh) * | 2011-12-12 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 一种用户关系的识别方法及设备 |
CN103164416A (zh) * | 2011-12-12 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种用户关系的识别方法及设备 |
CN103248639B (zh) * | 2012-02-06 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种用于确定信息传播能力的方法及系统 |
CN103248639A (zh) * | 2012-02-06 | 2013-08-14 | 阿里巴巴集团控股有限公司 | 一种用于确定信息传播能力的方法及系统 |
CN103327045B (zh) * | 2012-03-21 | 2017-03-22 | 腾讯科技(深圳)有限公司 | 社交网络中的用户推荐方法和系统 |
CN103049496B (zh) * | 2012-12-07 | 2016-08-17 | 北京百度网讯科技有限公司 | 一种对多个用户进行用户群划分的方法、装置与设备 |
CN103049496A (zh) * | 2012-12-07 | 2013-04-17 | 北京百度网讯科技有限公司 | 一种对多个用户进行用户群划分的方法、装置与设备 |
CN103150345A (zh) * | 2013-02-06 | 2013-06-12 | 福建伊时代信息科技股份有限公司 | 在线文档分享方法 |
CN103150345B (zh) * | 2013-02-06 | 2016-08-03 | 福建伊时代信息科技股份有限公司 | 在线文档分享方法 |
CN103646060B (zh) * | 2013-11-29 | 2017-05-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种搜索群组的方法及装置 |
CN103646060A (zh) * | 2013-11-29 | 2014-03-19 | 宇龙计算机通信科技(深圳)有限公司 | 一种搜索群组的方法及装置 |
CN104079960B (zh) * | 2013-12-05 | 2015-10-07 | 深圳市腾讯计算机系统有限公司 | 文件推荐方法和装置 |
CN104079960A (zh) * | 2013-12-05 | 2014-10-01 | 深圳市腾讯计算机系统有限公司 | 文件推荐方法和装置 |
US9930419B2 (en) | 2013-12-05 | 2018-03-27 | Tencent Technology (Shenzhen) Company Limited | File recommendation method and device |
CN103632294A (zh) * | 2013-12-20 | 2014-03-12 | 互动通天图信息技术有限公司 | 基于媒体和第三方数据平台的用户数据整合方法 |
CN104092596A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种音乐用户群组的管理方法、装置及系统 |
CN104092596B (zh) * | 2014-01-20 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 一种音乐用户群组的管理方法、装置及系统 |
CN103841121B (zh) * | 2014-03-28 | 2017-03-29 | 中国科学技术大学 | 一种基于本地文件的评论和互动系统及方法 |
CN104050258B (zh) * | 2014-06-15 | 2017-02-15 | 中国传媒大学 | 一种基于兴趣群组的群体推荐方法 |
CN104050258A (zh) * | 2014-06-15 | 2014-09-17 | 中国传媒大学 | 一种基于兴趣群组的群体推荐方法 |
CN105825311A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团湖南有限公司 | 一种套餐确定方法及系统 |
CN104750856B (zh) * | 2015-04-16 | 2018-01-05 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的系统与方法 |
CN104750856A (zh) * | 2015-04-16 | 2015-07-01 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的系统与方法 |
CN104731982B (zh) * | 2015-04-17 | 2018-01-30 | 天天艾米(北京)网络科技有限公司 | 一种动态群演化生成方法 |
CN104731982A (zh) * | 2015-04-17 | 2015-06-24 | 天天艾米(北京)网络科技有限公司 | 一种动态群演化生成方法 |
CN106302085A (zh) * | 2015-05-18 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 即时通讯群组的推荐方法及系统 |
CN106294500A (zh) * | 2015-06-09 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 内容项目的推送方法、装置及系统 |
CN106294500B (zh) * | 2015-06-09 | 2020-04-24 | 深圳市腾讯计算机系统有限公司 | 内容项目的推送方法、装置及系统 |
CN105245356A (zh) * | 2015-10-23 | 2016-01-13 | 邱彼特 | 一种信息交互方法和装置 |
CN105956048A (zh) * | 2016-04-27 | 2016-09-21 | 上海遥薇(集团)有限公司 | 一种社区服务大数据算法挖掘系统 |
CN107341162B (zh) * | 2016-05-03 | 2022-11-25 | 北京搜狗科技发展有限公司 | 网页处理方法和装置、用于网页处理的装置 |
CN107341162A (zh) * | 2016-05-03 | 2017-11-10 | 北京搜狗科技发展有限公司 | 网页处理方法和装置、用于网页处理的装置 |
CN106022839B (zh) * | 2016-05-31 | 2021-09-28 | 北京红马传媒文化发展有限公司 | 一种特定群体的识别方法、系统及终端 |
CN106022839A (zh) * | 2016-05-31 | 2016-10-12 | 北京红马传媒文化发展有限公司 | 一种特定群体的识别方法、系统及终端 |
CN107526759B (zh) * | 2016-06-21 | 2023-08-18 | 富士胶片商业创新有限公司 | 信息处理设备和信息处理方法 |
CN107526759A (zh) * | 2016-06-21 | 2017-12-29 | 富士施乐株式会社 | 信息处理设备和信息处理方法 |
CN106447558A (zh) * | 2016-06-23 | 2017-02-22 | 温州职业技术学院 | 一种结合本体论与聚类分析技术的导学方法及学习系统 |
CN106250407A (zh) * | 2016-07-21 | 2016-12-21 | 北京朗势科技有限公司 | 一种社交通信方法和装置 |
CN106504105A (zh) * | 2017-01-04 | 2017-03-15 | 温州职业技术学院 | 一种基于信任度因子的用户虚拟社区构建装置及方法 |
CN108846767A (zh) * | 2017-04-27 | 2018-11-20 | 清华大学 | 社交群组的特征获取方法及装置 |
CN108846767B (zh) * | 2017-04-27 | 2022-03-11 | 清华大学 | 社交群组的特征获取方法及装置 |
WO2018210131A1 (zh) * | 2017-05-16 | 2018-11-22 | 清华大学 | 邀请行为预测方法、装置及存储介质 |
US11449766B2 (en) | 2017-05-16 | 2022-09-20 | Tsinghua University | Invitation behavior prediction method and apparatus, and storage medium |
WO2018233472A1 (zh) * | 2017-06-21 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 入群、建群方法及其设备 |
CN107481166A (zh) * | 2017-06-29 | 2017-12-15 | 北京易教阳光教育科技有限公司 | 一种用户分组方法、系统、终端及其存储介质 |
WO2019019579A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳市爱的网络科技有限公司 | 一种社交系统、终端及计算机可读存储介质 |
CN107657048A (zh) * | 2017-09-21 | 2018-02-02 | 北京麒麟合盛网络技术有限公司 | 用户识别方法及装置 |
CN107657048B (zh) * | 2017-09-21 | 2020-12-04 | 麒麟合盛网络技术股份有限公司 | 用户识别方法及装置 |
CN108416607A (zh) * | 2017-12-29 | 2018-08-17 | 南京邮电大学 | 一种基于旅客信任度的智能旅馆推荐方法 |
CN109639444A (zh) * | 2019-02-20 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 消息处理方法、装置、电子设备及存储介质 |
CN112118116B (zh) * | 2019-06-20 | 2022-10-18 | 秀铺菲公司 | 基于电子商务平台中的设置来推荐商家讨论组的系统和方法 |
US11677710B2 (en) | 2019-06-20 | 2023-06-13 | Shopify Inc. | Systems and methods for recommending merchant discussion groups |
CN112118116A (zh) * | 2019-06-20 | 2020-12-22 | 秀铺菲公司 | 基于电子商务平台中的设置来推荐商家讨论组的系统和方法 |
CN112215052A (zh) * | 2019-07-10 | 2021-01-12 | 丰田自动车株式会社 | 信息决定装置以及信息决定方法 |
CN110517158A (zh) * | 2019-08-09 | 2019-11-29 | 福建路阳信息科技有限公司 | 一种活动组织管理方法 |
CN110602101B (zh) * | 2019-09-16 | 2021-01-01 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110690981A (zh) * | 2019-09-23 | 2020-01-14 | 北京谦仁科技有限公司 | 数据处理方法和计算机可读存储介质 |
CN111107180A (zh) * | 2019-12-30 | 2020-05-05 | 上海赛连信息科技有限公司 | 将用户归属于实体的方法和装置 |
CN111797320B (zh) * | 2020-07-02 | 2023-06-06 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111797320A (zh) * | 2020-07-02 | 2020-10-20 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
WO2022166115A1 (en) * | 2021-02-08 | 2022-08-11 | Huawei Technologies Co., Ltd. | Recommendation system with adaptive thresholds for neighborhood selection |
CN112990430A (zh) * | 2021-02-08 | 2021-06-18 | 辽宁工业大学 | 基于长短时记忆网络的群组划分方法及系统 |
CN113158082A (zh) * | 2021-05-13 | 2021-07-23 | 聂佼颖 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113158082B (zh) * | 2021-05-13 | 2023-01-17 | 和鸿广科技(上海)有限公司 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113726537A (zh) * | 2021-08-27 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 一种互动方法、终端、设备及存储介质 |
WO2023071404A1 (zh) * | 2021-10-29 | 2023-05-04 | 花瓣云科技有限公司 | 推荐方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102044009A (zh) | 群组推荐方法和系统 | |
Goldberg et al. | Beyond social contagion: Associative diffusion and the emergence of cultural variation | |
Su et al. | An edge intelligence empowered recommender system enabling cultural heritage applications | |
Vu et al. | Discovering implicit activity preferences in travel itineraries by topic modeling | |
Musto et al. | Introducing linked open data in graph-based recommender systems | |
Corsten | The time of generations | |
JP5230751B2 (ja) | 社会的行動分析及び語彙分類を用いた推奨システム | |
CN102982042B (zh) | 一种个性化内容推荐方法、平台以及系统 | |
CN103514204B (zh) | 信息推荐方法和装置 | |
Zhang et al. | User community discovery from multi-relational networks | |
Lai et al. | Novel personal and group-based trust models in collaborative filtering for document recommendation | |
Amato et al. | Kira: A system for knowledge-based access to multimedia art collections | |
Zhao et al. | Personalized mobile searching approach based on combining content-based filtering and collaborative filtering | |
Agreste et al. | Analysis of a heterogeneous social network of humans and cultural objects | |
Yin et al. | An improved recommendation algorithm for big data cloud service based on the trust in sociology | |
CN110083764A (zh) | 一种协同过滤算法冷启动问题的解决方法 | |
Kzaz et al. | Tourism recommender systems: an overview of recommendation approaches | |
Zahálka et al. | Interactive multimodal learning for venue recommendation | |
Zhang et al. | Proposing a new friend recommendation method, FRUTAI, to enhance social media providers' performance | |
Wang et al. | Relation embedding for personalised translation-based poi recommendation | |
Zhang et al. | Hybrid recommendation system based on semantic interest community and trusted neighbors | |
Wei et al. | Social relationship for physical objects | |
Sun et al. | A hybrid approach for article recommendation in research social networks | |
van Nuenen | Algorithmic authenticity: Sociotechnical authentication processes on online travel platforms | |
Dixit et al. | Weighted percentile-based context-aware recommender system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110504 |