CN105912727A - 一种在线社交网络标注系统中的快速推荐方法 - Google Patents

一种在线社交网络标注系统中的快速推荐方法 Download PDF

Info

Publication number
CN105912727A
CN105912727A CN201610329748.5A CN201610329748A CN105912727A CN 105912727 A CN105912727 A CN 105912727A CN 201610329748 A CN201610329748 A CN 201610329748A CN 105912727 A CN105912727 A CN 105912727A
Authority
CN
China
Prior art keywords
user
content
bunch
mark
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610329748.5A
Other languages
English (en)
Other versions
CN105912727B (zh
Inventor
蔡世民
赵耀东
尚明生
陈智宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610329748.5A priority Critical patent/CN105912727B/zh
Publication of CN105912727A publication Critical patent/CN105912727A/zh
Application granted granted Critical
Publication of CN105912727B publication Critical patent/CN105912727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种在线社交网络标注系统中的快速推荐方法,属于个性化推荐,数据挖掘领域。解决了传统算法或片面追求高准确率而忽略计算成本,或片面追求模型简单,计算迅速而忽略准确率和个性化的问题。本发明不需迭代到收敛的粗聚类算法其本质上是快速根据用户相似度指标将用户分成簇的过程,而基于用户的协同过滤推荐算法也是根据用户之间的相似度进行推荐,所以本发明可以保证高准确率和个性化;从而在保证准确率和个性化的前提下减少了计算的时间开销;在保证推荐系统中推荐算法准确性和个性化的基础上,降低了系统时间开销,同时具有高准确性,高个性化和低系统时间开销的特点。

Description

一种在线社交网络标注系统中的快速推荐方法
技术领域
本发明属于个性化推荐,数据挖掘领域。
背景技术
缩略词与关键术语定义:
准确性:指推荐系统推荐的资源或物品与系统中用户实际喜欢或购买的资源或物品的相似程度,该指标用于刻画推荐系统的推荐能力和实际效用。
个性化:指推荐系统根据每个用户自身的不同特质推荐相应的资源或物品,个性化与准确性高度相关。
系统时间开销:指推荐系统根据在线系统中已有的数据进行数据清洗的时间开销和根据清洗后的数据及相关推荐算法进行计算的时间开销的总和。
时效性:由于用户兴趣的迁移,推荐系统必须保证根据历史数据做出的相关推荐在当前时间节点上是有效的。这意味着推荐系统根据历史数据进行相关计算的时间不应该过长。在考虑用户兴趣迁移的情况下,时效性可能会影响准确性。
随着web2.0技术的发展,各种在线系统中的用户量和数据量急剧增加,面对信息过载,用户如何快速地在各种在线系统中获得有价值的内容成为在线系统设计中一个重要的问题。推荐系统正是解决上述问题的重要工具,也是在线系统中的一个重要模块,它在给用户带来方便的同时,也带来了巨大的经济效益。电子商务,社交网站,知识引擎,在线音乐,在线影视等多个互联网行业都引入了推荐系统。现今互联网中,用户可以方便地在在线社交网络(如Delicious,Youtube等)中进行内容的存储,发布,标注与分享,在这些系统中,用户、内容和标注信息构成了在线社交网络中的标注子系统,推荐系统可以根据用户信息,内容信息,标注信息为用户提供主动的个性化推荐服务,为用户推荐其可能喜欢的内容,从而减轻在在线系统中因信息过载而导致的用户选择困难。
当前在线社交网络推荐系统中的推荐算法或者追求较高的准确性与个性化,或者追求较小的时间开销。例如,基于协同过滤的推荐算法(CF)具有较高的准确性同时也考虑了个性化的需求,但是由于在大规模在线社交系统中其计算量巨大,往往造成很大的系统时间开销。而基于全局排序(GRM)的推荐方法时间开销较小,但是缺少个性化因素,在准确性方面效果欠佳。
现有技术的缺点:
当前大多数推荐系统的研发追求的是不断提高推荐系统的准确性。为了提高推荐系统准确性,它们大多引入了非常复杂的数学模型。为了计算出为用户推荐的内容,往往导致极大的系统时间开销,消耗大量的计算资源,同时导致时效性降低。而另一些推荐系统使用简单的数学模型,消耗的计算资源很少,计算的时间开销也比较合理,但是推荐结果或者缺乏个性化因素,或者其准确性有待提高。前者会导致推荐系统的运营成本增加,同时也可能导致用户对整个系统的体验度降低。而后者可能因为太多错误的推荐使用户心生不满。
发明内容
本发明针对现有技术的不足,提供了一种在线社交网络标注系统中的快速推荐方法,解决了传统算法或片面追求高准确率而忽略计算成本,或片面追求模型简单,计算迅速而忽略准确率和个性化的问题。本发明在保证推荐系统中推荐算法准确性和个性化的基础上,降低了系统时间开销,同时具有高准确性,高个性化和低系统时间开销的特点。
本发明公开的一种在线社交网络标注系统中的快速推荐方法,包括下列步骤:
步骤1:从数据库中读取用户、内容和标注的相关关系数据,其中“内容”表示用户关注过的信息或数据,“标注”表示用户在关注的内容上增加的相应的标注数据,并构建用户-内容-标注之间的联系,组成网络;
步骤2:对用户-内容-标注网络进行粗聚类,将整个网络划分为多个用户簇及与之相关的内容簇;
步骤3:根据获取的用户簇及与之相关的内容簇,在各用户簇及与之相关的内容簇内采用基于用户的协同过滤推荐方法,计算各用户的推荐列表;
步骤4:将计算出的各用户的推荐列表存储到数据库,供在线系统使用。
所述步骤2的具体方法为:
根据在线系统的实际情况设置用户簇的平均大小;通过一个不需要迭代到收敛的粗聚类算法,设置迭代次数为2次,从用户-内容-标注网络中快速抽取不相交的用户簇;每一个用户簇中所有用户存储、发布、标注或分享的内容集合构成与该用户簇相关的内容簇。
所述步骤3的过程为:
在步骤2中得到的用户簇及与用户簇相关的内容簇的基础上,使用基于用户的协同过滤方法进行推荐;首先根据用户簇内的用户的相似度,计算用户簇中的每一个用户对相应内容簇中内容的预测偏好得分,再对每一个用户对内容的预测偏好得分进行排序,根据推荐列表长度,对每一个用户求取前K内容进行推荐,K的数值根据实际需要确定。
和现有的技术相比,本发明的有益效果为:
1、步骤3使用了从步骤2中抽取出来的用户簇及与之相关的内容簇信息。根据抽取的信息,构建了用户-内容-标注子网络并计算相应的推荐列表。在多个子网络上应用基于用户的协同过滤推荐方法与在一个大网络上使用该方法相比大大减少了计算的时间开销。而在步骤2中使用的用于抽取用户簇及与之相关的内容簇信息的不需迭代到收敛的粗聚类算法所需计算时间开销较小,其与步骤3的时间开销总和远小于在同数据集上直接运用基于用户的协同过滤算法的时间开销,从而实现了快速推荐,其时间复杂度分析见具体实施方案。
2、步骤2中使用的不需迭代到收敛的粗聚类算法其本质上是快速根据用户相似度指标将用户分成簇的过程,而基于用户的协同过滤推荐算法也是根据用户之间的相似度进行推荐,所以本发明可以保证高准确率和个性化。从而在保证准确率和个性化的前提下减少了计算的时间开销。
附图说明
图1为在线社交网络标注系统中快速推荐方法的流程图。
图2a为用户-内容-标注示意图,图2b为投射之后的用户-内容,用户-标注二部图。
图3为基于不需迭代到收敛的粗聚类算法的快速推荐方法流程图。
图4为抽取出的用户簇和与之相关的内容簇的示意图。
具体实施方案
为了使本发明的目的更加清楚,以下结合附图对本发明进一步详细介绍。
图1可视化地表示出了本发明提出的在线社交网络标注系统中快速推荐方法的步骤。推荐系统计算引擎从数据库中读取用户,内容及标注的相关信息,并构建如图2所示的用户-内容-标注三层网络,其中,相同编号的用户-内容,内容-标签边构成了一个(用户-内容-标注)三元组,表示用户的一次标注行为。通过投射,可以得到两个二部图,其中用户-内容二部图用于表示用户标注的内容,用户-标签二部图表示用户所使用的标注。因此一个用户可以通过两个向量来表征,一个是用户-内容向量每一个分量表示用户是否标注过相关内容,另一个是用户-标注向量每一个分量表示用户是否使用过相关的标注。基于这些信息,推荐系统计算引擎会抽取互不相交的用户簇,其主要步骤如图3所示。
进一步地,计算方法及相关建议值如下所述:
推荐系统计算引擎按照图3中的算法进行计算时,每个用户簇的中心以簇用户-内容向量中心和簇用户-标注向量中心来表示,如下所示:
Cent C j U R = 1 N C j U Σ u i ∈ C j U V u i R
Cent C j U T = 1 N C j U Σ u i ∈ C j U V u i T
其中表示第j个用户簇,表示第j个用户簇中的用户数目。将每一个用户重新指派到某一个用户簇将按照用户和簇中心的相似性进行,这个相似性为:
s i m ( u i , C j U ) = α V u i R · Cent C j U R | | V u i R | | | | Cent C j U R | | + ( 1 - α ) V u i T · Cent C j U T | | V u i T | | | | Cent C j U T | |
推荐系统计算引擎将经验值α设置为0.5。第一次推荐系统计算引擎将随机指定用户属于的用户簇,经过两次迭代后,可以获得如图4所示的不相交的用户簇和相关的内容簇。
推荐系统计算引擎将按照如图4所示的计算结果构建如图1所示的用户-内容-标注子网络,在不同的子网络上运行基于用户的协同过滤推荐算法。在每个子网络上,推荐系统使用的相似度度量指标如下所示:
s i m ( u i , u j ) = β V u i R · V u j R | | V u i R | | | | V u j R | | + ( 1 - β ) V u i T · V u j T | | V u i T | | | | V u j T | |
其中经验值β根据分量和分量的分布来确定。
用户对内容的预测偏好得分计算方法如下:
至此,使用本快速推荐方法的推荐系统计算引擎将计算的渐进时间复杂度从O(NU(NUNR+NT))降低到了极大地降低了运算的时间开销。其中NU,NR,NT表示在线社交网络标注系统中的用户数目,内容数目和标注数目。表示每一个子网络中的用户数目,内容数目和标注数目,Kc代表用户簇的数目。
除了上述提到的具体技术实施方案,包括且不仅包括以下方案完成本发明:
1、推荐系统计算引擎不仅可以从数据库中读取数据,也可以从文本文件,网络中读取数据,不仅可以将计算结果写入数据库,也可以写入文本文件或者网络上。
2、在计算相关相似性指标时,不仅可以使用加权余弦相似度,还可以使用其他相似度来进行计算,如加权的Person相似度、Jaccard相似度。
3、在抽取用户簇及其相关的内容簇信息时,可以使用其他的使用相似性指标且基于不需要迭代到收敛的算法。

Claims (3)

1.一种在线社交网络标注系统中的快速推荐方法,包括下列步骤:
步骤1:从数据库中读取用户、内容和标注的相关关系数据,其中“内容”表示用户关注过的信息或数据,“标注”表示用户在关注的内容上增加的相应的标注数据,并构建用户-内容-标注之间的联系,组成网络;
步骤2:对用户-内容-标注网络进行粗聚类,将整个网络划分为多个用户簇及与之相关的内容簇;
步骤3:根据获取的用户簇及与之相关的内容簇,在各用户簇及与之相关的内容簇内采用基于用户的协同过滤推荐方法,计算各用户的推荐列表;
步骤4:将计算出的各用户的推荐列表存储到数据库,供在线系统使用。
2.如权利要求1所述的一种在线社交网络标注系统中的快速推荐方法,其特征在于所述步骤2的具体方法为:
根据在线系统的实际情况设置用户簇的平均大小;通过一个不需要迭代到收敛的粗聚类算法,设置迭代次数为2次,从用户-内容-标注网络中快速抽取不相交的用户簇;每一个用户簇中所有用户存储、发布、标注或分享的内容集合构成与该用户簇相关的内容簇。
3.如权利要求1所述的一种在线社交网络标注系统中的快速推荐方法,其特征在于所述步骤3的过程为:
在步骤2中得到的用户簇及与用户簇相关的内容簇的基础上,使用基于用户的协同过滤方法进行推荐;首先根据用户簇内的用户的相似度,计算用户簇中的每一个用户对相应内容簇中内容的预测偏好得分,再对每一个用户对内容的预测偏好得分进行排序,根据推荐列表长度,对每一个用户求取前K内容进行推荐,K的数值根据实际需要确定。
CN201610329748.5A 2016-05-18 2016-05-18 一种在线社交网络标注系统中的快速推荐方法 Active CN105912727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610329748.5A CN105912727B (zh) 2016-05-18 2016-05-18 一种在线社交网络标注系统中的快速推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610329748.5A CN105912727B (zh) 2016-05-18 2016-05-18 一种在线社交网络标注系统中的快速推荐方法

Publications (2)

Publication Number Publication Date
CN105912727A true CN105912727A (zh) 2016-08-31
CN105912727B CN105912727B (zh) 2019-02-15

Family

ID=56748187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610329748.5A Active CN105912727B (zh) 2016-05-18 2016-05-18 一种在线社交网络标注系统中的快速推荐方法

Country Status (1)

Country Link
CN (1) CN105912727B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182268A (zh) * 2018-01-16 2018-06-19 浙江工商大学 一种基于社会网络的协同过滤推荐方法及系统
CN108804419A (zh) * 2018-05-22 2018-11-13 湖南大学 一种基于知识图谱的线下医药零售精准推荐技术

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050238201A1 (en) * 2004-04-15 2005-10-27 Atid Shamaie Tracking bimanual movements
CN103678618A (zh) * 2013-12-17 2014-03-26 南京大学 一种基于社交网络平台的Web服务推荐方法
CN103810192A (zh) * 2012-11-09 2014-05-21 腾讯科技(深圳)有限公司 一种用户的兴趣推荐方法和装置
CN104317900A (zh) * 2014-10-24 2015-01-28 重庆邮电大学 一种面向社交网络的多属性协同过滤推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050238201A1 (en) * 2004-04-15 2005-10-27 Atid Shamaie Tracking bimanual movements
CN103810192A (zh) * 2012-11-09 2014-05-21 腾讯科技(深圳)有限公司 一种用户的兴趣推荐方法和装置
CN103678618A (zh) * 2013-12-17 2014-03-26 南京大学 一种基于社交网络平台的Web服务推荐方法
CN104317900A (zh) * 2014-10-24 2015-01-28 重庆邮电大学 一种面向社交网络的多属性协同过滤推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182268A (zh) * 2018-01-16 2018-06-19 浙江工商大学 一种基于社会网络的协同过滤推荐方法及系统
CN108182268B (zh) * 2018-01-16 2021-01-08 浙江工商大学 一种基于社会网络的协同过滤推荐方法及系统
CN108804419A (zh) * 2018-05-22 2018-11-13 湖南大学 一种基于知识图谱的线下医药零售精准推荐技术

Also Published As

Publication number Publication date
CN105912727B (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN103559262B (zh) 基于社区的作者及其学术论文推荐系统和推荐方法
CN105005589B (zh) 一种文本分类的方法和装置
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN108733798A (zh) 一种基于知识图谱的个性化推荐方法
CN109359244A (zh) 一种个性化信息推荐方法和装置
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN103970866B (zh) 基于微博文本的微博用户兴趣发现方法及系统
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN108108426A (zh) 自然语言提问的理解方法、装置及电子设备
CN106599037A (zh) 一种基于标签语义规范化推荐方法
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN110348919A (zh) 物品推荐方法、装置和计算机可读存储介质
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
CN101320461A (zh) 基于电阻网络和稀疏数据预测的协同过滤方法
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN102289514A (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN106886565A (zh) 一种基础房型自动聚合方法
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN102929975A (zh) 基于文档标签表征的推荐方法
CN105912727A (zh) 一种在线社交网络标注系统中的快速推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant