CN105719189A - 一种社交网络中有效提高标签多样性的标签推荐方法 - Google Patents
一种社交网络中有效提高标签多样性的标签推荐方法 Download PDFInfo
- Publication number
- CN105719189A CN105719189A CN201610026973.1A CN201610026973A CN105719189A CN 105719189 A CN105719189 A CN 105719189A CN 201610026973 A CN201610026973 A CN 201610026973A CN 105719189 A CN105719189 A CN 105719189A
- Authority
- CN
- China
- Prior art keywords
- label
- tag
- item set
- frequent item
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种社交网络中有效提高标签多样性的标签推荐方法,包括:结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集;对该集合选择Apriori算法中1?频繁项集及2?频繁项集的生成,用1?频繁项集来生成微博个性标签语料库;利用2?频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性;按照2?频繁项集中标签支持度的高低进行Top?N项排序。本发明可以提高标签推荐的效率,同时保证了推荐的多样性。
Description
技术领域
本发明涉及一种社交网络中有效提高标签多样性的标签推荐方法。
背景技术
社交网络自20世纪90年代兴起,此后逐渐成为了新的信息发现、分享以及传播途径,随着时间的推进,这些社交网络中的用户日益增长,由此社交网络中的每天发布的信息量也以几何倍数增长,社交网络的数据挖掘成为了新兴的研究热点。近年来,微博成为了新兴的社交网络平台,标签也成为了微博当中划分各个社群的参考标准。基于标签的个性化推荐,作为标签系统的组成部分,已经成为新的研究热点。个性化推荐是标签系统的重要功能,对这一功能的改进无疑可以产生出巨大的经济和社会效益。
当下对于标签推荐的研究主要集中在基于社会标签的聚类算法研究以及用户发现和资源推荐上,同时结合协同过滤算法或LDA模型进行标签推荐,而在基于社会标签改善推荐效果上对于聚类的依赖性很强,且无法解决新加入网络用户的冷启动问题。
发明内容
针对已有的个性化标签推荐模型在实际运用到微博场景时存在的不足,本发明提出一种基于选取度关联规则的用户标签推荐方法,不但可以提高标签推荐的效率,而且大大保证了推荐的多样性。为了达到上述目的,本发明采用如下的技术方案:
一种社交网络中有效提高标签多样性的标签推荐方法,包括下列步骤:
(1)结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集。
(2)对该集合选择Apriori算法中1-频繁项集及2-频繁项集的生成,用1-频繁项集来生成微博个性标签语料库。
(3)利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性。
(4)按照2-频繁项集中标签支持度的高低进行Top-N项排序。当Top-N项的项数为M且M<N时,随机补充N-M项的备选项,可以从1-频繁项集中支持度排名较高的项进行随机选择。
本发明提出的基于选取度关联规则的推荐方法,对微博用户标签进行选取度分析,计算用户标签的关联度,对标签词汇进行重新挖掘,最终为用户推荐具有关联的个性化标签。通过该方法可以提高标签推荐的效率,同时保证了推荐的多样性。
附图说明
图1是用户个性标签2-频繁项集Top-N排序图
具体实施方式
本发明的技术方案是:
(1)首先采集微博数据,例如可以采用中国爬盟(该组织由清华大学博士梁斌发起,其所在清华大学智能技术与系统国家重点实验室信息检索组由马少平教授带队,是国内最为重要的智能信息处理实验室之一,该组织通过众包方式爬取微博数据)的新浪微博爬虫采集,得到足够的用户标签集。
(2)筛查掉标签数至多为1的用户得到剩余用户的信息集合A,然后对集合A进行个性标签语料库生成,得到用户个性标签集合B。
(3)利用集合B选择Apriori算法得到1-频繁项集和2-频繁项集,用1-频繁项集来生成微博个性标签语料库,利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,对于用户的首次选取,由于含有权重的标签排序制度会对于主题较为单一的标签系统产生局限性,使得推荐给用户的东西越来越相似。为了保证系统中用户生态的多样性,将支持度不低于阈值k的标签项进行随机提供,丰富用户的视野。鉴于用户数据量非常大,在这里可以取支持度不小于0.5%,以保证用户个性标签的多样性。
(4)按照2-频繁项集中的支持度高低进行Top-N项排序,这样可以以线性关联关系为用户推荐相应的标签组合,为日后做同类型标签组合的陌生用户推荐,提高社群的活跃度,增加在微博中群组的组合可能性奠定基础,推荐项形如图1所示。
(5)因为新浪微博可以提供多达10项的备选标签项,当经过Top-N项排序后得到标签的项数M小于10时,可以随机补充10-M项作为备选项,其范围可以从1频繁项集中支持度排名较高的项进行随机选择,以提高被用户选择的可能性。
Claims (1)
1.一种社交网络中有效提高标签多样性的标签推荐方法,包括下列步骤:
(1)结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集;
(2)对该集合选择Apriori算法中1-频繁项集及2-频繁项集的生成,用1-频繁项集来生成微博个性标签语料库;
(3)利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性;
(4)按照2-频繁项集中标签支持度的高低进行Top-N项排序,当Top-N项的项数为M且M<N时,随机补充N-M项的备选项,可以从1-频繁项集中支持度排名较高的项进行随机选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610026973.1A CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610026973.1A CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105719189A true CN105719189A (zh) | 2016-06-29 |
CN105719189B CN105719189B (zh) | 2019-12-27 |
Family
ID=56147165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610026973.1A Expired - Fee Related CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105719189B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682190A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 标签知识库的构建方法、装置、应用搜索方法和服务器 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN111932342A (zh) * | 2020-08-12 | 2020-11-13 | 中国银行股份有限公司 | 基于Apriori算法的用户冷启动产品推荐方法及系统 |
CN113076472A (zh) * | 2021-03-16 | 2021-07-06 | 合肥工业大学 | 基于用户需求和标签关联度的电影推荐方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244747A1 (en) * | 2006-04-14 | 2007-10-18 | Nikovski Daniel N | Method and system for recommending products to consumers by induction of decision trees |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
CN105224687A (zh) * | 2015-10-30 | 2016-01-06 | 宁波大学 | 一种低消耗的Apriori方法 |
-
2016
- 2016-01-15 CN CN201610026973.1A patent/CN105719189B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244747A1 (en) * | 2006-04-14 | 2007-10-18 | Nikovski Daniel N | Method and system for recommending products to consumers by induction of decision trees |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
CN105224687A (zh) * | 2015-10-30 | 2016-01-06 | 宁波大学 | 一种低消耗的Apriori方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682190A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 标签知识库的构建方法、装置、应用搜索方法和服务器 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN109885674B (zh) * | 2019-02-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN111932342A (zh) * | 2020-08-12 | 2020-11-13 | 中国银行股份有限公司 | 基于Apriori算法的用户冷启动产品推荐方法及系统 |
CN111932342B (zh) * | 2020-08-12 | 2023-08-18 | 中国银行股份有限公司 | 基于Apriori算法的用户冷启动产品推荐方法及系统 |
CN113076472A (zh) * | 2021-03-16 | 2021-07-06 | 合肥工业大学 | 基于用户需求和标签关联度的电影推荐方法和系统 |
CN113076472B (zh) * | 2021-03-16 | 2022-09-16 | 合肥工业大学 | 基于用户需求和标签关联度的电影推荐方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105719189B (zh) | 2019-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678431B (zh) | 一种基于标准标签和项目评分的推荐方法 | |
US8965974B2 (en) | Systems and methods for determining user attribute values by mining user network data and information | |
CN105426436B (zh) | 基于人工智能机器人的信息提供方法和装置 | |
CN106709035B (zh) | 一种电力多维全景数据的预处理系统 | |
CN102750375B (zh) | 一种基于随机游走的服务和标签推荐方法 | |
CN105719189A (zh) | 一种社交网络中有效提高标签多样性的标签推荐方法 | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
Ntoutsi et al. | grecs: A group recommendation system based on user clustering | |
CN102799671B (zh) | 基于PageRank算法的网络个性化推荐方法 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN103970891B (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN105956093A (zh) | 一种基于多视图锚点图哈希技术的个性化推荐方法 | |
CN104317904B (zh) | 一种带权重社会网络的泛化方法 | |
CN105631749A (zh) | 基于统计数据的用户画像计算方法 | |
CN104021483A (zh) | 旅客需求推荐方法 | |
CN104077386A (zh) | 一种族谱数据关系表的创建及查询方法 | |
CN107895008A (zh) | 基于大数据平台的情报信息热点发现方法 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN102930029A (zh) | 一种社会化的搜索引擎方法和系统 | |
Wong et al. | Long-term user location prediction using deep learning and periodic pattern mining | |
CN107368895A (zh) | 一种结合机器学习和自动规划的动作知识提取方法 | |
CN103646035B (zh) | 一种基于启发式方法的信息搜索方法 | |
CN105354343B (zh) | 基于远程对话的用户特征挖掘方法 | |
CN106951244B (zh) | 智能分享方法、系统与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191227 Termination date: 20210115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |