CN107133370A - 一种基于关联规则的标签推荐方法 - Google Patents

一种基于关联规则的标签推荐方法 Download PDF

Info

Publication number
CN107133370A
CN107133370A CN201710462663.9A CN201710462663A CN107133370A CN 107133370 A CN107133370 A CN 107133370A CN 201710462663 A CN201710462663 A CN 201710462663A CN 107133370 A CN107133370 A CN 107133370A
Authority
CN
China
Prior art keywords
label
user
correlation rule
tally
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710462663.9A
Other languages
English (en)
Inventor
王晓军
陈双双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710462663.9A priority Critical patent/CN107133370A/zh
Publication of CN107133370A publication Critical patent/CN107133370A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于关联规则的标签推荐方法,包括以下步骤:利用滑动时间窗口模型在每个时间窗口内采集每个用户的标签事务并添加至标签事务集合T;利用最大频繁项挖掘算法对上述集合T挖掘得到频繁共现的标签集集合F;对集合上述集合F挖掘,找出标签集之间的关联规则集合R;收集每个待推荐用户所使用过的所有标签,得到一条关于该用户的标签集合;判断所述标签关联规则集合R中的先导标签集是否存在于该用户的标签集合中,当判断为存在时,将该条关联规则的后继标签集推荐给该用户。本发明很大程度上缓解了标签数据稀疏问题,并且避免了时间跨度过大,导致的无关标签之间的相互影响,提高关联规则挖掘的可靠性,使标签推荐结果更加准确。

Description

一种基于关联规则的标签推荐方法
技术领域
本发明涉及一种基于关联规则的标签推荐方法,属于计算机的技术领域。
背景技术
标签系统在实际应用中得到广泛应用,标签可以直接明了地表示出用户、资源等对象的个性特征,如:用户的身份、学历、所在地、兴趣的标签;电影的类别、语种的标签;书籍的语言、类别、篇幅。当某个对象拥有充足的标签数据时,系统就可以捕捉到关于该对象更加精准的、更加全面可靠的特征。
但是,当前基于标签的系统中标签使用的情况并不理想,用户不知如何选择适宜标签,标签无法多次合理利用,尤其是当标签信息的时间跨度过大时,导致本来无关的标签会相互影响,无法准确的挖掘出标签之间潜在的关系,降低了标签的实用性。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于关联规则的标签推荐方法,解决现有方法中标签无法多次合理利用,尤其是当标签信息的时间跨度过大时,导致本来无关的标签会相互影响,无法准确的挖掘出标签之间潜在的关系的问题。
本发明具体采用以下技术方案解决上述技术问题:
一种基于关联规则的标签推荐方法,包括以下步骤:
步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签
事务并添加至标签事务集合T;
步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘,得到频繁共现的
标签集集合F;
步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系,得到关于所
找到标签集之间的关联规则集合R,所述关联规则集合R包括先导标签集及与其关联的
后继标签集;
步骤4、收集每个待推荐的用户使用过的所有标签,得到关于每个用户的标签集合;判
断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中,当判断为存在时,将该条规则中先导标签集关联的后继标签集推荐给对应用户。
进一步地,作为本发明的一种优选技术方案:所述步骤2利用最大频繁项挖掘算法包括根据设置的最小支持度挖掘频繁项。
进一步地,作为本发明的一种优选技术方案:所述步骤3标签之间的关联规则集合R包括:
设置标签频繁地同时出现的支持度和置信度;
将满足所设置的标签频繁地同时出现的支持度和置信度的标签之间关联及加入关联规则集合R。
本发明采用上述技术方案,能产生如下技术效果:
本发明的基于关联规则的标签推荐方法,在收集系统对象使用的标签数据时,采用了带有重叠的时间滑动窗口模型,从而很大程度上缓解了标签数据稀疏问题,并且避免了时间跨度过大,导致的无关标签之间的相互影响,从而提高了标签与标签之间的关联规则挖掘的可靠性,使标签推荐的结果更加准确。
附图说明
图1为本发明基于关联规则的标签推荐方法的流程示意图。
图2为本发明中时间窗口滑动过程的示意图。
图3、4均为本发明标签事务采集过程的示意图。
图5为本发明标签规则集合生成过程的示意图。
图6为本发明的规则推荐过程的示意图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明设计了一种基于关联规则的标签推荐方法,该方法包括以下步骤:
步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签事务并添加至标签事务集合T。
首先,系统设计滑动时间窗口模型,定义时间窗口和滑动步长,然后根据用户-标签的关系,去采集各个用户在不同的时间窗口内使用过的标签数据。如图2所示,此过程涉及到以下定义:
定义1:时间窗口TW。
假设S<Ts,Te>={tag1,tag2,tag3,…,tagi,…,tagn}是一个在时间区域[Ts,Te]内出现的标签序列;Sw<ts,te>={tagw,tagw+1,…,tagw+m}是一个在时间区域[ts,te]内的一个的标签序列,标签序列Sw是标签序列S的其中一段,即其中ts>Ts,te<Te。[te,ts]就是一个时间窗口TW,窗口大小为Δt=ts-te
本实施例设置时间窗口TW的大小为Δt,例如Δt=40。
定义2:滑动步长ST。
假设在两个相邻的时间窗口TWi=[ti,tj]和TWi+1=[ti+1,tj+1]中,ti<ti+1<tj;时间窗口的大小为Δt=ti-tj=ti+1-tj+1;定义ti+1-ti=tj+1-tj为滑动步长ST。
本实施例设置时间窗口的滑动步长大小为ST,例如ST=30。
定义3:定义标签事务和标签事务集合。
L<uid,TW>={taguid,1,taguid,2,taguid,3,…,taguid,k}是用户uid在时间窗口TW内使用过的标签序列,它定义为一个标签事务(tag transcation)。多个标签事务组成的集合就是标签事务集合T。
其次,采集的每个用户所使用过的标签事务添加至标签事务集合T。如图4所示,该过程具体为:
采集当前时间窗口TWi,其中代表第i个时间窗口内每个用户所使用过的标签集合L<uid,TW1>,即用户标识为uid的标签事务,并且将这条标签事务添加到标签事务集合T中。
采集TWi中的标签数据过程如图3所示,具体为:
第一个用户ui的标签事务为:
L<1,TWi>={rock,female vocalists,pop,punkrock};
第二个用户u2的标签事务为:
L<2,TWi>={rock,pop,punk rock};
第三个用户u3的标签事务为:
L<3,TWi>={alternative,rock,pop,rock,punk rock};
直到把所有用户在的标签使用状况采集完毕,将得到的所有标签事务,加入标签事务集合T中。
然后,判断当前窗口TWi是否为最后一个时间窗口。
当前窗口不是最后一个时间窗口,滑动时间窗口ST步长,到达下一个时间窗口TWi+1,并采集此窗口内所有用户的标签数据。比如图2中采集TWi+1中的标签数据,生成标签事务。
采集第一个用户u1的标签事务为:
L<1,TWi+1>={punk rock,greece,pop punk};
采集第二个用户u2的标签事务为:
L<2,TWi+1>={punk rock,pop,power pop,punk pop};
采集第三个用户u3的标签事务为:
L<3,TWi+1>={rock,punk rock,alternative,pop,southern rock};
依次类推,一直把所有用户在的标签使用状况采集完毕,将标签事务加入标签事务集合T中。
如果当前窗口是最后一个时间窗口,那么用户标签数据采集完毕。得到标签事务集合T,标签数据采集完成。
步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘,得到频繁共现的标签集集合F。
首先,该过程定义频繁项集、超集、最大频繁项集。
所述定义频繁项集为:设P为由一个个标签组成的一个集合,P={t1,t2,…,tk},简称标签项集。包含k个项的项集称为k-标签项集。当P的支持度sup(P)>最小支持度minSup时,称P为频繁项集Frequent Itemset。
所述定义超集为:若一个集合P2中的每一个元素都在集合P1中,且集合P1中可能包含P2中没有的元素,则集合P1就是P2的一个超集。P1是P2的超集,则P2是P1的真子集,反之亦然。
所述定义最大频繁项集为:如果频繁项集P的所有超集都是非频繁项集,那么称L为最大频繁项集或称最大频繁模式。频繁项集是最大频繁项集的子集,也就是说最大频繁项集的子集都是频繁项集。
然后,利用最大频繁项挖掘算法对标签事务集合T进行最大频繁项挖掘,得到最大频繁项集集合,记F={F1,F2,…,Fm},其中,Fi是最大频繁标签集。
该过程优选地,设置最小支持度minSup,用来限定出现次数的频率,所有标签的出现次数必须大于最小支持度minSup,这样才能确保挖掘出规则的准确性。根据FP-Growth最大频繁项算法去挖掘最大频繁项标签集合F。标签共现的最大频繁项集合F是指在标签事务集合中那些出现次数不小于minSup的最大标签组。
步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系,得到关于所找到标签集之间的关联规则集合R。包括:设置标签频繁地同时出现的支持度和置信度;将满足所设置的标签频繁地同时出现的支持度和置信度的标签之间关联及加入关联规则集合R,所述关联规则集合R包括先导标签集及与其关联的后继标签集,如图5所示。
所述关联规则是形如X→Y的蕴涵式,描述了频繁共现的标签集X,Y同时出现的规律和模式,表示规则的先导集X和后继集Y中的标签频繁地同时出现。关联规则X→Y需要满足两个条件,其一,支持度support是T中标签事务同时包含X、Y的百分比,即概率;其二,置信度confidence是T中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是可靠的。
本实施例给出一种关联规则,如{alternative rock,rock}→{punk rock}的蕴涵式,描述了频繁共现的标签集{alternative rock,rock}和{punk rock}频繁地同时出现。
在这一部分,首先设置支持度Sup和信任度Con。例如:
{alternative rock,rock}→{punk rock};
Sup=0.8;
Con=0.7
则当上述两个标签集满足最小支持度阈值0.8和最小置信度阈值0.7时,则确定关联规则是可靠的。
步骤4、收集每个待推荐的用户使用过的所有标签,得到关于每个用户的标签集合;判断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中,当判断为存在时,将该条规则中先导标签集关联的后继标签集推荐给对应用户,该过程原理如图6所示。
当已知所述关联规则X→Y∈R,待推荐的用户uid使用的标签集合为L<oid,loid>。
若关联规则中的作为先导集的标签集且作为后继集的则依据关联规则X→Y,向用户uid推荐标签集Y。例如:用户uid使用过的标签组为L<uid,luid>={alternative rock,rock,pop},存在关联规则{alternative rock,rock}→{punk rock},则将其关联的标签{punk rock}推荐给该用户。
当前用户推荐完毕后,利用上述原理为每位用户推荐标签集,直至判断该规则是否是最后一条规则,若是,则读入下一个用户的使用标签集,重复上述过程。最后直到用户为最后一个用户,完成推荐过程。
综上,本发明基于关联规则的标签推荐方法,在收集系统用户使用的标签数据时,采用了带有重叠的时间滑动窗口模型,从而很大程度上缓解了标签数据稀疏问题,并且避免了时间跨度过大,导致的无关标签之间的相互影响,从而提高了标签与标签之间的关联规则挖掘的可靠性,使标签推荐的结果更加准确。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于关联规则的标签推荐方法,其特征在于,包括以下步骤:
步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签事务并添加至标签事务集合T;
步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘,得到频繁共现的标签集集合F;
步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系,得到关于所找到标签集之间的关联规则集合R,所述关联规则集合R包括先导标签集及与其关联的后继标签集;
步骤4、收集每个待推荐的用户使用过的所有标签,得到关于每个用户的标签集合;判断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中,当判断为存在时,将该条规则中先导标签集关联的后继标签集推荐给对应用户。
2.根据权利要求1所述基于关联规则的标签推荐方法,其特征在于:所述步骤2利用最大频繁项挖掘算法包括根据设置的最小支持度挖掘频繁项。
3.根据权利要求1所述基于关联规则的标签推荐方法,其特征在于:所述步骤3标签之间的关联规则集合R包括:
设置标签频繁地同时出现的支持度和置信度;
将满足所设置的标签频繁地同时出现的支持度和置信度的标签之间关联及加入关联规则集合R。
CN201710462663.9A 2017-06-19 2017-06-19 一种基于关联规则的标签推荐方法 Pending CN107133370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710462663.9A CN107133370A (zh) 2017-06-19 2017-06-19 一种基于关联规则的标签推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710462663.9A CN107133370A (zh) 2017-06-19 2017-06-19 一种基于关联规则的标签推荐方法

Publications (1)

Publication Number Publication Date
CN107133370A true CN107133370A (zh) 2017-09-05

Family

ID=59735389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710462663.9A Pending CN107133370A (zh) 2017-06-19 2017-06-19 一种基于关联规则的标签推荐方法

Country Status (1)

Country Link
CN (1) CN107133370A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599122A (zh) * 2019-08-30 2019-12-20 国电南瑞科技股份有限公司 基于模式挖掘和关联分析的电网调度系统页面推荐方法
CN113360681A (zh) * 2021-06-01 2021-09-07 北京百度网讯科技有限公司 确定推荐信息的方法、装置、电子设备和存储介质
CN113487117A (zh) * 2021-08-20 2021-10-08 山东省计算中心(国家超级计算济南中心) 一种基于多维度用户画像的电商用户行为数据模拟的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667197A (zh) * 2009-09-18 2010-03-10 浙江大学 基于滑动窗口的数据流关联规则挖掘方法
CN102111296A (zh) * 2011-01-10 2011-06-29 浪潮通信信息系统有限公司 基于最大频繁项集的通信告警关联规则挖掘方法
CN102567392A (zh) * 2010-12-24 2012-07-11 华东师范大学 一种基于时间窗口兴趣主题挖掘的控制方法
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN106603317A (zh) * 2017-02-20 2017-04-26 山东浪潮商用系统有限公司 一种基于数据挖掘技术的告警监控策略的分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667197A (zh) * 2009-09-18 2010-03-10 浙江大学 基于滑动窗口的数据流关联规则挖掘方法
CN102567392A (zh) * 2010-12-24 2012-07-11 华东师范大学 一种基于时间窗口兴趣主题挖掘的控制方法
CN102111296A (zh) * 2011-01-10 2011-06-29 浪潮通信信息系统有限公司 基于最大频繁项集的通信告警关联规则挖掘方法
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN102662642B (zh) * 2012-04-20 2016-05-25 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN106603317A (zh) * 2017-02-20 2017-04-26 山东浪潮商用系统有限公司 一种基于数据挖掘技术的告警监控策略的分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599122A (zh) * 2019-08-30 2019-12-20 国电南瑞科技股份有限公司 基于模式挖掘和关联分析的电网调度系统页面推荐方法
CN113360681A (zh) * 2021-06-01 2021-09-07 北京百度网讯科技有限公司 确定推荐信息的方法、装置、电子设备和存储介质
CN113360681B (zh) * 2021-06-01 2023-06-23 北京百度网讯科技有限公司 确定推荐信息的方法、装置、电子设备和存储介质
CN113487117A (zh) * 2021-08-20 2021-10-08 山东省计算中心(国家超级计算济南中心) 一种基于多维度用户画像的电商用户行为数据模拟的方法及系统
CN113487117B (zh) * 2021-08-20 2023-10-17 山东省计算中心(国家超级计算济南中心) 一种基于多维度用户画像的电商用户行为数据模拟的方法及系统

Similar Documents

Publication Publication Date Title
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
WO2017211051A1 (zh) 目标对象的社交账号挖掘方法、服务器和存储介质
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN104036010B (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
CN108549647B (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN107133370A (zh) 一种基于关联规则的标签推荐方法
CN103226554A (zh) 基于新闻数据的股票自动匹配分类方法和系统
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
US20080154807A1 (en) Confusion matrix for classification systems
CN105184307A (zh) 一种医学领域图像语义相似度矩阵的生成方法
CN112860906B (zh) 基于自然语言处理的市长热线舆情决策支持方法及系统
CN102968408A (zh) 识别用户评论的实体特征方法
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN110442618A (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
CN112182156B (zh) 基于文本处理的方面级可解释深度网络评分预测推荐方法
CN101706812A (zh) 一种文档的检索方法和装置
Wang et al. Personalized news recommendation based on consumers' click behavior
CN110674313B (zh) 一种基于用户日志动态更新知识图谱的方法
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN114387103A (zh) 一种交易风险识别方法和装置
CN106126618B (zh) 基于人名的邮箱地址推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905

RJ01 Rejection of invention patent application after publication