CN107133370A

CN107133370A - 一种基于关联规则的标签推荐方法

Info

Publication number: CN107133370A
Application number: CN201710462663.9A
Authority: CN
Inventors: 王晓军; 陈双双
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-09-05

Abstract

本发明公开了一种基于关联规则的标签推荐方法，包括以下步骤：利用滑动时间窗口模型在每个时间窗口内采集每个用户的标签事务并添加至标签事务集合T；利用最大频繁项挖掘算法对上述集合T挖掘得到频繁共现的标签集集合F；对集合上述集合F挖掘，找出标签集之间的关联规则集合R；收集每个待推荐用户所使用过的所有标签，得到一条关于该用户的标签集合；判断所述标签关联规则集合R中的先导标签集是否存在于该用户的标签集合中，当判断为存在时，将该条关联规则的后继标签集推荐给该用户。本发明很大程度上缓解了标签数据稀疏问题，并且避免了时间跨度过大，导致的无关标签之间的相互影响，提高关联规则挖掘的可靠性，使标签推荐结果更加准确。

Description

一种基于关联规则的标签推荐方法

技术领域

本发明涉及一种基于关联规则的标签推荐方法，属于计算机的技术领域。

背景技术

标签系统在实际应用中得到广泛应用，标签可以直接明了地表示出用户、资源等对象的个性特征，如：用户的身份、学历、所在地、兴趣的标签；电影的类别、语种的标签；书籍的语言、类别、篇幅。当某个对象拥有充足的标签数据时，系统就可以捕捉到关于该对象更加精准的、更加全面可靠的特征。

但是，当前基于标签的系统中标签使用的情况并不理想，用户不知如何选择适宜标签，标签无法多次合理利用，尤其是当标签信息的时间跨度过大时，导致本来无关的标签会相互影响，无法准确的挖掘出标签之间潜在的关系，降低了标签的实用性。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于关联规则的标签推荐方法，解决现有方法中标签无法多次合理利用，尤其是当标签信息的时间跨度过大时，导致本来无关的标签会相互影响，无法准确的挖掘出标签之间潜在的关系的问题。

本发明具体采用以下技术方案解决上述技术问题：

一种基于关联规则的标签推荐方法，包括以下步骤：

步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签

事务并添加至标签事务集合T；

步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘，得到频繁共现的

标签集集合F；

步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系，得到关于所

找到标签集之间的关联规则集合R，所述关联规则集合R包括先导标签集及与其关联的

后继标签集；

步骤4、收集每个待推荐的用户使用过的所有标签，得到关于每个用户的标签集合；判

断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中，当判断为存在时，将该条规则中先导标签集关联的后继标签集推荐给对应用户。

进一步地，作为本发明的一种优选技术方案：所述步骤2利用最大频繁项挖掘算法包括根据设置的最小支持度挖掘频繁项。

进一步地，作为本发明的一种优选技术方案：所述步骤3标签之间的关联规则集合R包括：

设置标签频繁地同时出现的支持度和置信度；

将满足所设置的标签频繁地同时出现的支持度和置信度的标签之间关联及加入关联规则集合R。

本发明采用上述技术方案，能产生如下技术效果：

本发明的基于关联规则的标签推荐方法，在收集系统对象使用的标签数据时，采用了带有重叠的时间滑动窗口模型，从而很大程度上缓解了标签数据稀疏问题，并且避免了时间跨度过大，导致的无关标签之间的相互影响，从而提高了标签与标签之间的关联规则挖掘的可靠性，使标签推荐的结果更加准确。

附图说明

图1为本发明基于关联规则的标签推荐方法的流程示意图。

图2为本发明中时间窗口滑动过程的示意图。

图3、4均为本发明标签事务采集过程的示意图。

图5为本发明标签规则集合生成过程的示意图。

图6为本发明的规则推荐过程的示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明设计了一种基于关联规则的标签推荐方法，该方法包括以下步骤：

步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签事务并添加至标签事务集合T。

首先，系统设计滑动时间窗口模型，定义时间窗口和滑动步长，然后根据用户-标签的关系，去采集各个用户在不同的时间窗口内使用过的标签数据。如图2所示，此过程涉及到以下定义：

定义1：时间窗口TW。

假设S<T_s,T_e>＝{tag₁,tag₂,tag₃,…,tag_i,…,tag_n}是一个在时间区域[T_s,T_e]内出现的标签序列；S_w<t_s,t_e>＝{tag_w,tag_w+1,…,tag_w+m}是一个在时间区域[t_s,t_e]内的一个的标签序列，标签序列S_w是标签序列S的其中一段，即其中t_s>T_s,t_e<T_e。[t_e,t_s]就是一个时间窗口TW，窗口大小为Δt＝t_s-t_e。

本实施例设置时间窗口TW的大小为Δt，例如Δt＝40。

定义2：滑动步长ST。

假设在两个相邻的时间窗口TW_i＝[t_i,t_j]和TW_i+1＝[t_i+1,t_j+1]中，t_i<t_i+1<t_j；时间窗口的大小为Δt＝t_i-t_j＝t_i+1-t_j+1；定义t_i+1-t_i＝t_j+1-t_j为滑动步长ST。

本实施例设置时间窗口的滑动步长大小为ST，例如ST＝30。

定义3：定义标签事务和标签事务集合。

L<uid,TW>＝{tag_uid,1,tag_uid,2,tag_uid,3,…,tag_uid,k}是用户uid在时间窗口TW内使用过的标签序列，它定义为一个标签事务(tag transcation)。多个标签事务组成的集合就是标签事务集合T。

其次，采集的每个用户所使用过的标签事务添加至标签事务集合T。如图4所示，该过程具体为：

采集当前时间窗口TW_i，其中代表第i个时间窗口内每个用户所使用过的标签集合L<uid,TW₁>，即用户标识为uid的标签事务，并且将这条标签事务添加到标签事务集合T中。

采集TW_i中的标签数据过程如图3所示，具体为：

第一个用户u_i的标签事务为：

L<1,TW_i>＝{rock,female vocalists,pop,punkrock}；

第二个用户u₂的标签事务为：

L<2,TW_i>＝{rock,pop,punk rock}；

第三个用户u₃的标签事务为：

L<3,TW_i>＝{alternative,rock,pop,rock,punk rock}；

直到把所有用户在的标签使用状况采集完毕，将得到的所有标签事务，加入标签事务集合T中。

然后，判断当前窗口TW_i是否为最后一个时间窗口。

当前窗口不是最后一个时间窗口，滑动时间窗口ST步长，到达下一个时间窗口TW_i+1，并采集此窗口内所有用户的标签数据。比如图2中采集TW_i+1中的标签数据，生成标签事务。

采集第一个用户u₁的标签事务为：

L<1,TW_i+1>＝{punk rock,greece,pop punk}；

采集第二个用户u₂的标签事务为：

L<2,TW_i+1>＝{punk rock,pop,power pop,punk pop}；

采集第三个用户u₃的标签事务为：

L<3,TW_i+1>＝{rock,punk rock,alternative,pop,southern rock}；

依次类推，一直把所有用户在的标签使用状况采集完毕，将标签事务加入标签事务集合T中。

如果当前窗口是最后一个时间窗口，那么用户标签数据采集完毕。得到标签事务集合T，标签数据采集完成。

步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘，得到频繁共现的标签集集合F。

首先，该过程定义频繁项集、超集、最大频繁项集。

所述定义频繁项集为：设P为由一个个标签组成的一个集合，P＝{t₁,t₂,…,t_k}，简称标签项集。包含k个项的项集称为k-标签项集。当P的支持度sup(P)>最小支持度minSup时，称P为频繁项集Frequent Itemset。

所述定义超集为：若一个集合P₂中的每一个元素都在集合P₁中，且集合P₁中可能包含P₂中没有的元素，则集合P₁就是P₂的一个超集。P₁是P₂的超集，则P₂是P₁的真子集，反之亦然。

所述定义最大频繁项集为：如果频繁项集P的所有超集都是非频繁项集,那么称L为最大频繁项集或称最大频繁模式。频繁项集是最大频繁项集的子集，也就是说最大频繁项集的子集都是频繁项集。

然后，利用最大频繁项挖掘算法对标签事务集合T进行最大频繁项挖掘，得到最大频繁项集集合，记F＝{F₁,F₂,…,F_m}，其中，F_i是最大频繁标签集。

该过程优选地，设置最小支持度minSup，用来限定出现次数的频率，所有标签的出现次数必须大于最小支持度minSup，这样才能确保挖掘出规则的准确性。根据FP-Growth最大频繁项算法去挖掘最大频繁项标签集合F。标签共现的最大频繁项集合F是指在标签事务集合中那些出现次数不小于minSup的最大标签组。

步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系，得到关于所找到标签集之间的关联规则集合R。包括：设置标签频繁地同时出现的支持度和置信度；将满足所设置的标签频繁地同时出现的支持度和置信度的标签之间关联及加入关联规则集合R，所述关联规则集合R包括先导标签集及与其关联的后继标签集，如图5所示。

所述关联规则是形如X→Y的蕴涵式，描述了频繁共现的标签集X，Y同时出现的规律和模式，表示规则的先导集X和后继集Y中的标签频繁地同时出现。关联规则X→Y需要满足两个条件，其一，支持度support是T中标签事务同时包含X、Y的百分比，即概率；其二，置信度confidence是T中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是可靠的。

本实施例给出一种关联规则，如{alternative rock,rock}→{punk rock}的蕴涵式，描述了频繁共现的标签集{alternative rock,rock}和{punk rock}频繁地同时出现。

在这一部分，首先设置支持度Sup和信任度Con。例如：

{alternative rock,rock}→{punk rock}；

Sup＝0.8；

Con＝0.7

则当上述两个标签集满足最小支持度阈值0.8和最小置信度阈值0.7时，则确定关联规则是可靠的。

步骤4、收集每个待推荐的用户使用过的所有标签，得到关于每个用户的标签集合；判断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中，当判断为存在时，将该条规则中先导标签集关联的后继标签集推荐给对应用户，该过程原理如图6所示。

当已知所述关联规则X→Y∈R，待推荐的用户u_id使用的标签集合为L<o_id，l_oid>。

若关联规则中的作为先导集的标签集且作为后继集的则依据关联规则X→Y，向用户uid推荐标签集Y。例如：用户u_id使用过的标签组为L<u_id,lu_id>＝{alternative rock,rock,pop}，存在关联规则{alternative rock,rock}→{punk rock}，则将其关联的标签{punk rock}推荐给该用户。

当前用户推荐完毕后，利用上述原理为每位用户推荐标签集，直至判断该规则是否是最后一条规则，若是，则读入下一个用户的使用标签集，重复上述过程。最后直到用户为最后一个用户，完成推荐过程。

综上，本发明基于关联规则的标签推荐方法，在收集系统用户使用的标签数据时，采用了带有重叠的时间滑动窗口模型，从而很大程度上缓解了标签数据稀疏问题，并且避免了时间跨度过大，导致的无关标签之间的相互影响，从而提高了标签与标签之间的关联规则挖掘的可靠性，使标签推荐的结果更加准确。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于关联规则的标签推荐方法，其特征在于，包括以下步骤：

步骤1、利用建立的滑动时间窗口模型在每个时间窗口内采集每个用户所使用过的标签事务并添加至标签事务集合T；

步骤2、利用最大频繁项挖掘算法对标签事务集合T进行频繁项挖掘，得到频繁共现的标签集集合F；

步骤3、对所得频繁共现的标签集集合F进行挖掘找出标签集之间的关系，得到关于所找到标签集之间的关联规则集合R，所述关联规则集合R包括先导标签集及与其关联的后继标签集；

步骤4、收集每个待推荐的用户使用过的所有标签，得到关于每个用户的标签集合；判断所述标签关联规则集合R中的先导标签集是否存在于用户的标签集合中，当判断为存在时，将该条规则中先导标签集关联的后继标签集推荐给对应用户。

2.根据权利要求1所述基于关联规则的标签推荐方法，其特征在于：所述步骤2利用最大频繁项挖掘算法包括根据设置的最小支持度挖掘频繁项。

3.根据权利要求1所述基于关联规则的标签推荐方法，其特征在于：所述步骤3标签之间的关联规则集合R包括：

设置标签频繁地同时出现的支持度和置信度；