CN109344320A

CN109344320A - 一种基于Apriori的图书推荐方法

Info

Publication number: CN109344320A
Application number: CN201810876767.9A
Authority: CN
Inventors: 宋耀莲; 田榆杰; 龙华; 王慧东; 徐文林; 武双新
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-02-15

Abstract

本发明涉及一种基于Apriori的图书推荐方法，属于数据挖掘推荐技术领域。本发明先建立一个读者借阅图书记录的数据库；然后将每一本图书作为一个候选1项集，引入Apriori算法计算出不同项数的频繁项集；其次，由各频繁项集产生相应的强关联规则，并计算出各强关联规则的置信度大小；最后，通过各强关联规则的置信度大小，将这些频繁项集进行排序推荐给读者。本发明与现有技术相比，主要提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作用，提高读者借阅图书时对查找感兴趣图书的准确性与高效性。

Description

一种基于Apriori的图书推荐方法

技术领域

本发明涉及一种基于Apriori的图书推荐方法，属于数据挖掘推荐技术领域。

背景技术

当前，图书的种类与数量呈现爆炸型增长趋势。人们在不断获取各种领域、各种风格的信息时，图书非常庞大的数量对读者在合适图书的选择上造成了一定干扰和影响。

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域，但还没有应用到图书推荐领域。

发明内容

本发明要解决的技术问题是提供一种基于Apriori的图书推荐方法，将Apriori算法应用到图书借阅推荐中，提高读者借阅图书时对查找感兴趣图书的准确性与高效性。

本发明的技术方案是：一种基于Apriori的图书推荐方法，包括如下步骤：

Step1、建立读者借阅图书记录的数据库，读者信息作为标识符TID，所借阅的图书列表作为一个事务T，所有事务的集合为事务集D；

Step2、引入Apriori算法，每本图书作为一个候选1项集c₁，所有c₁的集合为C₁，设置一个最小支持度阈值min_sup，当c₁的支持度计数support_count(c₁)大于等于min_sup时，则 c₁成为频繁1项集l₁，所有l₁的集合为L₁，通过将L₁与自身相连接产生候选2项集c₂，所有c₂的集合为C₂，如果C₂中第i个候选2项集c₂(i)的某个子集为第x个候选1项集c₁(x)，且它不是L₁的元素时，则将c₂(i)从C₂中删除；满足min_sup的c₂作为频繁2项集l₂，其集合为L₂；依次循环类推，得到不同频繁项集l₂、l₃、……l_k-1、l_k的集合L₂、L₃……L_k-1、L_k，其中l_k-1、 l_k分别代表频繁k-1项集和频繁k项集，L_k-1、L_k则为它们各自的集合；

Step3、设置一个最小置信度阈值min_conf；每个频繁项集l所产生的每个非空子集为s，若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值

Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序，当输入一本图书时，通过关联规则得出与该图书相关联的其他图书。

具体地，所述步骤Step1中，图书借阅记录数据库具有所有图书借阅记录数据信息，数据字段包括读者名字段与所借阅的图书名字段。

具体地，所述步骤Step2中，为得到频繁k项集的集合L_k，通过将频繁k-1项集的集合L_k-1与自身相连接产生候选k项集的集合C_k。

具体地，所述步骤Step3中，关联规则置信度大小的计算公式如公式(1)所示：

其中：

式(1)和(2)中，min_conf为最小置信度阈值；l为频繁项集，l所产生的每个非空子集为s；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数,为强关联规则。

本发明的有益效果是：提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作用，提高读者借阅图书时对查找感兴趣图书的准确性与高效性。

附图说明

图1是本发明流程示意图；

图2是本发明步骤Step2流程图；

图3是本发明具体实施方式中所举例子Step2的计算频繁项集流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-3所示，一种基于Apriori的图书推荐方法，先建立一个读者借阅图书记录的数据库；然后将每一本图书作为一个候选1项集，引入Apriori算法计算出不同项数的频繁项集；其次，由各频繁项集产生相应的强关联规则，并计算出各强关联规则的置信度大小；最后，通过各强关联规则的置信度大小，将这些频繁项集进行排序推荐给读者。

具体步骤为：

进一步地，所述步骤Step1中，图书借阅记录数据库具有所有图书借阅记录数据信息，数据字段包括读者名字段与所借阅的图书名字段。

进一步地，所述步骤Step2中，为得到频繁k项集的集合L_k，通过将频繁k-1项集的集合L_k-1与自身相连接产生候选k项集的集合C_k。此处为方便说明，假设k＝3，且L₂含有两个频繁2项集l₁、l₂，其中l₁＝{I₁,I₂}、l₂＝{I₃,I₄}，则L₂的自连接即l₁与l₂连接的结果项集为

进一步地，所述步骤Step3中，关联规则置信度大小的计算公式如公式(1)所示：

其中：

式中，min_conf为最小置信度阈值；l为频繁项集，l所产生的每个非空子集为s；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数, 为强关联规则。

进一步地，所述步骤Step4中的推荐方式，假设有如下几个强关联规则且其置信度已给出：

confidence＝50％；confidence＝80％；confidence＝50％；

confidence＝80％；

当读者借阅图书I₁时，系统则按前后顺序依次推荐出{I₃,I₅}、I₂的图书选项；当医生借阅图书{I₁,I₂}时，系统则按前后顺序依次推荐出I₄、{I₃,I₅}的图书选项。

举例说明：下面结合举例的例子，详细说明本发明的方案：

一种基于Apriori的图书推荐方法，所述方法的具体步骤如下：

Step1、建立读者借阅图书记录的数据库，读者信息作为标识符TID，所借阅的图书列表作为一个事务T，所有事务的集合为事务集D；具体地：

为方便阐述本发明，暂定所建数据库中有如下7本图书，同时假设图书编号规则如下：

假设所建数据库中有如下7位读者的图书借阅列表数据：

Step2、引入Apriori算法，每本图书作为一个候选1项集c₁，所有c₁的集合为C₁，设置一个最小支持度阈值min_sup，当c₁的支持度计数support_count(c₁)大于等于min_sup时，则 c₁成为频繁1项集l₁，所有l₁的集合为L₁，通过将L₁与自身相连接产生候选2项集c₂，所有c₂的集合为C₂，如果C₂中第i个候选2项集c₂(i)的某个子集为第x个候选1项集c₁(x)，且它不是L1的元素时，则将c₂(i)从C₂中删除；满足min_sup的c₂作为频繁2项集l₂，其集合为L₂；依次循环类推，得到不同频繁项集l₂、l₃、……l_k-1、l_k的集合L₂、L₃……L_k-1、L_k，其中l_k-1、 l_k分别代表频繁k-1项集和频繁k项集，L_k-1、L_k则为它们各自的集合；具体地：

设置最小支持度阈值min_sup＝2，则通过Apriori算法计算频繁项集的流程如图3所示，由图3的计算流程得出结果：

L₂＝{{I₁,I₂},{I₂,I₄},{I₂,I₅},{I₂,I₆},{I₅,I₆}}，L₃＝{{I₁,I₂,I₄},{I₂,I₅,I₆}}；

Step3、设置一个最小置信度阈值min_conf；每个频繁项集l所产生的每个非空子集为s，若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值具体地：

设置最小置信度阈值min_conf＝60％，结合Step3所得关联规则，求出所有的强关联规则，并计算出其置信度，部分结果如下：confidence＝100％， confidence＝66.7％，confidence＝100％；

Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序，当输入一本图书时，通过关联规则得出与该图书相关联的其他图书。具体地：

将Step3所得强关联规则按其置信度大小排序，即当读者借阅图书I₁(红楼梦)时，系统则按顺序推荐选项1.I₂(西游记)；2.I₂^I₄(西游记、水浒传)；当读者借阅图书I₂^I₅(西游记、平凡的世界)，系统则自动推荐选项I₆(三国演义)。

本发明与现有技术相比，主要提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作用，提高读者借阅图书时对查找感兴趣图书的准确性与高效性。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Apriori的图书推荐方法，其特征在于：

Step2、引入Apriori算法，每本图书作为一个候选1项集c₁，所有c₁的集合为C₁，设置一个最小支持度阈值min_sup，当c₁的支持度计数support_count(c₁)大于等于min_sup时，则c₁成为频繁1项集l₁，所有l₁的集合为L₁，通过将L₁与自身相连接产生候选2项集c₂，所有c₂的集合为C₂，如果C₂中第i个候选2项集c₂(i)的某个子集为第x个候选1项集c₁(x)，且它不是L₁的元素时，则将c₂(i)从C₂中删除；满足min_sup的c₂作为频繁2项集l₂，其集合为L₂；依次循环类推，得到不同频繁项集l₂、l₃、……l_k-1、l_k的集合L₂、L₃……L_k-1、L_k，其中l_k-1、l_k分别代表频繁k-1项集和频繁k项集，L_k-1、L_k则为它们各自的集合；

2.根据权利要求1所述的基于Apriori的图书推荐方法，其特征在于：所述步骤Step1中，图书借阅记录数据库具有所有图书借阅记录数据信息，数据字段包括读者名字段与所借阅的图书名字段。

3.根据权利要求1所述的基于Apriori的图书推荐方法，其特征在于：所述步骤Step2中，为得到频繁k项集的集合L_k，通过将频繁k-1项集的集合L_k-1与自身相连接产生候选k项集的集合C_k。

4.根据权利要求1所述的基于Apriori的图书推荐方法，其特征在于：所述步骤Step3的关联规则置信度大小的计算公式如公式(1)所示：

其中：