CN109344320A - 一种基于Apriori的图书推荐方法 - Google Patents
一种基于Apriori的图书推荐方法 Download PDFInfo
- Publication number
- CN109344320A CN109344320A CN201810876767.9A CN201810876767A CN109344320A CN 109344320 A CN109344320 A CN 109344320A CN 201810876767 A CN201810876767 A CN 201810876767A CN 109344320 A CN109344320 A CN 109344320A
- Authority
- CN
- China
- Prior art keywords
- books
- collection
- frequent
- item
- support
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于Apriori的图书推荐方法,属于数据挖掘推荐技术领域。本发明先建立一个读者借阅图书记录的数据库;然后将每一本图书作为一个候选1项集,引入Apriori算法计算出不同项数的频繁项集;其次,由各频繁项集产生相应的强关联规则,并计算出各强关联规则的置信度大小;最后,通过各强关联规则的置信度大小,将这些频繁项集进行排序推荐给读者。本发明与现有技术相比,主要提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作用,提高读者借阅图书时对查找感兴趣图书的准确性与高效性。
Description
技术领域
本发明涉及一种基于Apriori的图书推荐方法,属于数据挖掘推荐技术领域。
背景技术
当前,图书的种类与数量呈现爆炸型增长趋势。人们在不断获取各种领域、各种风格的 信息时,图书非常庞大的数量对读者在合适图书的选择上造成了一定干扰和影响。
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节 的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等 各个领域,但还没有应用到图书推荐领域。
发明内容
本发明要解决的技术问题是提供一种基于Apriori的图书推荐方法,将Apriori算法应用 到图书借阅推荐中,提高读者借阅图书时对查找感兴趣图书的准确性与高效性。
本发明的技术方案是:一种基于Apriori的图书推荐方法,包括如下步骤:
Step1、建立读者借阅图书记录的数据库,读者信息作为标识符TID,所借阅的图书列表 作为一个事务T,所有事务的集合为事务集D;
Step2、引入Apriori算法,每本图书作为一个候选1项集c1,所有c1的集合为C1,设置 一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则 c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、 lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;
Step3、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s, 若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则 该强规则的置信度大小为l与s的支持度计数之比的值
Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当输 入一本图书时,通过关联规则得出与该图书相关联的其他图书。
具体地,所述步骤Step1中,图书借阅记录数据库具有所有图书借阅记录数据信息,数 据字段包括读者名字段与所借阅的图书名字段。
具体地,所述步骤Step2中,为得到频繁k项集的集合Lk,通过将频繁k-1项集的集合Lk-1与自身相连接产生候选k项集的集合Ck。
具体地,所述步骤Step3中,关联规则置信度大小的计算公式如公式(1)所示:
其中:
式(1)和(2)中,min_conf为最小置信度阈值;l为频繁项集,l所产生的每个非空子集为s;support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持 度计数,为强关联规则。
本发明的有益效果是:提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作用,提 高读者借阅图书时对查找感兴趣图书的准确性与高效性。
附图说明
图1是本发明流程示意图;
图2是本发明步骤Step2流程图;
图3是本发明具体实施方式中所举例子Step2的计算频繁项集流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于Apriori的图书推荐方法,先建立一个读者借阅图书 记录的数据库;然后将每一本图书作为一个候选1项集,引入Apriori算法计算出不同项数的 频繁项集;其次,由各频繁项集产生相应的强关联规则,并计算出各强关联规则的置信度大 小;最后,通过各强关联规则的置信度大小,将这些频繁项集进行排序推荐给读者。
具体步骤为:
Step1、建立读者借阅图书记录的数据库,读者信息作为标识符TID,所借阅的图书列表 作为一个事务T,所有事务的集合为事务集D;
Step2、引入Apriori算法,每本图书作为一个候选1项集c1,所有c1的集合为C1,设置 一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则 c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、 lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;
Step3、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s, 若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则 该强规则的置信度大小为l与s的支持度计数之比的值
Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当输 入一本图书时,通过关联规则得出与该图书相关联的其他图书。
进一步地,所述步骤Step1中,图书借阅记录数据库具有所有图书借阅记录数据信息, 数据字段包括读者名字段与所借阅的图书名字段。
进一步地,所述步骤Step2中,为得到频繁k项集的集合Lk,通过将频繁k-1项集的集 合Lk-1与自身相连接产生候选k项集的集合Ck。此处为方便说明,假设k=3,且L2含有两个频繁2项集l1、l2,其中l1={I1,I2}、l2={I3,I4},则L2的自连接即l1与l2连接的结果项集为
进一步地,所述步骤Step3中,关联规则置信度大小的计算公式如公式(1)所示:
其中:
式中,min_conf为最小置信度阈值;l为频繁项集,l所产生的每个非空子集为s;support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数, 为强关联规则。
进一步地,所述步骤Step4中的推荐方式,假设有如下几个强关联规则且其置信度已给 出:
confidence=50%;confidence=80%;confidence=50%;
confidence=80%;
当读者借阅图书I1时,系统则按前后顺序依次推荐出{I3,I5}、I2的图书选项;当医生借 阅图书{I1,I2}时,系统则按前后顺序依次推荐出I4、{I3,I5}的图书选项。
举例说明:下面结合举例的例子,详细说明本发明的方案:
一种基于Apriori的图书推荐方法,所述方法的具体步骤如下:
Step1、建立读者借阅图书记录的数据库,读者信息作为标识符TID,所借阅的图书列表 作为一个事务T,所有事务的集合为事务集D;具体地:
为方便阐述本发明,暂定所建数据库中有如下7本图书,同时假设图书编号规则如下:
假设所建数据库中有如下7位读者的图书借阅列表数据:
Step2、引入Apriori算法,每本图书作为一个候选1项集c1,所有c1的集合为C1,设置 一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则 c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、 lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;具体地:
设置最小支持度阈值min_sup=2,则通过Apriori算法计算频繁项集的流程如图3所示, 由图3的计算流程得出结果:
L2={{I1,I2},{I2,I4},{I2,I5},{I2,I6},{I5,I6}},L3={{I1,I2,I4},{I2,I5,I6}};
Step3、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s, 若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则 该强规则的置信度大小为l与s的支持度计数之比的值具体地:
设置最小置信度阈值min_conf=60%,结合Step3所得关联规则,求出所有的强关联规 则,并计算出其置信度,部分结果如下:confidence=100%, confidence=66.7%,confidence=100%;
Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当输 入一本图书时,通过关联规则得出与该图书相关联的其他图书。具体地:
将Step3所得强关联规则按其置信度大小排序,即当读者借阅图书I1(红楼梦)时,系 统则按顺序推荐选项1.I2(西游记);2.I2^I4(西游记、水浒传);当读者借阅图书I2^I5(西游记、平凡的世界),系统则自动推荐选项I6(三国演义)。
本发明与现有技术相比,主要提供了Apriori算法对读者借阅的图书起到兴趣关联推荐作 用,提高读者借阅图书时对查找感兴趣图书的准确性与高效性。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方 式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出 各种变化。
Claims (4)
1.一种基于Apriori的图书推荐方法,其特征在于:
Step1、建立读者借阅图书记录的数据库,读者信息作为标识符TID,所借阅的图书列表作为一个事务T,所有事务的集合为事务集D;
Step2、引入Apriori算法,每本图书作为一个候选1项集c1,所有c1的集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;
Step3、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值
Step4、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当输入一本图书时,通过关联规则得出与该图书相关联的其他图书。
2.根据权利要求1所述的基于Apriori的图书推荐方法,其特征在于:所述步骤Step1中,图书借阅记录数据库具有所有图书借阅记录数据信息,数据字段包括读者名字段与所借阅的图书名字段。
3.根据权利要求1所述的基于Apriori的图书推荐方法,其特征在于:所述步骤Step2中,为得到频繁k项集的集合Lk,通过将频繁k-1项集的集合Lk-1与自身相连接产生候选k项集的集合Ck。
4.根据权利要求1所述的基于Apriori的图书推荐方法,其特征在于:所述步骤Step3的关联规则置信度大小的计算公式如公式(1)所示:
其中:
式(1)和(2)中,min_conf为最小置信度阈值;l为频繁项集,l所产生的每个非空子集为s;support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数,为强关联规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810876767.9A CN109344320A (zh) | 2018-08-03 | 2018-08-03 | 一种基于Apriori的图书推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810876767.9A CN109344320A (zh) | 2018-08-03 | 2018-08-03 | 一种基于Apriori的图书推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344320A true CN109344320A (zh) | 2019-02-15 |
Family
ID=65296540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810876767.9A Pending CN109344320A (zh) | 2018-08-03 | 2018-08-03 | 一种基于Apriori的图书推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344320A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339427A (zh) * | 2020-03-23 | 2020-06-26 | 卓尔智联(武汉)研究院有限公司 | 一种图书信息推荐方法、装置、系统及存储介质 |
CN112132659A (zh) * | 2020-09-25 | 2020-12-25 | 泰康保险集团股份有限公司 | 信息的推荐方法、装置、电子设备及计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和系统 |
CN106649583A (zh) * | 2016-11-17 | 2017-05-10 | 安徽华博胜讯信息科技股份有限公司 | 一种基于sas的图书借阅数据关联规则分析方法 |
CN107741993A (zh) * | 2017-11-06 | 2018-02-27 | 佛山市章扬科技有限公司 | 一种高校数字图书馆数据挖掘的方法 |
CN107844533A (zh) * | 2017-10-19 | 2018-03-27 | 云南大学 | 一种智能问答系统及分析方法 |
-
2018
- 2018-08-03 CN CN201810876767.9A patent/CN109344320A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和系统 |
CN106649583A (zh) * | 2016-11-17 | 2017-05-10 | 安徽华博胜讯信息科技股份有限公司 | 一种基于sas的图书借阅数据关联规则分析方法 |
CN107844533A (zh) * | 2017-10-19 | 2018-03-27 | 云南大学 | 一种智能问答系统及分析方法 |
CN107741993A (zh) * | 2017-11-06 | 2018-02-27 | 佛山市章扬科技有限公司 | 一种高校数字图书馆数据挖掘的方法 |
Non-Patent Citations (2)
Title |
---|
刘显显: "基于数据挖掘的高校图书馆个性化信息推荐方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杨蓉: "Apriori算法在图书馆个性化服务中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339427A (zh) * | 2020-03-23 | 2020-06-26 | 卓尔智联(武汉)研究院有限公司 | 一种图书信息推荐方法、装置、系统及存储介质 |
CN111339427B (zh) * | 2020-03-23 | 2022-12-20 | 卓尔智联(武汉)研究院有限公司 | 一种图书信息推荐方法、装置、系统及存储介质 |
CN112132659A (zh) * | 2020-09-25 | 2020-12-25 | 泰康保险集团股份有限公司 | 信息的推荐方法、装置、电子设备及计算机可读介质 |
CN112132659B (zh) * | 2020-09-25 | 2023-11-28 | 泰康保险集团股份有限公司 | 信息的推荐方法、装置、电子设备及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162591B (zh) | 一种面向数字教育资源的实体对齐方法及系统 | |
CN107220365A (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
Li et al. | Application of Data Mining in the Colleges' in-Class Teaching Quality Evaluation System. | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN108509517B (zh) | 一种面向实时新闻内容的流式话题演化跟踪方法 | |
CN105138653A (zh) | 一种基于典型度和难度的题目推荐方法及其推荐装置 | |
CN109299313A (zh) | 一种基于FP-growth的歌曲推荐方法 | |
CN108550401A (zh) | 一种基于Apriori的病症数据关联方法 | |
CN109472286A (zh) | 基于兴趣度模型与类型因子的高校图书推荐方法 | |
CN112417306A (zh) | 基于知识图谱的推荐算法性能优化的方法 | |
CN112084373A (zh) | 一种基于图嵌入的多源异构网络用户对齐方法 | |
CN110162632A (zh) | 一种新闻专题事件发现的方法 | |
CN108550381A (zh) | 一种基于FP-growth的药品推荐方法 | |
Zhao et al. | Emotion-based end-to-end matching between image and music in valence-arousal space | |
CN109344320A (zh) | 一种基于Apriori的图书推荐方法 | |
CN115439139A (zh) | 一种基于电商大数据的用户兴趣分析方法 | |
CN110135846A (zh) | 一种区块链节点的行为序列自动分类方法 | |
CN116485519A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN109741832A (zh) | 一种基于兼存率与FP-growth的心理行为分析方法 | |
CN115525819A (zh) | 一种面向信息茧房的跨领域推荐方法 | |
Niu | Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction | |
Wang et al. | Stacking based LightGBM-CatBoost-RandomForest algorithm and its application in big data modeling | |
Huang et al. | Coarse-to-fine Image Aesthetics Assessment With Dynamic Attribute Selection | |
CN108804605A (zh) | 一种基于层次结构的推荐方法 | |
CN108415987B (zh) | 一种电影推荐的冷启动解决方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |