CN108182294B - 一种基于频繁项集增长算法的电影推荐方法及系统 - Google Patents
一种基于频繁项集增长算法的电影推荐方法及系统 Download PDFInfo
- Publication number
- CN108182294B CN108182294B CN201810092694.4A CN201810092694A CN108182294B CN 108182294 B CN108182294 B CN 108182294B CN 201810092694 A CN201810092694 A CN 201810092694A CN 108182294 B CN108182294 B CN 108182294B
- Authority
- CN
- China
- Prior art keywords
- movie
- frequent item
- frequent
- item set
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于频繁项集增长算法的电影推荐方法及系统。该方法包括:统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度;将所述电影ID的支持度进行排序,得到最小支持度;提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表;将所述频繁一项集列表进行分组,得到多个频繁一项集组;根据所述频繁一项集组构建频繁模式树;通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系;根据所述关联关系向用户推荐电影。本方法和系统能够快速的挖掘电影之间的关联关系,从而提高电影推荐的效率。
Description
技术领域
本发明涉及数据挖掘领域,特别是涉及一种基于频繁项集增长算法的电影推荐方法及系统。
背景技术
随着计算机技术的迅猛发展,1993年R.Agrawal等人在对市场购物篮问题的调查分析研究中,首次提出了用关联规则表达式得到规则知识。关联规则提取的主要目标是发现数据项集之间内涵的关联或依赖关系,即从大量积累的数据中找出隐藏的数据模式或者知识。关联规则的挖掘算法可以对电影资源进行个性化推荐,将获得的用户可能感兴趣的影视资源推荐给用户,从而达到更好的为用户服务的目的。现有的关联规则算法计算复杂度高,在递归过程中计算量也是十分的巨大,导致挖掘效率低。
发明内容
本发明的目的是提供一种基于频繁项集增长算法的电影推荐方法及系统,用以快速的挖掘电影之间的关联关系,从而提高电影推荐的效率。
为实现上述目的,本发明提供了如下方案:
一种基于频繁项集增长算法的电影推荐方法,所述方法包括:
统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度;
将所述电影ID的支持度进行排序,得到最小支持度;
提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表;
将所述频繁一项集列表进行分组,得到多个频繁一项集组;
根据所述频繁一项集组构建频繁模式树;
通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系;
根据所述关联关系向用户推荐电影。
可选的,所述通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,具体包括:
自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
判断每条所述路径对应的粒子群的适应度函数是否大于1;
若否,则将所述路径标记为0,表示删除所述路径;
若是,则将所述路径的标记为1,表示保留所述路径,得到保留路径;
通过所述保留路径构建条件子树。
可选的,所述将所述频繁一项集列表进行分组,得到多个频繁一项集组,
具体包括:
统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述统计数量对所述频繁一项集列表进行分组。
可选的,所述将所述频繁一项集列表进行分组,得到多个频繁一项集组,
具体包括:
统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
根据取整函数对所述统计数量进行分组,得到多个频繁一项集组。
本发明还一种基于频繁项集增长算法的电影推荐系统,所述系统包括:
次数统计模块,用于统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度;
排序模块,用于将所述电影ID出现的次数进行排序,得到最少次数,即最小支持度;
提取模块,用于提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表;
分组模块,用于将所述频繁一项集列表进行分组,得到多个频繁一项集组;
构建模块,用于根据所述频繁一项集组构建频繁模式树;
剪枝模块,用于通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系;
推荐模块,用于根据所述关联关系向用户推荐电影。
可选的,所述剪枝模块包括:
搜索单元,用于自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
判断单元,用于判断每条所述路径对应的粒子群的适应度函数是否大于1,得到判断结果;
第一标记单元,用于当所述判断结果表示所述适应度函数小于1,则将所述路径标记为0,表示删除所述路径;
第二标记单元,用于当所述判断结果表示所述适应度函数大于1,则将所述路径的标记为1,表示保留所述路径;
构建单元,用于通过所述保留路径构建条件子树。
可选的,所述分组模块包括:
第一统计单元,用于统计所述频繁一项集列表中频繁一项集的个数,得到第一个数;
第一分组单元,用于根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述第一个数对所述频繁一项集列表进行分组;
可选的,所述分组模块包括:
第二统计单元,统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
第二分组单元,用于根据取整函数对所述统计数量进行分组,得到多个频繁一项集组。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供一种基于频繁项集增长算法的电影推荐方法及系统,该方法和系统在构建条件子树时采用粒子群算法对所述频繁模式树进行剪枝,从而在进行迭代计算时减少计算量,提高挖掘效率,快速的挖掘电影之间的关联关系,根据关联关系能够更好的为用户推荐电影。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于频繁项集增长算法的电影推荐方法的流程图;
图2为本发明实施例提供的通过粒子群算法对所述频繁模式树进行剪枝的流程图;
图3为本发明实施例提供的一种基于频繁项集增长算法的电影推荐系统的结构框图;
图4为本发明实施例提供的剪枝模块的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于频繁项集增长算法的电影推荐方法及系统,用以快速的挖掘电影之间的关联关系,从而提高电影推荐的效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种基于频繁项集增长算法的电影推荐方法包括以下步骤:
步骤101:统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度。
步骤102:将所述电影ID的支持度进行排序,得到最小支持度。
步骤103:提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表。
步骤104:将所述频繁一项集列表进行分组,得到多个频繁一项集组。
具体的,统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述统计数量对所述频繁一项集列表进行分组。
或者统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
根据取整函数对所述统计数量进行分组,得到多个频繁一项集组。
步骤105:根据所述频繁一项集组构建频繁模式树。
步骤106:通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系。
具体的,如图2所示,通过粒子群算法对所述频繁模式树进行剪枝包括以下步骤:
步骤1061:自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
步骤1062:判断每条所述路径对应的粒子群的适应度函数是否大于1;
适应度函数fitness需要将支持度和置信度结合起来,定义fitness的计算公式如下所示:
其中,i=1,2,...,n,fitnessi表示第i个粒子群的适应度函数,Supporti表示第i个粒子群的支持度;Confidencei表示第i个粒子群的置信度;MinSupport表示最小支持度;MinConfidence表示最小置信度。
步骤1063:若否,则将所述路径标记为0,表示删除所述路径;
步骤1064:若是,则将所述路径的标记为1,表示保留所述路径,得到保留路径;
步骤1065:通过所述保留路径构建条件子树。
步骤107:根据所述关联关系向用户推荐电影。
根据本发明提供的具体实施例,本发明公开了以下技术效果:在构建条件子树时采用粒子群算法对所述频繁模式树进行剪枝,从而在进行迭代计算时减少计算量,提高挖掘效率,快速的挖掘电影之间的关联关系,根据关联关系能够更好的为用户推荐电影。
如图3所示,本发明还提供了一种基于频繁项集增长算法的电影推荐系统,所述系统包括:
次数统计模块301,用于统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度。
排序模块302,用于将所述电影ID出现的次数进行排序,得到最少次数,即最小支持度。
提取模块303,用于提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表。
分组模块304,用于将所述频繁一项集列表进行分组,得到多个频繁一项集组。
具体的,所述分组模块304包括:
第一统计单元,用于统计所述频繁一项集列表中频繁一项集的个数,得到第一个数;
第一分组单元,用于根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述第一个数对所述频繁一项集列表进行分组;
所述分组模块304还可以包括:
第二统计单元,统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
第二分组单元,用于根据取整函数对所述统计数量进行分组,得到多个频繁一项集组。
构建模块305,用于根据所述频繁一项集组构建频繁模式树。
剪枝模块306,用于通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系。
如图4所示,剪枝模块306具体包括:
搜索单元3061,用于自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
判断单元3062,用于判断每条所述路径对应的粒子群的适应度函数是否大于1,得到判断结果;
第一标记单元3063,用于当所述判断结果表示所述适应度函数小于1,则将所述路径标记为0,表示删除所述路径;
第二标记单元3064,用于当所述判断结果表示所述适应度函数大于1,则将所述路径的标记为1,表示保留所述路径;
构建单元3065,用于通过所述保留路径构建条件子树。
推荐模块307,用于根据所述关联关系向用户推荐电影。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于频繁项集增长算法的电影推荐方法,其特征在于,所述方法包括:
统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度;
将所述电影ID的支持度进行排序,得到最小支持度;
提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表;
将所述频繁一项集列表进行分组,得到多个频繁一项集组;具体包括:统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述统计数量对所述频繁一项集列表进行分组;或者统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;根据取整函数对所述统计数量进行分组,得到多个频繁一项集组;
根据所述频繁一项集组构建频繁模式树;
通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系;
根据所述关联关系向用户推荐电影;
其中,所述通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,具体包括:
自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
判断每条所述路径对应的粒子群的适应度函数是否大于1;
若否,则将所述路径标记为0,表示删除所述路径;
若是,则将所述路径标记为1,表示保留所述路径,得到保留路径;
通过所述保留路径构建条件子树。
2.一种基于频繁项集增长算法的电影推荐系统,其特征在于,所述系统包括:
次数统计模块,用于统计数据库中每个电影ID出现的次数,所述数据库包括用户ID和电影ID,所述电影ID出现的次数表示为支持度;
排序模块,用于将所述电影ID出现的次数进行排序,得到最少次数,即最小支持度;
提取模块,用于提取支持度大于所述最小支持度的电影ID及对应的支持度,得到频繁一项集列表;
分组模块,用于将所述频繁一项集列表进行分组,得到多个频繁一项集组;
构建模块,用于根据所述频繁一项集组构建频繁模式树;
剪枝模块,用于通过粒子群算法对所述频繁模式树进行剪枝,得到条件子树,所述条件子树表示所述电影ID之间的关联关系;所述剪枝模块包括:
搜索单元,用于自底向上搜索频繁模式树,得到多个频繁子树,每个频繁子树包括多条路径;
判断单元,用于判断每条所述路径对应的粒子群的适应度函数是否大于1,得到判断结果;
第一标记单元,用于当所述判断结果表示所述适应度函数小于1,则将所述路径标记为0,表示删除所述路径;
第二标记单元,用于当所述判断结果表示所述适应度函数大于1,则将所述路径标记为1,表示保留所述路径;
构建单元,用于通过所述保留路径构建条件子树;
推荐模块,用于根据所述关联关系向用户推荐电影。
3.根据权利要求2所述的系统,其特征在于,所述分组模块包括:
第一统计单元,用于统计所述频繁一项集列表中频繁一项集的个数,得到第一个数;
第一分组单元,用于根据所述频繁一项集组包括的频繁一项集的阈值个数以及所述第一个数对所述频繁一项集列表进行分组。
4.根据权利要求2所述的系统,其特征在于,所述分组模块包括:
第二统计单元,统计所述频繁一项集列表中频繁一项集的个数,得到统计数量;
第二分组单元,用于根据取整函数对所述统计数量进行分组,得到多个频繁一项集组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810092694.4A CN108182294B (zh) | 2018-01-31 | 2018-01-31 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810092694.4A CN108182294B (zh) | 2018-01-31 | 2018-01-31 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182294A CN108182294A (zh) | 2018-06-19 |
CN108182294B true CN108182294B (zh) | 2021-04-16 |
Family
ID=62551905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810092694.4A Active CN108182294B (zh) | 2018-01-31 | 2018-01-31 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182294B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299313A (zh) * | 2018-08-03 | 2019-02-01 | 昆明理工大学 | 一种基于FP-growth的歌曲推荐方法 |
CN109300014B (zh) * | 2018-10-24 | 2020-09-08 | 中南民族大学 | 基于日志挖掘的商品推荐方法、装置、服务器及存储介质 |
CN110110225B (zh) * | 2019-04-17 | 2020-08-07 | 重庆第二师范学院 | 基于用户行为数据分析的在线教育推荐模型及构建方法 |
CN110334796A (zh) * | 2019-06-28 | 2019-10-15 | 北京科技大学 | 一种社会安全事件的关联规则挖掘方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335785A (zh) * | 2015-10-30 | 2016-02-17 | 西华大学 | 一种基于向量运算的关联规则挖掘方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN103761236B (zh) * | 2013-11-20 | 2017-02-08 | 同济大学 | 一种增量式频繁模式增长数据挖掘方法 |
CN106294462B (zh) * | 2015-06-01 | 2019-09-17 | Tcl集团股份有限公司 | 一种获取推荐视频的方法和系统 |
-
2018
- 2018-01-31 CN CN201810092694.4A patent/CN108182294B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335785A (zh) * | 2015-10-30 | 2016-02-17 | 西华大学 | 一种基于向量运算的关联规则挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108182294A (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182294B (zh) | 一种基于频繁项集增长算法的电影推荐方法及系统 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
Vieira et al. | A fast and robust method for web page template detection and removal | |
CN104111941B (zh) | 信息展示的方法及设备 | |
CN106407484B (zh) | 一种基于弹幕语义关联的视频标签提取方法 | |
CN104268148B (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN103577478B (zh) | 网页推送方法及系统 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN102591942A (zh) | 一种应用自动推荐的方法及装置 | |
CN107911448B (zh) | 一种内容推送方法及装置 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN109635260B (zh) | 用于生成文章模板的方法、装置、设备和存储介质 | |
CN106446189A (zh) | 一种资讯推荐方法及系统 | |
CN109753601A (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
CN106445963A (zh) | App平台的广告索引关键词自动生成方法和装置 | |
Hou et al. | Classifying advertising video by topicalizing high-level semantic concepts | |
CN106970938A (zh) | 面向聚焦的Web网页获取和信息抽取方法 | |
CN106776859A (zh) | 基于用户偏好的移动应用App推荐系统 | |
CN109460519A (zh) | 浏览对象推荐方法及装置、存储介质、服务器 | |
CN102637172A (zh) | 网页分块标注方法与系统 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN108446333A (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN115827956A (zh) | 一种数据信息检索方法、装置、电子设备及存储介质 | |
CN105005555A (zh) | 基于聊天时间的关键词提取方法及装置 | |
CN104881447A (zh) | 搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |