CN105678430A - 基于邻近项目Slope One算法的用户改进推荐方法 - Google Patents

基于邻近项目Slope One算法的用户改进推荐方法 Download PDF

Info

Publication number
CN105678430A
CN105678430A CN201610112751.1A CN201610112751A CN105678430A CN 105678430 A CN105678430 A CN 105678430A CN 201610112751 A CN201610112751 A CN 201610112751A CN 105678430 A CN105678430 A CN 105678430A
Authority
CN
China
Prior art keywords
user
project
item
algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610112751.1A
Other languages
English (en)
Inventor
张强
黄丽鹏
车超
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201610112751.1A priority Critical patent/CN105678430A/zh
Publication of CN105678430A publication Critical patent/CN105678430A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及用户—项目数据的分析领域,设计了一种近邻聚类算法和slopeone算法相结合的改进推荐方法。本方法结合k-means聚类和slopeone算法,首先使用k-means聚类方法为用户找到相似的个项目组成邻近项目集合,然后采用slopeone算法计算用户—项目调查数据表,最后预测数据并推荐给用户。本方法着重解决的问题是在预测用户受到项目调查可能性的过程中,考虑了数据项目之间的相似性,从而使算法预测的结果更加准确。将预测调查可能性的问题转换成一个项目推荐问题来解决,采用基于邻近项目的slopeone算法预测用户被调查的可能性,帮助用户提前做好相关的防范工作。

Description

基于邻近项目Slope One算法的用户改进推荐方法
技术领域
本发明涉及一种基于邻近项目SlopeOne算法的用户改进推荐方法,具体讲的是通过结合数据,分析大量的用户—项目数据,从而对数据进行预测,其属于数据挖掘和数据分析领域。
背景技术
相对于传统的基于进化算法处理方法,协同过滤算法对于解决推荐和预测的问题有很大的优势。首先算法利用用户的历史行为分析用户偏好,进而向用户推荐商品或信息。slopeone算法是一种基于评分预测的协同过滤算法,利用用户对一组项目的评分偏差和用户对某些项目的评分,预测该用户对其他项目的评分值。该算法没有计算项目之间的相似性,使用最简单的线性回归模型对项目评分进行预测,具有计算速度快、可扩展性好、对数据稀疏性有较好适应性的优点。
以往的算法设计,只是针对项目评分偏差的问题进行改进,没有考虑项目之间的相似性问题,这往往导致设计的冗余,给实际应用带来了很大的不便。
发明内容
本发明的目的在于提出一种基于邻近项目SlopeOne算法的用户改进推荐方法,其也是基于k近邻项目聚类算法和slopeone算法相结合的一种预测算法。使用slopeone算法对与目标项目最邻近的k个项目进行预测值计算,以k个最近邻项目进行评分,从而减少了计算量,且降低了数据的稀疏性。并且将预测问题转化为相应的推荐问题来求解,采用成型的推荐算法进行设计和改进,不依赖设计者的经验,可移植性好。
为了实现上述目的,本发明所采用的技术方案为基于邻近项目SlopeOne算法的用户改进推荐方法,其具体步骤如下:
步骤1、构建项目相似性矩阵。
步骤2、形成邻近项目集合(步骤1和步骤2为k-means聚类算法)。
步骤3、计算与其它评分项目之间的评分偏差。
步骤4、获得测试集的用户—项目评分矩阵。
步骤5、帮助用户推荐出评分最大的前几个预测项目。
所述步骤1中,结合数据集中的评分数据,采用k-means聚类算法计算项目间的相似度的矩阵,构建项目相似性矩阵;
所述步骤2中,根据用户u评价过的项目i,选择与项目i最为相似的k个项目组成k邻近项目集合K′。
所述步骤3中,计算目标项目Itemj与k邻近项目集合K′中项目Itemi之间的评分偏差devj,i。针对k邻近项目集合K′,使用式(3)计算与其它评分项目之间的评分偏差devj,i
dev j , i = Σ u ∈ S j , i ( x ) u j - u i c a r d ( S j , i ( x ) ) - - - ( 3 )
其中,Sj,i(x)为对项目Itemj和Itemi评分的用户集合;card(S)表示集合S中的元素个数。
所述步骤4中,根据公式(4)预测用户u对目标项目Itemj的评分P(u)j,并最终得到用户—项目评分矩阵R′m×n。
P ( u ) j = Σ i ∈ R j ( dev j , i + u i ) c a r d ( R j ) - - - ( 4 )
其中,Rj为用户u已评分项目的集合。
根据步骤4得到的用户—项目评分矩阵R′m×n,为用户u推荐出评分最大的r个预测项目。
本发明的技术方案为:首先使用k-means聚类计算目标项目与所有项目之间相关性的大小,可以筛选出相关性最大的前k个最近邻项目(k邻近项目集合K′),快速剔除与目标项目无关的项目。其次,采用slopeone算法对当前活跃用户的目标项目预测评分,从而产生用户—项目调查数据表,得到用户—项目评分矩阵。最后根据用户—项目评分矩阵为用户推荐项目。实质是先采用项目k-means聚类算法可以快速筛选出最近邻的项目,剔除无关的项目群组,再使用slopeone算法对用户进行预测评分,根据预测结果向客户进行推荐。
本发明与现有技术相比具有以下优点:
1、采用k-means聚类算法;考虑到项目之间的相似性问题;解决了因用户对同一项目的喜好程度不同,导致对该项目的评分影响。
2、将k-means项目聚类和slopeone算法结合,减少了计算量,且降低了数据的稀疏性,从而能够获得更高的预测正确率。
3、结合项目k-means聚类算法和slopeone算法的优点对用户—项目数据进行分析。
4、本方法可以以较少的近邻项目(k邻近项目集合K′)代替原始所有项目列表,这样不仅提高算法效率,而且可以得到较高的推荐准确率。
附图说明
以下通过附图及具体实施例对本发明进行详细说明:
图1为算法框架图;
图2为三种方法的RSME的对比结果;
图3为三种方法的MAE的对比结果。
具体实施方式
实施例1
下面结合附图对本发明作进一步说明。
337调查,是指美国国际贸易委员会根据美国《1930年关税法》第337节337调查,是指美国国际贸易委员会根据美国《1930年关税法》第337节(简称“337条款”)及相关修正案进行的调查,禁止的是一切不公平竞争行为或向美国出口产品中的任何不公平贸易行为。近年来,在美跨国公司为维护其在美国市场的霸主地位,对进入美国市场的企业进行了大量的337调查,并呈现逐年增加的趋势。如果337条款的调查成立,出口商的产品将有可能被永久排除在美国市场之外,这将会带来巨大的经济损失。通过推荐系统对337法案的信息进行分析和挖掘来预测一个公司是否受到专利调查以及可能涉及专利调查的类型,这对公司的发展有着至关重要的作用。而专利数据是由大量用户和项目组成的,是一个比较复杂的数据格式,现有的推荐方法无法满足需求。
详细步骤如下:
步骤1:预处理专利法案数据进行归一化处理,并将时间和专利类别进行结合。
步骤2:采用k-means类型聚类算法,得到k最近邻类型集合。
步骤3:采用slopeone算法为当前活跃公司的目标类型计算评分,得到公司—类型评分矩阵。
步骤4:根据公司—类型评分表为用户推荐类型。
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
步骤1:337法案的数据原始描述形式如表1,其中公司表示被337调查的公司名称;年份表示337调查案件发生的时间;专利代表发起337调查的公司使用的专利号。为表示方便,我们以3MCompany和BullHNInformationSystemsInc为例进行举例。
表1337调查初步数据
步骤2:将第三列的专利数据拆分成一行只有一个专利的数据格式,并对应其原始公司和年份。之后,将公司名称换成对应的数字,方便算法程序的实现。根据时间段的变化可以在小范围内预测公司再次被337调查的可能性。以编号为75的专利类别为例,本方法将年份进行合并(本文设置时间范围是3),数据格式变为75(1997-1999),…,75(2012-2014)。对评分数据归一化处理。经过这一步的处理,最终数据格式如表2。
表2处理之后的337调查数据
步骤3:结合数据集中的评分数据,采用k-means聚类算法计算类型间的相似度的矩阵,构建类型相似性矩阵。在构建的过程中,也就是k-means聚类算法的过程中,需要选定最近邻的个数。本发明采用最近邻的个数为20(此处对应说明书中的步骤2)。
步骤4:采用slopeone算法为当前的活跃公司进行目标类型的预测评分。并将评分结果依次写入到公司—类型矩阵列表中。最终形成一个公司—类型预测评分矩阵如表3。
步骤5:将公司—类型预测评分矩阵与原始评分矩阵进行计算,可以判断预测质量的正确性。
表3公司—类型二维评分矩阵
根据以上所示的步骤,我们对337法案的数据进行相关操作,观察其预测评分值,并对比了基于邻近类型SlopeOne算法的改进推荐方法与单独使用传统项目推荐方法和双极slopeone算法时的推荐评分性能,最后对所获得的准确率与其他方法进行了比较(见图2、3)。
综上所述,我们通过基于邻近类型SlopeOne算法的改进推荐方法对专利法案数据进行分析,可以发挥k-means类型聚类和slopeone算法的优点,筛选出与目标类型更相似的邻近类型,从而提高预测的准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (1)

1.基于邻近项目slopeone算法的改进推荐方法,其特征在于:先对原始数据进行数据处理,之后采用k-means聚类算法筛选与目标项目邻近的k个相似项目,再用slopeone算法为当前活跃用户的目标项目预测评分,最后根据用户—项目评分矩阵向用户推荐项目;该方法具体步骤如下:
1)结合数据集中的评分数据,采用k-means聚类算法计算项目间的相似度的矩阵,构建项目相似性矩阵;
2)根据用户u评价过的项目i,选择与用户u评价过的项目i最为相似的k个项目组成k邻近项目集合K′;
3)使用公式(1)计算目标项目Itemj与k邻近项目集合K′中项目Itemi之间的评分偏差devj,i,其中,uj和ui分别表示评价过项目Itemj的用户和项目Itemi的用户;Sj,i(x)为对目标项目Itemj与其他项目Itemi进行过评分的用户集合;card(S)表示集合S中的元素个数;
dev j , i = Σ u ∈ S j , i ( x ) u j - u i c a r d ( S j , i ( x ) ) - - - ( 1 )
4)根据公式(2)计算用户u对目标项目Itemj的预测评分P(u)j,并最终得到用户—项目评分矩阵R′m×n,其中,Rj为用户u已评分项目的集合;
P ( u ) j = Σ i ∈ R j ( dev j , i + u i ) c a r d ( R j ) - - - ( 2 )
5)根据步骤4)得到的用户—项目评分矩阵R′m×n,为用户u推荐出评分最大的r个预测项目。
CN201610112751.1A 2016-02-29 2016-02-29 基于邻近项目Slope One算法的用户改进推荐方法 Pending CN105678430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610112751.1A CN105678430A (zh) 2016-02-29 2016-02-29 基于邻近项目Slope One算法的用户改进推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610112751.1A CN105678430A (zh) 2016-02-29 2016-02-29 基于邻近项目Slope One算法的用户改进推荐方法

Publications (1)

Publication Number Publication Date
CN105678430A true CN105678430A (zh) 2016-06-15

Family

ID=56306231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610112751.1A Pending CN105678430A (zh) 2016-02-29 2016-02-29 基于邻近项目Slope One算法的用户改进推荐方法

Country Status (1)

Country Link
CN (1) CN105678430A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897911A (zh) * 2017-01-10 2017-06-27 南京邮电大学 一种基于用户和物品的自适应个性化推荐方法
CN109711912A (zh) * 2017-10-25 2019-05-03 贵州师范学院 一种融合FP-growth算法和Slope-One算法的混合推荐模型
CN110909257A (zh) * 2019-11-22 2020-03-24 西南石油大学 评分预测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637284A (zh) * 2012-02-07 2012-08-15 深圳市同洲视讯传媒有限公司 智能广告投放系统及投放方法
CN102750336A (zh) * 2012-06-04 2012-10-24 电子科技大学 一种基于用户关联性的资源个性化推荐方法
CN103050016A (zh) * 2012-12-24 2013-04-17 中国科学院自动化研究所 一种基于混合推荐的交通信号控制方案实时选取方法
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637284A (zh) * 2012-02-07 2012-08-15 深圳市同洲视讯传媒有限公司 智能广告投放系统及投放方法
CN102750336A (zh) * 2012-06-04 2012-10-24 电子科技大学 一种基于用户关联性的资源个性化推荐方法
CN103050016A (zh) * 2012-12-24 2013-04-17 中国科学院自动化研究所 一种基于混合推荐的交通信号控制方案实时选取方法
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
盈艳 等: "基于项目评分预测的混合式协同过滤推荐", 《现代图书情报技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897911A (zh) * 2017-01-10 2017-06-27 南京邮电大学 一种基于用户和物品的自适应个性化推荐方法
CN109711912A (zh) * 2017-10-25 2019-05-03 贵州师范学院 一种融合FP-growth算法和Slope-One算法的混合推荐模型
CN110909257A (zh) * 2019-11-22 2020-03-24 西南石油大学 评分预测方法和装置

Similar Documents

Publication Publication Date Title
Lin et al. Novel feature selection methods to financial distress prediction
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN107230108A (zh) 业务数据的处理方法及装置
CN101329683A (zh) 推荐系统及方法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN111523055B (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN104268572B (zh) 面向后台多源数据的特征提取和特征选择方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN106780018A (zh) 一种基于历史重现的股票数据挖掘模型和系统
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN106056244A (zh) 一种股票价格优化预测方法
CN109213951A (zh) 一种基于信任计算和矩阵分解的推荐算法
CN105678430A (zh) 基于邻近项目Slope One算法的用户改进推荐方法
CN109783633A (zh) 数据分析服务流程模型推荐方法
Li Accurate digital marketing communication based on intelligent data analysis
CN112329969A (zh) 一种基于支持向量机的建筑智能化工程投资预测方法
Alguacil et al. Firms’ characteristics and their international location strategy: Micro-level evidence from European countries
García-García et al. Music genre classification using the temporal structure of songs
Du et al. Spatiotemporal dynamics and fitness analysis of global oil market: Based on complex network
CN110866829A (zh) 一种基于集成学习模型的股价预测方法
Pan et al. Machine Learning Prediction of Companies’ Business Success
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Iyer et al. Comparison of logistic regression and artificial neural network based bankruptcy prediction models
Wang A Study on Early Warning of Financial Indicators of Listed Companies Based on Random Forest

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615

WD01 Invention patent application deemed withdrawn after publication