CN106126567A - 基于可信数据推荐服务的方法 - Google Patents
基于可信数据推荐服务的方法 Download PDFInfo
- Publication number
- CN106126567A CN106126567A CN201610435697.4A CN201610435697A CN106126567A CN 106126567 A CN106126567 A CN 106126567A CN 201610435697 A CN201610435697 A CN 201610435697A CN 106126567 A CN106126567 A CN 106126567A
- Authority
- CN
- China
- Prior art keywords
- project
- scoring
- user
- training set
- test set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于可信数据推荐服务的方法,解决了现有技术数据可信度不高,出现预测准确度低的问题,使本发明能够给用户推荐更为准确的项目,同时,采用扰动了训练集数据的方法使原训练集数据得到了隐藏,克服了现有技术用户信息泄露的问题,使本发明避免了用户信息的泄露,达到对用户信息的保护。其方法步骤为:(1)提取预测数据集;(2)扰动训练集数据;(3)计算训练集和三个子训练集中用户对项目的可信评分;(4)预测项目评分;(5)评估预测评分;(6)获得推荐项目。本发明不仅提高了预测准确度,同时实现了对用户的信息保护。
Description
技术领域
本发明属于计算机技术领域,更进一步涉及到网络应用层通信技术领域和海量数据分析技术领域中的一种基于可信数据推荐服务的方法。本发明通过对网络商品数据的可信度进行量化,在此数据上进行网络商品评分的预测,从而为网络用户提供个性化商品推荐服务的同时实现对用户信息的保护。
背景技术
基于可信数据的推荐服务是指通过对网络数据的可信度进行量化之后,利用可信度高的数据对用户可能感兴趣的商品的评分进行预测,从而为用户提供更准确的商品推荐服务。目前,信息推荐方法中常见的都是利用用户的相似性来给用户提供更准确的推荐服务。
电子科技大学在其申请的专利“一种基于用户关联性的资源个性化推荐方法”(专利申请号:201210179907.X,公开号:CN 102750336 B)中公开了一种基于用户关联性的资源个性化推荐方法。该方法主要包括四个步骤:(1)利用用户关联规则挖掘技术分析用户对资源的历史评分记录,挖掘出目标用户频繁集。(2)选取项集中项数最多,其次支持度最高的一个目标用户频繁集,用于构建目标用户兴趣相似组。(3)将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据,对目标用户未访问资源进行评分预测。(4)将评分预测值大于阈值的目标用户未访问资源,按照评分预测值大小推荐给目标用户。该方法存在的不足之处是,仅仅考虑了用户的支持度,却没有考虑该用户的评分数据的可信度问题,从而导致预测准确度低的问题。
腾讯科技(深圳)有限公司在其申请的专利“用户推荐方法和系统”(专利号:201210280588.1,公开号:CN 103581270 B)中公开一种用户推荐方法。该方法主要包括以下步骤:包括以下步骤:(1)获取触发推荐用户的指令。(2)根据所述指令生成候选推荐用户列表(3)读取用户社交质量数据,根据所述用户社交质量数据计算所述候选推荐用户列表中的用户的匹配成功率(4)从候选推荐用户列表中选取匹配成功率最高的至少一个用户进行推荐。该方法存在的不足之处在于,没有考虑用户列表中的用户的历史评分数据的可信度问题,同时也没有考虑对用户的信息进行保护的问题,从而导致用户信息的泄露。
孙丽梅在其发表的论文“基于动态k近邻的Slope One协同过滤推荐算法”(Journal of Frontiers of Computer Science and Technology,2011)中公开了一种动态k近邻和Slope One相结合的算法。该算法首先根据用户之间相似度的具体情况动态地为每个用户选择不同数目的近邻用户,然后利用近邻用户的评分数据生成项目之间的平均偏差,最后利用线性回归模型进行预测。该方法存在的不足之处在于,动态选择不同数目的近邻用户的时候没有考虑这些用户的历史评分数据的可信度问题,从而导致选取的近邻用户的数据可信度不高,出现预测准确度低的问题。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于可信数据推荐服务的方法,以实现为用户推荐高准确度的项目,同时加入了高斯噪声,对训练集数据进行扰动,实现对用户信息的保护。
本发明的设计思路:首先提取预测数据集,然后对预测数据集的训练集数据进行扰动,进一步计算用户对项目的可信评分,在此基础上,预测未评分用户的项目,进一步对预测评分进行评估,最后,对所有项目将测评分值按从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
实现本发明目的的具体步骤包括如下:
(1)提取预测数据集:
(1a)从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集;
(1b)将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集;
(1c)按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数;
(1d)从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3;
(2)扰动训练集数据:
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动;
(3)按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度;
(4)预测项目评分:
(4a)以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵;
(4b)以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵;
(4c)分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列;
(5)评估预测评分:
(5a)在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列;
(5b)在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列;
(5c)删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行;
(5d)采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分;
(5e)采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值;
(6)获得推荐项目
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
本发明与现有技术相比,具有如下优点:
第一,由于本发明在计算训练集中所有用户对项目的评分列数据对应的可信评分的基础上,提取了可信度高的评分,进行未评分项目的预测,克服了现有技术数据可信度不高,出现预测准确度低的问题,使本发明能够给用户推荐更为准确的项目。
第二,由于本发明采用扰动了训练集数据的方法,使原训练集数据得到了隐藏,克服了现有技术用户信息泄露的问题,使本发明能够在给用户推荐更为准确的项目的同时,避免用户信息的泄露,达到对用户信息的保护。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明详细描述如下。
步骤1.提取预测数据集。
从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集。
将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集。
按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数。
从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3。
步骤2.扰动训练集数据。
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动。
步骤3.按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度。
步骤4.预测项目评分。
以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵。
以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵。
分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列。
步骤5.评估预测评分。
在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列。
在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列。
删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行。
采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分。
采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值。
步骤6.获得推荐项目。
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
Claims (5)
1.一种基于可信数据推荐服务的方法,包括以下步骤:
(1)提取预测数据集:
(1a)从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集;
(1b)将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集;
(1c)按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数;
(1d)从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3;
(2)扰动训练集数据:
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动;
(3)按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度;
(4)预测项目评分:
(4a)以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵;
(4b)以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵;
(4c)分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列;
(5)评估预测评分:
(5a)在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列;
(5b)在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列;
(5c)删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行;
(5d)采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分;
(5e)采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值;
(6)获得推荐项目
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
2.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(2)中所述的呈高斯分布所选取的是标准高斯分布。
3.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(4c)中所述的分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分的具体步骤如下:
第一步,按照下式,分别计算训练集矩阵和三个子训练集矩阵中用户给出评分的项目与用户未给出评分的项目的平均偏差:
其中,表示用户给出第k个评分项目与用户未给出的第j个评分项目的平均偏差;∑表示求和操作;∈表示属于关系;UIj k表示共同评价过第k个评分项目和第j个评分项目的用户集合;i表示共同评价过项目Ik和项目Ij用户集合中的用户编号;|UIj k|表示集合UIj k的元素个数;Rj i表示第i个用户对第j个项目的评分;Rk i表示第i个用户对第k个项目的评分;
第二步,根据未给出评分的项目的平均偏差,按照下式,分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分:
其中,PRj u表示第u个用户对第j个未给出评分项目的预测评分;∑表示求和操作;k表示与第j个项目同时被评价过的项目集合中的第k个项目;∈表示属于关系;IIj表示与第j个项目同时被评价过的项目集合;|IIj|表示项目集合IIj的元素个数;表示第u个用户给出评分的第k个项目与第u个用户未给出评分的第j个项目的平均偏差;Rk u表示第u个用户对第k个项目的评分。
4.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(5d)中所述的平均绝对误差指标公式如下:
其中,MAE表示测试集中预测评分的平均绝对误差;q表示测试集中项目的编号;∑表示求和操作;N表示测试集中项目的总数;PRq u表示测试集中第u个用户对第q个项目的预测评分;Rq u表示测试集中第u个用户对第q个项目的评分。
5.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(5e)中所述的均方根误差指标公式如下:
其中,RMSE表示测试集中预测评分的均方根误差;q表示测试集中项目的编号;∑表示求和操作;N表示测试集中项目的总数;PRq u表示测试集中用户Uu对第q个项目的预测评分;Rq u表示测试集中用户Uu对第q个项目的评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610435697.4A CN106126567A (zh) | 2016-06-17 | 2016-06-17 | 基于可信数据推荐服务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610435697.4A CN106126567A (zh) | 2016-06-17 | 2016-06-17 | 基于可信数据推荐服务的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126567A true CN106126567A (zh) | 2016-11-16 |
Family
ID=57470796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610435697.4A Pending CN106126567A (zh) | 2016-06-17 | 2016-06-17 | 基于可信数据推荐服务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126567A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025606A (zh) * | 2017-03-29 | 2017-08-08 | 西安电子科技大学 | 一种社交网络中结合评分数据和信任关系的项目推荐方法 |
CN108074122A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 产品试用推荐方法、装置及服务器 |
CN111539562A (zh) * | 2020-04-10 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种基于模型的数据评测方法和系统 |
CN114357292A (zh) * | 2021-12-29 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 模型训练方法、设备和存储介质 |
-
2016
- 2016-06-17 CN CN201610435697.4A patent/CN106126567A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074122A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 产品试用推荐方法、装置及服务器 |
CN107025606A (zh) * | 2017-03-29 | 2017-08-08 | 西安电子科技大学 | 一种社交网络中结合评分数据和信任关系的项目推荐方法 |
CN107025606B (zh) * | 2017-03-29 | 2021-04-16 | 西安电子科技大学 | 一种社交网络中结合评分数据和信任关系的项目推荐方法 |
CN111539562A (zh) * | 2020-04-10 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种基于模型的数据评测方法和系统 |
CN114357292A (zh) * | 2021-12-29 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 模型训练方法、设备和存储介质 |
CN114357292B (zh) * | 2021-12-29 | 2023-10-13 | 杭州溢六发发电子商务有限公司 | 模型训练方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hosseini et al. | Analysis of citation networks in building information modeling research | |
Szabo et al. | Regional avian species declines estimated from volunteer‐collected long‐term data using List Length Analysis | |
Baker et al. | Of TITAN and straw men: an appeal for greater understanding of community data | |
Zhang et al. | New measures of clumpiness for incidence data | |
Wooldridge et al. | Altmetric scores: An early indicator of research impact | |
Gioria et al. | Phylogenetic relatedness mediates persistence and density of soil seed banks | |
CN110321291A (zh) | 测试案例智能提取系统及方法 | |
Tehseen et al. | Impact of network competence on firm's performances among Chinese and Indian entrepreneurs: A multigroup analysis | |
Calabrese et al. | The independent and interactive effects of tree-tree establishment competition and fire on savanna structure and dynamics | |
CN106126567A (zh) | 基于可信数据推荐服务的方法 | |
CN103970863A (zh) | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 | |
CN107516235A (zh) | 商品偏好预估方法和装置 | |
CN105095625B (zh) | 点击率预估模型建立方法、装置及信息提供方法、系统 | |
Yu et al. | Optimization of design parameters for control charts with multiple assignable causes | |
Taconeli et al. | New two-stage sampling designs based on neoteric ranked set sampling | |
Danks et al. | Measuring culture of innovation: A validation study of the innovation quotient instrument (part 2) | |
Depina et al. | Cone penetration data classification with Bayesian Mixture Analysis | |
Fjellborg et al. | What to do when the mining company comes to town? Mapping actions of anti-extraction movements in Sweden, 2009–2019 | |
Samuels | Book citations count | |
Suh | Exploring the effect of structural patent indicators in forward patent citation networks on patent price from firm market value | |
Schimanski | ‘Earnings shocks and tax-motivated income-shifting: evidence from European multinationals’–revisited | |
Wastell et al. | The impact of cognitive predispositions on exploration decisions in the minerals industry | |
Dowd et al. | Predictive modeling of marine benthic macrofauna and its use to inform spatial monitoring design | |
Phoon et al. | Benchmarking Data-Driven Site Characterization | |
Schulze-Riegert et al. | Data assimilation coupled to evolutionary algorithms—A case example in history matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |