CN106126567A - 基于可信数据推荐服务的方法 - Google Patents

基于可信数据推荐服务的方法 Download PDF

Info

Publication number
CN106126567A
CN106126567A CN201610435697.4A CN201610435697A CN106126567A CN 106126567 A CN106126567 A CN 106126567A CN 201610435697 A CN201610435697 A CN 201610435697A CN 106126567 A CN106126567 A CN 106126567A
Authority
CN
China
Prior art keywords
project
scoring
user
training set
test set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610435697.4A
Other languages
English (en)
Inventor
杨力
王小琴
田亚平
姜奇
王利军
张冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610435697.4A priority Critical patent/CN106126567A/zh
Publication of CN106126567A publication Critical patent/CN106126567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于可信数据推荐服务的方法,解决了现有技术数据可信度不高,出现预测准确度低的问题,使本发明能够给用户推荐更为准确的项目,同时,采用扰动了训练集数据的方法使原训练集数据得到了隐藏,克服了现有技术用户信息泄露的问题,使本发明避免了用户信息的泄露,达到对用户信息的保护。其方法步骤为:(1)提取预测数据集;(2)扰动训练集数据;(3)计算训练集和三个子训练集中用户对项目的可信评分;(4)预测项目评分;(5)评估预测评分;(6)获得推荐项目。本发明不仅提高了预测准确度,同时实现了对用户的信息保护。

Description

基于可信数据推荐服务的方法
技术领域
本发明属于计算机技术领域,更进一步涉及到网络应用层通信技术领域和海量数据分析技术领域中的一种基于可信数据推荐服务的方法。本发明通过对网络商品数据的可信度进行量化,在此数据上进行网络商品评分的预测,从而为网络用户提供个性化商品推荐服务的同时实现对用户信息的保护。
背景技术
基于可信数据的推荐服务是指通过对网络数据的可信度进行量化之后,利用可信度高的数据对用户可能感兴趣的商品的评分进行预测,从而为用户提供更准确的商品推荐服务。目前,信息推荐方法中常见的都是利用用户的相似性来给用户提供更准确的推荐服务。
电子科技大学在其申请的专利“一种基于用户关联性的资源个性化推荐方法”(专利申请号:201210179907.X,公开号:CN 102750336 B)中公开了一种基于用户关联性的资源个性化推荐方法。该方法主要包括四个步骤:(1)利用用户关联规则挖掘技术分析用户对资源的历史评分记录,挖掘出目标用户频繁集。(2)选取项集中项数最多,其次支持度最高的一个目标用户频繁集,用于构建目标用户兴趣相似组。(3)将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据,对目标用户未访问资源进行评分预测。(4)将评分预测值大于阈值的目标用户未访问资源,按照评分预测值大小推荐给目标用户。该方法存在的不足之处是,仅仅考虑了用户的支持度,却没有考虑该用户的评分数据的可信度问题,从而导致预测准确度低的问题。
腾讯科技(深圳)有限公司在其申请的专利“用户推荐方法和系统”(专利号:201210280588.1,公开号:CN 103581270 B)中公开一种用户推荐方法。该方法主要包括以下步骤:包括以下步骤:(1)获取触发推荐用户的指令。(2)根据所述指令生成候选推荐用户列表(3)读取用户社交质量数据,根据所述用户社交质量数据计算所述候选推荐用户列表中的用户的匹配成功率(4)从候选推荐用户列表中选取匹配成功率最高的至少一个用户进行推荐。该方法存在的不足之处在于,没有考虑用户列表中的用户的历史评分数据的可信度问题,同时也没有考虑对用户的信息进行保护的问题,从而导致用户信息的泄露。
孙丽梅在其发表的论文“基于动态k近邻的Slope One协同过滤推荐算法”(Journal of Frontiers of Computer Science and Technology,2011)中公开了一种动态k近邻和Slope One相结合的算法。该算法首先根据用户之间相似度的具体情况动态地为每个用户选择不同数目的近邻用户,然后利用近邻用户的评分数据生成项目之间的平均偏差,最后利用线性回归模型进行预测。该方法存在的不足之处在于,动态选择不同数目的近邻用户的时候没有考虑这些用户的历史评分数据的可信度问题,从而导致选取的近邻用户的数据可信度不高,出现预测准确度低的问题。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于可信数据推荐服务的方法,以实现为用户推荐高准确度的项目,同时加入了高斯噪声,对训练集数据进行扰动,实现对用户信息的保护。
本发明的设计思路:首先提取预测数据集,然后对预测数据集的训练集数据进行扰动,进一步计算用户对项目的可信评分,在此基础上,预测未评分用户的项目,进一步对预测评分进行评估,最后,对所有项目将测评分值按从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
实现本发明目的的具体步骤包括如下:
(1)提取预测数据集:
(1a)从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集;
(1b)将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集;
(1c)按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
r = m n
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数;
(1d)从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3
(2)扰动训练集数据:
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动;
(3)按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
T p i = R p i * r
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度;
(4)预测项目评分:
(4a)以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵;
(4b)以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵;
(4c)分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列;
(5)评估预测评分:
(5a)在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列;
(5b)在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列;
(5c)删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行;
(5d)采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分;
(5e)采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值;
(6)获得推荐项目
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
本发明与现有技术相比,具有如下优点:
第一,由于本发明在计算训练集中所有用户对项目的评分列数据对应的可信评分的基础上,提取了可信度高的评分,进行未评分项目的预测,克服了现有技术数据可信度不高,出现预测准确度低的问题,使本发明能够给用户推荐更为准确的项目。
第二,由于本发明采用扰动了训练集数据的方法,使原训练集数据得到了隐藏,克服了现有技术用户信息泄露的问题,使本发明能够在给用户推荐更为准确的项目的同时,避免用户信息的泄露,达到对用户信息的保护。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明详细描述如下。
步骤1.提取预测数据集。
从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集。
将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集。
按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
r = m n
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数。
从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3
步骤2.扰动训练集数据。
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动。
步骤3.按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
T p i = R p i * r
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度。
步骤4.预测项目评分。
以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵。
以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵。
分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列。
步骤5.评估预测评分。
在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列。
在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列。
删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行。
采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分。
采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值。
步骤6.获得推荐项目。
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。

Claims (5)

1.一种基于可信数据推荐服务的方法,包括以下步骤:
(1)提取预测数据集:
(1a)从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集,将所有提取的五列预测数据组成预测数据集;
(1b)将预测数据集按照4:1的比率随机分为训练集和测试集,同时将该测试集复制为四份,得到第一个测试集,第二个测试集,第三个测试集,第四个测试集;
(1c)按照下式,计算训练集中用户对项目的评分列数据对应的可信度:
r = m n
其中,r表示训练集中用户对项目的评分数据的可信度;m表示训练集中项目评分中投有用评分的用户数目;n表示训练集中用户评分投票的总数;
(1d)从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S1;从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S2;从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S3
(2)扰动训练集数据:
分别在训练集、第一个子训练集S1、第二个子训练集S2、第三个子训练集S3的用户对项目的评分数据列上加入呈高斯分布的一组随机数,实现对该列评分数据列的扰动;
(3)按照下式,分别计算训练集和三个子训练集中用户对项目的可信评分:
T p i = R p i * r
其中,表示用户p对项目i的可信评分;表示用户p对项目i的历史评分;*表示相乘操作;r表示用户对项目的评分的可信度;
(4)预测项目评分:
(4a)以训练集中的所有的用户编号为行,所有的项目编号为列,构建一个训练集矩阵;
(4b)以三个子训练集中的所有的用户编号为行,所有的项目编号为列,分别构建三个子训练集矩阵;
(4c)分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分,得到了训练集预测评分列和三个子训练集预测评分列;
(5)评估预测评分:
(5a)在第一个测试集中新建一列,将训练集预测评分列添加到第一个测试集新建的列上,组成第一个测试集的用户对项目的预测评分列;
(5b)在第二个测试集、第三个测试集、第四个测试集中分别新建一列,将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上,组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列;
(5c)删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行;
(5d)采用平均绝对误差指标公式,分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估,得到了第一次评估后的预测评分;
(5e)采用均方根误差指标公式,分别第一次评估后的预测评分进行进一步的评估,得到第二次评估后的预测评分值;
(6)获得推荐项目
对所有项目第二次评估后的预测评分值按照从大到小进行排序,将预测评分最高的前5个项目作为推荐对象输出给用户。
2.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(2)中所述的呈高斯分布所选取的是标准高斯分布。
3.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(4c)中所述的分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分的具体步骤如下:
第一步,按照下式,分别计算训练集矩阵和三个子训练集矩阵中用户给出评分的项目与用户未给出评分的项目的平均偏差:
D j k = Σ i ∈ UI j k R i j - R i k | UI j k |
其中,表示用户给出第k个评分项目与用户未给出的第j个评分项目的平均偏差;∑表示求和操作;∈表示属于关系;UIj k表示共同评价过第k个评分项目和第j个评分项目的用户集合;i表示共同评价过项目Ik和项目Ij用户集合中的用户编号;|UIj k|表示集合UIj k的元素个数;Rj i表示第i个用户对第j个项目的评分;Rk i表示第i个用户对第k个项目的评分;
第二步,根据未给出评分的项目的平均偏差,按照下式,分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目,进行预测评分:
PR j u = Σ k ∈ II j ( D j k + R k u ) | II j |
其中,PRj u表示第u个用户对第j个未给出评分项目的预测评分;∑表示求和操作;k表示与第j个项目同时被评价过的项目集合中的第k个项目;∈表示属于关系;IIj表示与第j个项目同时被评价过的项目集合;|IIj|表示项目集合IIj的元素个数;表示第u个用户给出评分的第k个项目与第u个用户未给出评分的第j个项目的平均偏差;Rk u表示第u个用户对第k个项目的评分。
4.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(5d)中所述的平均绝对误差指标公式如下:
M A E = Σ q = 1 N | PR u q - R u q | N
其中,MAE表示测试集中预测评分的平均绝对误差;q表示测试集中项目的编号;∑表示求和操作;N表示测试集中项目的总数;PRq u表示测试集中第u个用户对第q个项目的预测评分;Rq u表示测试集中第u个用户对第q个项目的评分。
5.根据权利要求1所述的基于可信数据推荐服务的方法,其特征在于,步骤(5e)中所述的均方根误差指标公式如下:
R M S E = Σ q = 1 N ( PR q u - R q u ) 2 N
其中,RMSE表示测试集中预测评分的均方根误差;q表示测试集中项目的编号;∑表示求和操作;N表示测试集中项目的总数;PRq u表示测试集中用户Uu对第q个项目的预测评分;Rq u表示测试集中用户Uu对第q个项目的评分。
CN201610435697.4A 2016-06-17 2016-06-17 基于可信数据推荐服务的方法 Pending CN106126567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610435697.4A CN106126567A (zh) 2016-06-17 2016-06-17 基于可信数据推荐服务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610435697.4A CN106126567A (zh) 2016-06-17 2016-06-17 基于可信数据推荐服务的方法

Publications (1)

Publication Number Publication Date
CN106126567A true CN106126567A (zh) 2016-11-16

Family

ID=57470796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610435697.4A Pending CN106126567A (zh) 2016-06-17 2016-06-17 基于可信数据推荐服务的方法

Country Status (1)

Country Link
CN (1) CN106126567A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025606A (zh) * 2017-03-29 2017-08-08 西安电子科技大学 一种社交网络中结合评分数据和信任关系的项目推荐方法
CN108074122A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 产品试用推荐方法、装置及服务器
CN111539562A (zh) * 2020-04-10 2020-08-14 支付宝(杭州)信息技术有限公司 一种基于模型的数据评测方法和系统
CN114357292A (zh) * 2021-12-29 2022-04-15 阿里巴巴(中国)有限公司 模型训练方法、设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074122A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 产品试用推荐方法、装置及服务器
CN107025606A (zh) * 2017-03-29 2017-08-08 西安电子科技大学 一种社交网络中结合评分数据和信任关系的项目推荐方法
CN107025606B (zh) * 2017-03-29 2021-04-16 西安电子科技大学 一种社交网络中结合评分数据和信任关系的项目推荐方法
CN111539562A (zh) * 2020-04-10 2020-08-14 支付宝(杭州)信息技术有限公司 一种基于模型的数据评测方法和系统
CN114357292A (zh) * 2021-12-29 2022-04-15 阿里巴巴(中国)有限公司 模型训练方法、设备和存储介质
CN114357292B (zh) * 2021-12-29 2023-10-13 杭州溢六发发电子商务有限公司 模型训练方法、设备和存储介质

Similar Documents

Publication Publication Date Title
Hosseini et al. Analysis of citation networks in building information modeling research
Szabo et al. Regional avian species declines estimated from volunteer‐collected long‐term data using List Length Analysis
Baker et al. Of TITAN and straw men: an appeal for greater understanding of community data
Zhang et al. New measures of clumpiness for incidence data
Wooldridge et al. Altmetric scores: An early indicator of research impact
Gioria et al. Phylogenetic relatedness mediates persistence and density of soil seed banks
CN110321291A (zh) 测试案例智能提取系统及方法
Tehseen et al. Impact of network competence on firm's performances among Chinese and Indian entrepreneurs: A multigroup analysis
Calabrese et al. The independent and interactive effects of tree-tree establishment competition and fire on savanna structure and dynamics
CN106126567A (zh) 基于可信数据推荐服务的方法
CN103970863A (zh) 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN107516235A (zh) 商品偏好预估方法和装置
CN105095625B (zh) 点击率预估模型建立方法、装置及信息提供方法、系统
Yu et al. Optimization of design parameters for control charts with multiple assignable causes
Taconeli et al. New two-stage sampling designs based on neoteric ranked set sampling
Danks et al. Measuring culture of innovation: A validation study of the innovation quotient instrument (part 2)
Depina et al. Cone penetration data classification with Bayesian Mixture Analysis
Fjellborg et al. What to do when the mining company comes to town? Mapping actions of anti-extraction movements in Sweden, 2009–2019
Samuels Book citations count
Suh Exploring the effect of structural patent indicators in forward patent citation networks on patent price from firm market value
Schimanski ‘Earnings shocks and tax-motivated income-shifting: evidence from European multinationals’–revisited
Wastell et al. The impact of cognitive predispositions on exploration decisions in the minerals industry
Dowd et al. Predictive modeling of marine benthic macrofauna and its use to inform spatial monitoring design
Phoon et al. Benchmarking Data-Driven Site Characterization
Schulze-Riegert et al. Data assimilation coupled to evolutionary algorithms—A case example in history matching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116