CN107423262B - 基于第三方数据评估自主推荐算法产出结果的方法 - Google Patents

基于第三方数据评估自主推荐算法产出结果的方法 Download PDF

Info

Publication number
CN107423262B
CN107423262B CN201710681238.9A CN201710681238A CN107423262B CN 107423262 B CN107423262 B CN 107423262B CN 201710681238 A CN201710681238 A CN 201710681238A CN 107423262 B CN107423262 B CN 107423262B
Authority
CN
China
Prior art keywords
list2
list1
similarity
record
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710681238.9A
Other languages
English (en)
Other versions
CN107423262A (zh
Inventor
肖欣庭
孙永强
刘鑫
牛小明
唐军
蒲文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710681238.9A priority Critical patent/CN107423262B/zh
Publication of CN107423262A publication Critical patent/CN107423262A/zh
Application granted granted Critical
Publication of CN107423262B publication Critical patent/CN107423262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明推荐系统算法评估技术领域,公开一种基于第三方数据评估自主推荐算法产出结果的方法,采用同领域内被认可的第三方推荐结果来量化评价当前推荐算法的实际产出效果。本发明首先通过购买(或其它技术手段,如爬虫技术)获取第三方数据,然后获取当前推荐算法的产出结果数据,然后通过获得的第三方数据量化评估当前推荐算法的实际产出效果。本发明适用于评估自主推荐算法产出结果。

Description

基于第三方数据评估自主推荐算法产出结果的方法
技术领域
本发明涉及推荐系统算法评估技术领域,特别涉及基于第三方数据评估自主推荐算法产出结果的方法。
背景技术
在推荐系统的推荐算法(如Item-CF,User-CF,Content-based algorithm等)开发中,存在对算法开发的产出结果或数据进行评估的问题,但是通常没有合适的量化方法来评估推荐算法产出结果的实际效果,而某些同领域的其他推荐系统的产出结果是相对被认可的,因此可以通过这些第三方的已有产出结果来评估当前开发的推荐算法的实际产出效果。本发明旨在提出一种量化评估方法解决推荐系统算法开发结果的评价问题。
发明内容
本发明要解决的技术问题是:提供一种基于第三方数据评估自主推荐算法产出结果的方法,采用同领域内被认可的第三方推荐结果来量化评价当前推荐算法的实际产出效果。
为解决上述问题,本发明采用的技术方案是:
为方便简述,给出以下几个概念定义。
定义1:在推荐系统中,推荐算法通过某些原始数据信息以产生一个推荐列表,推荐结果列表可以表示成如下的形式
Figure BDA0001375546040000011
其中keyi为推荐算法依赖的原始信息,将其称为键(key),[cidi1,cidi2,…,cidis]为推荐算法基于第i条原始信息产生的推荐结果列表,并将上式中的一行称为一条推荐记录,该条推荐记录的长度为s。[cidi1,cidi2,…,cidiv,…,cidis]中cidiv称为该条推荐记录中一个推荐实例,一个推荐实例通常会有多个特征或属性(记为{feature1,feature2,…,featuref})来决定其在实际推荐效果中的重要性,这些特征通常分为有序的和无序的,例如,新闻推荐系统中的新闻的特征可以为{新闻的长短,新闻的产出时间,新闻的类别,…},其中新闻长短(字数的多少具有可比对的关系)、时间是有序的(1月,2月具有前后关系),而类别(如政治、财经、NBA等)是无序的(不具备可比性)
根据定义1中介绍的相关概念,将第三方的推荐结果列表记为List1,自主开发的推荐算法的推荐结果列表记为List2,其分别可以表示为如下的形式
Figure BDA0001375546040000021
Figure BDA0001375546040000022
定义2:第三方推荐系统的推荐结果List1中总共有x条(x行)推荐记录,其中的一行称为长度为s的一条推荐记录,ciddoui为第i条推荐记录的key,计第i条记录为List1i
定义3:自主开发推荐算法的结果List2中总共有z条(z行)推荐记录,其中的一行为长度为n的一条推荐记录,cidsimj为第j条推荐记录的key,记第j条记录为List2j
定义4:若List1中的ciddoui的key和List2中的cidsimj的key相等,即ciddoui=cidsimj,则称这两条推荐记录是相对应的。
有了上述定义后,基于第三方推荐系统推荐结果数据评价当前自主开发的推荐算法结果实际效果的问题转化为通过List1来评估List2,此评估可以通过计算List2和List1之间的相似性来实现,相似性越大,说明自主开发的推荐算法的实际效果越好。本发明基于第三方数据评估自主推荐算法产出结果的方法,包括以下步骤:
步骤1:获取第三方推荐系统的推荐数据并形成规范化数据List1,获取自主开发推荐算法的推荐列表结果并形成规范化数据List2,然后将List1在List2中没有对应key的记录删除;
步骤2:取List2中的一条推荐记录List2j,并判断该推荐记录是否在List1有对应记录List1m,若是,则跳转步骤3,否则跳转步骤2;
步骤3:分割推荐记录List2j,获得List2j的各子分割记录,并通过Score(List1m,List2jx)函数计算List2j中各子分割记录与List1m的相似性,通过公式
Figure BDA0001375546040000031
从各子相似性结果获得List2j与List1m的相似性,并将相似性结果保存;
在计算Score(List1m,List2jx)时,可记list1=List1m,list2=List2jx
则List1m和List2jx的相似度Score(List1m,List2jx)=Score(list1,list2),Score(list1,list2)可分为以下三种情况计算:
A.若两条记录list1和list2的推荐实例完全相同,则
Score_case1=Score(list1,list2)=1;
B.若两条记录list1和list2的推荐实例完全不同,则
Score_case2=Score(list1,list2)=Score(list1.Features,list2.Features)
若第i个特征是序数性特征,则list1和list2在第i个特征上的相似性可通过下式计算
Figure BDA0001375546040000032
其中,list1.featureVector和list2.featureVector分别为list1和list2在第i个特征上的值向量;
若第i个特征是非序数性特征,则list1和list2在第i个特征上的相似性可通过下式计算:
Figure BDA0001375546040000033
其中,|·|表示取集合元素个数,∩表示取集合交集,∪表示取集合并集;
C.若两条记录list1和list2的推荐实例有部分相同,记相同推荐实例的个数为t个,则
Figure BDA0001375546040000036
Figure BDA0001375546040000034
Figure BDA0001375546040000035
其中,s为list1的长度,p为list2的长度。
ωi可通过调查问卷的方式获得,其中问卷设计成多选,ωi的计算公式如下:
Figure BDA0001375546040000041
其中,ni为第i个特征的投票数;
步骤4:判断List2中所有记录是否已经取完,若是,则转步骤5,否则跳转步骤3;
步骤5:将步骤3的结果可视化,画出相似性结果频率分布直方图;
步骤6:根据步骤5的可视化结果,给出结论。
本发明的有益效果是:相比较其它的一些评估方法,本发明公开的量化评估方法具有适用性广、客观量化评估(而非主观评估)的有益效果。
附图说明
图1为本发明实施例的流程图。
图2为一种可行的调查问卷的形式图。
图3为加权函数是Pr(x)=2/(3*x)的曲线图。
图4为实施例相似度频率分布直方图。
具体实施方式
下面以用豆瓣推荐结果来评价基于内容相似性的影片推荐算法(Content-basedrecommendation algorithm)的推荐结果为例来具体阐述本发明的技术方案的具体实施方式。
如图1所示,实施例一种基于第三方数据评估自主推荐算法产出结果的方法,具体步骤如下:
步骤1:首先,通过爬虫技术获取豆瓣“喜欢这部电影的人也喜欢……”的节目推荐列表List1,通过基于内容相似度推荐算法(Content-based recommendation algorithm)获取自主开发算法的节目推荐列表结果List2;然后,将List2在List1中没有对应key(即,节目id,cid)的记录删除,本步骤将List2在List1中没有对应key的记录删除,可以提高计算效率;
步骤2:取List2中的一条推荐记录List2j,并判断该推荐记录是否在List1有对应记录List1m,若有,则跳转步骤3,若没有,则跳转步骤2重新取另外一条推荐记录;
步骤3:将List2中的每一条记录按长度为k(=max(s))进行划分(由于技术或其它原因,List2和List1中的每条记录之间的长度可能是不等的,因此可进行此划分以方便计算),假设划分后的一条记录(可称为子划分结果)为:
Figure BDA0001375546040000042
其中,List2ji=[cidsimj,(i-1)*k+1,cidsimj,(i-1)*k+2,…,cidsimj,i*k],记List2ji的长度为p(p≤k)。
则新增算法推荐列表的一条记录List2j与第三方推荐结果中相对应记录List1m的相似性可以通过下式进行计算:
Figure BDA0001375546040000051
其中,Pr(x)为某种加权函数,例如可采用附图3的加权函数,Score(List1i,List2jx)为计算List1i和List2jx相似度的函数。
记list1=List1m=[cidD1,cidD2,…,cidDs],list2=List2jx=[cidS1,cidS2,…,cidSp],则List1m和List2jx的相似度Score(List1m,List2jx)=Score(list1,list2),Score(list1,list2)可分为以下三种情况计算:
情况A.两条记录list1和list2的推荐实例完全相同,则Score_case1=Score(list1,list2)=1;
情况B.两条记录list1和list2的推荐实例完全不同,可令:
Score_case2=Score(list1,list2)=Score(list1.Features,list2.Features)
即,因为此时list1和list2两条推荐记录中的推荐实例没有一个相同的,故可通过推荐记录中推荐实例的特征来计算两条推荐记录的相似性,现假设总共有f个特征,其中有o个序数性特征,f-o个非序数性特征,则list1和list2的相似性可转化为下式:
Figure BDA0001375546040000052
若第i个特征是序数性特征,则list1和list2在第i个特征上的相似性可通过下式计算:
Figure BDA0001375546040000053
其中,<·,·>为内积运算,||·||为2-范数,list1.featureVector和list2.featureVector分别为list1和list2在第i个特征上的值向量;
若第i个特征是非序数性特征,则list1和list2在第i个特征上的相似性可通过下式计算:
Figure BDA0001375546040000054
其中,|·|表示取集合元素个数,∩表示取集合交集,∪表示取集合并集;
ωi可以通过调查问卷的方式获得,一种可行的调查问卷的形式可设计如2所示,为更客观的统计,图2中的问卷应设计成多选,若第i个特征的投票数为ni,ωi的计算公式为:
Figure BDA0001375546040000061
情况C.两条记录list1和list2的推荐实例部分相同,部分不同,现假设有t个推荐实例相同,则可令:
Score_case3=Score(list1,list2)
=Score(list1∩list2)+Score(list1-list1∩list2,list2-list1∩list2)
即,list1和list2两条推荐记录的相似性可拆为相同部分的相似性加上不相同部分的相似性,其中可令:
Figure BDA0001375546040000062
Figure BDA0001375546040000063
其中,s为list1的长度,p为list2的长度;
步骤4:判断List2中所有记录是否已经取完,若是,则转步骤5,否则跳转步骤3;
步骤5:将步骤4的结果可视化,如图4所示,画出相似性结果频率分布直方图;
步骤6:根据步骤5的可视化结果,给出结论。
根据图4的可视化结果,可以知道本次开发算法(基于内容相似性的推荐算法)的推荐结果与豆瓣推荐结果列表的平均相似性(meanSim)为0.38048,由于本次开发算法的输出列表是每条记录20个节目,且采用如图3所示的加权函数是Pr(x)=2/(3*x),因此可以得出结论:若认为豆瓣推荐列表的实际推荐满意度为1,则此次开发算法的推荐结果的实际效果满意度可以达到:0.38048*3/2=0.57072,若是根据本次计算相似性的中位数来看,本次开发算法的推荐结果有一半以上可以达到的效果满意度为:0.39334*3/2=0.59001,表明本次开发算法还有待优化。
以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.基于第三方数据评估自主推荐算法产出结果的方法,其特征在于,包括以下步骤:
步骤1:获取第三方推荐系统的推荐数据并形成规范化数据List1,获取自主开发推荐算法的推荐列表结果并形成规范化数据List2;
步骤2:取List2中的一条推荐记录List2j,并判断该推荐记录是否在List1有对应记录List1m,若是,则跳转步骤3,否则跳转步骤2,其中j为List2中推荐记录的编号,m为List1中推荐记录的编号;
步骤3:分割推荐记录List2j,获得List2j的各子分割记录,并计算List2j中各子分割记录与List1m的子相似性,从各子相似性结果获得List2j与List1m的相似性,并将相似性结果保存;
步骤4:判断List2中所有记录是否已经取完,若是,则转步骤5,否则跳转步骤2;
步骤5:将步骤3的结果可视化,画出相似性结果频率分布直方图;
步骤6:根据步骤5的可视化结果,给出结论。
2.如权利要求1所述的基于第三方数据评估自主推荐算法产出结果的方法,其特征在于,在步骤1与2之间还包括:将List1在List2中没有对应key的记录删除,其中key为推荐算法依赖的原始信息。
3.如权利要求1所述的基于第三方数据评估自主推荐算法产出结果的方法,其特征在于,步骤3中从各子相似性结果获得List2j与List1m的相似性的计算公式为:
Figure FDA0002622823160000011
其中,Pr(x)为加权函数,Score(List1m,List2jx)为计算List1m与List2jx相似度的函数,List2jx为子分割记录,x为子分割记录的数量编号,k为子分割记录的长度,n为List2j的总长度。
4.如权利要求3所述的基于第三方数据评估自主推荐算法产出结果的方法,其特征在于,步骤3记list1=List1m,list2=List2jx
则List1m和List2jx的相似度Score(List1m,List2jx)=Score(list1,list2),Score(list1,list2)分为以下三种情况计算:
A.若两条记录list1和list2的推荐实例完全相同,则
Score_case1=Score(list1,list2)=1;
B.若两条记录list1和list2的推荐实例完全不同,则
Score_case2=Score(list1,list2)=Score(list1.Features,list2.Features)
其中,list1.Features为List1这条记录的所有特征,list2.Features为List2这条记录的所有特征;
假设总共有f个特征,其中有o个序数性特征,f-o个非序数性特征,则list1和list2的相似性可转化为下式:
Figure FDA0002622823160000021
其中,ωi为计算两条记录相似性时第i个特征的加权权重;
若第i个特征是序数性特征,则list1和list2在第i个特征上的相似性通过下式计算
Figure FDA0002622823160000022
其中,list1.featureVector和list2.featureVector分别为list1和list2在第i个特征上的值向量;
若第i个特征是非序数性特征,则list1和list2在第i个特征上的相似性通过下式计算:
Figure FDA0002622823160000023
其中,|·|表示取集合元素个数,∩表示取集合交集,∪表示取集合并集;
C.若两条记录list1和list2的推荐实例有部分相同,记相同推荐实例的个数为t个,则
Figure FDA0002622823160000026
Figure FDA0002622823160000024
Figure FDA0002622823160000025
其中,s为list1的长度,p为list2的长度。
5.如权利要求4所述的基于第三方数据评估自主推荐算法产出结果的方法,其特征在于,ωi通过调查问卷的方式获得,其中问卷设计成多选,ωi的计算公式如下:
Figure FDA0002622823160000031
其中,si为第i个特征的投票数。
CN201710681238.9A 2017-08-10 2017-08-10 基于第三方数据评估自主推荐算法产出结果的方法 Active CN107423262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710681238.9A CN107423262B (zh) 2017-08-10 2017-08-10 基于第三方数据评估自主推荐算法产出结果的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710681238.9A CN107423262B (zh) 2017-08-10 2017-08-10 基于第三方数据评估自主推荐算法产出结果的方法

Publications (2)

Publication Number Publication Date
CN107423262A CN107423262A (zh) 2017-12-01
CN107423262B true CN107423262B (zh) 2020-10-09

Family

ID=60437822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710681238.9A Active CN107423262B (zh) 2017-08-10 2017-08-10 基于第三方数据评估自主推荐算法产出结果的方法

Country Status (1)

Country Link
CN (1) CN107423262B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311381A (zh) * 2020-04-07 2020-06-19 广州翼云科技有限公司 一种商品推荐方法及系统
CN112084321A (zh) * 2020-07-30 2020-12-15 中国民用航空上海航空器适航审定中心 适航案例推荐评估方法,系统,装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1585954A (zh) * 2001-11-13 2005-02-23 皇家飞利浦电子股份有限公司 在项目推荐器中评估这些项的接近度的方法及装置
CN105260458A (zh) * 2015-10-15 2016-01-20 海信集团有限公司 一种用于显示装置的视频推荐方法及显示装置
CN105574430A (zh) * 2015-12-02 2016-05-11 西安邮电大学 协同过滤推荐系统中一种新型的隐私保护方法
CN105701226A (zh) * 2016-01-18 2016-06-22 合网络技术(北京)有限公司 多媒体资源评估方法和装置
CN106096015A (zh) * 2016-06-24 2016-11-09 北京理工大学 一种基于大数据双向推荐的深度学习方法及双向推荐装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1585954A (zh) * 2001-11-13 2005-02-23 皇家飞利浦电子股份有限公司 在项目推荐器中评估这些项的接近度的方法及装置
CN105260458A (zh) * 2015-10-15 2016-01-20 海信集团有限公司 一种用于显示装置的视频推荐方法及显示装置
CN105574430A (zh) * 2015-12-02 2016-05-11 西安邮电大学 协同过滤推荐系统中一种新型的隐私保护方法
CN105701226A (zh) * 2016-01-18 2016-06-22 合网络技术(北京)有限公司 多媒体资源评估方法和装置
CN106096015A (zh) * 2016-06-24 2016-11-09 北京理工大学 一种基于大数据双向推荐的深度学习方法及双向推荐装置

Also Published As

Publication number Publication date
CN107423262A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
US10430727B1 (en) Systems and methods for privacy-preserving generation of models for estimating consumer behavior
US10733515B1 (en) Imputing missing values in machine learning models
US20140181121A1 (en) Feature embedding in matrix factorization
Haines et al. Using computer-vision and machine learning to automate facial coding of positive and negative affect intensity
CN101673286A (zh) 用于内容推荐的设备、方法和计算机程序以及记录介质
JP6501939B2 (ja) モデル生成装置、情報配信装置、モデル生成方法、情報配信方法、モデル生成プログラム、情報配信プログラム、推定装置および推定方法
US20200320548A1 (en) Systems and Methods for Estimating Future Behavior of a Consumer
US8386413B2 (en) System for generating a media playlist
Braida et al. Transforming collaborative filtering into supervised learning
CN115087970A (zh) 使用贝叶斯图卷积网络的推荐系统
US20170316008A1 (en) Recommendation generation
CN107423262B (zh) 基于第三方数据评估自主推荐算法产出结果的方法
CN103390019A (zh) 信息处理设备、信息处理方法及程序
CA3021193A1 (en) System, method, and device for analyzing media asset data
Pan et al. Collaborative recommendation with multiclass preference context
US20160086086A1 (en) Multi-media content-recommender system that learns how to elicit user preferences
Chan et al. Fuzzy regression for perceptual image quality assessment
CN111159570A (zh) 一种信息推荐方法及服务器
Ren et al. Data-driven fuzzy preference analysis from an optimization perspective
Bahadorpour et al. Determining optimal number of neighbors in item-based kNN collaborative filtering algorithm for learning preferences of new users
Scherzinger et al. The best of both worlds: Challenges in linking provenance and explainability in distributed machine learning
Matuszyk et al. Hoeffding-CF: neighbourhood-based recommendations on reliably similar users
CN110866146A (zh) 视频推荐方法、装置、计算机设备和存储介质
Jeong et al. FPAdaMetric: False-positive-aware adaptive metric learning for session-based recommendation
Zhang et al. Similarity based matrix factorization for recommender systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant