CN104063589B - 一种推荐方法以及系统 - Google Patents

一种推荐方法以及系统 Download PDF

Info

Publication number
CN104063589B
CN104063589B CN201410267183.3A CN201410267183A CN104063589B CN 104063589 B CN104063589 B CN 104063589B CN 201410267183 A CN201410267183 A CN 201410267183A CN 104063589 B CN104063589 B CN 104063589B
Authority
CN
China
Prior art keywords
mrow
msub
article
similarity
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410267183.3A
Other languages
English (en)
Other versions
CN104063589A (zh
Inventor
朱宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Mobile Network Technology (beijing) Co Ltd
Original Assignee
Baidu Mobile Network Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Mobile Network Technology (beijing) Co Ltd filed Critical Baidu Mobile Network Technology (beijing) Co Ltd
Priority to CN201410267183.3A priority Critical patent/CN104063589B/zh
Publication of CN104063589A publication Critical patent/CN104063589A/zh
Application granted granted Critical
Publication of CN104063589B publication Critical patent/CN104063589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种推荐方法以及系统。所述推荐方法包括以下步骤:数据获取步骤,获取关于用户的行为数据以及物品的特征数据;相似度计算步骤,利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;推荐矩阵计算步骤,利用所述用户的行为数据生成用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵。

Description

一种推荐方法以及系统
技术领域
本发明涉及信息处理领域,特别涉及信息处理领域中的相似性度量的方法以及系统。
背景技术
当前,在众多领域均涉及相似性度量,并基于各种已有的相似性度量方法进行相似性分析进而进行推荐。例如在互联网行业等领域所涉及的推荐的方法。
现有的进行推荐的方法包括以下几种。一种基于系统过滤技术产生推荐。包括利用现有相似性度量方法。如:皮尔逊相关系数、Jaccard系数、余弦相似度、相关相似度等相似性度量方法,得到TOP_N的近邻。利用TOP_N的近邻,根据其操作情况,推荐相关结果。一种是基于矩阵分解技术产生推荐。包括svd分解、修正的svd分解技术等。矩阵分解技术认为用户的评分为用户属性向量和物品属性向量的内积。还有多种推荐技术的叠加。主要基于多种推荐结果的叠加,在扩大推荐关联效果、消除单个推荐算法存在的问题上,有一定优势。但显然,这是一种屈就的解决办法。同时不可克服的较高的运算复杂度。
但是以往的推荐方法存在针各种各样的问题,例如user_based CF和item_basedCF是相同的算法;user_based CF和item_based CF,推荐效果较差的问题;现有相似度计算方法,主要基于属性向量的相似度计算方法,其效果较差的问题;矩阵分解算法在适应隐反馈信息时候,效果较差的问题;运算复杂度不可控的问题;矩阵稀疏和冷启动等问题的最佳解决办法;基于用户行为的信息和基于内容、标签、社会关系等的信息,其不能有效融合和最大限度利用的问题。
发明内容
本发明就是鉴于上述问题而完成的,其目的在提供以下一种推荐方法和系统:通过概率和统计的方法,深入的研究了个性化推荐技术的本质,提出了新的个性化推荐技术,指出了传统个性化推荐技术的错误,系统解决了传统个性化推荐技术的以上至少一个问题。
本发明涉及一种推荐方法,包括以下步骤:数据获取步骤,获取关于用户的行为数据以及物品的特征数据;相似度计算步骤,利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;推荐矩阵计算步骤,利用所述用户的行为数据生成用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵。
根据本发明所涉及的推荐方法,其中,所述相似度计算步骤包括以下步骤:基于行为数据的相似度计算步骤,计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算步骤,计算基于特征数据的物品和物品之间的相似度;以及相似度综合步骤,将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,来得到贝叶斯相似度矩阵,
其中,bi、bj表示物品,下标变量i和j为正整数,先验概率密度sim′(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim″(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
根据本发明所涉及的推荐方法,其中,在所述基于行为数据的相似度计算步骤中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim"(bj,bi)的计算,以生成相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据本发明所涉及的推荐方法,其中,将所述相似度矩阵作为输入矩阵,利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
根据本发明所涉及的推荐方法,其中,在计算基于行为数据的相似度之前还包括白噪声补偿步骤:将用户对物品操作的次数低于预定次数的用户补充至预定次数。
根据本发明所涉及的推荐方法,其中,在所述基于特征数据的相似度计算步骤中,利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim′(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
根据本发明所涉及的推荐方法,其中,还包括基于特征数据的相似度的白噪声补偿步骤:针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和来作为补充了白噪声的基于特征数据的相似度矩阵。
根据本发明所涉及的推荐方法,其中,还包括最小误差评测步骤,利用训练数据对所述推荐矩阵根据标准最小错误率均方误差准则进行评测,修改所述白噪声补偿步骤中的所述预定比例来使误差小于一定值。
根据本发明所涉及的推荐方法,其中,还包括以下步骤:获取用户基于所述推荐矩阵而进行的用户对物品的操作的行为数据;对该行为数据进行白噪声补偿,将用户对物品操作的次数低于预定次数的用户补充至预定次数;将所述贝叶斯相似度矩阵作为先验相似度,将基于进行了白噪声补偿的行为数据而得到的物品和物品之间的相似度矩阵作为条件相似度,再次利用贝叶斯公式进行相似度计算,从而得到修正的相似度矩阵。
本发明涉及一种推荐系统,其中,包括:数据获取单元,其获取关于用户的行为数据以及物品的特征数据;相似度计算单元,其利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;推荐矩阵计算单元,其利用所述用户的行为数据生成用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵。
根据本发明所涉及的推荐系统,其中,所述相似度计算单元包括以下单元:基于行为数据的相似度计算单元,其计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算单元,其计算基于特征数据的物品和物品之间的相似度;以及相似度综合单元,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,来生成贝叶斯相似度矩阵,
其中,bi、bj表示物品,下标变量i和j为正整数,先验概率密度sim′(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim"(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
根据本发明所涉及的推荐系统,其中,所述基于行为数据的相似度计算单元利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim"(bj,bi)的计算,以生成相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据本发明所涉及的推荐系统,其中,还包括相似度增强单元,其将所述相似度矩阵作为输入矩阵,利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
根据本发明所涉及的推荐系统,其中,还包括白噪声补偿单元,在计算基于行为数据的相似度之前,所述白噪声补偿单元将用户对物品操作的次数低于预定次数的用户补充至预定次数。
根据本发明所涉及的推荐系统,其中,所述基于特征数据的相似度计算单元利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim′(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
根据本发明所涉及的推荐系统,其中,还包括基于特征数据的相似度的白噪声补偿单元,其针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
根据本发明所涉及的推荐系统,其中,还包括最小误差评测单元,所述最小误差评测单元利用训练数据对所述推荐矩阵根据标准最小错误率均方误差准则进行评测,修改所述白噪声补偿步骤中的所述预定比例来使误差小于一定值。
根据本发明所涉及的推荐系统,其中,所述数据获取单元获取用户基于所述推荐矩阵而进行的用户对物品的操作的行为数据;
所述白噪声补偿单元对该行为数据进行白噪声补偿,将用户对物品操作的次数低于预定次数的用户补充至预定次数;
所述相似度综合单元被输入所述贝叶斯相似度矩阵作为先验相似度,被输入基于进行了白噪声补偿的行为数据而得到的物品和物品之间的相似度矩阵作为条件相似度,所述相似度综合单元再次利用贝叶斯公式进行相似度计算,从而得到修正的相似度矩阵。
根据上述的推荐方法以及系统,至少解决了现有技术中存在的至少一种问题,合理地综合行为信息和特征信息,并且做到理论最优的个性化推荐。
附图说明
图1示出实施例1的相似性度量方法的流程图;
图2示出实施例2的相似性度量方法的流程图;
图3是示出相似性度量系统的框图;
图4示出实施例1的增强相似性关联的方法的流程图;
图5示出实施例2的增强相似性关联的方法的流程图;
图6示出增强相似性关联的相似性度量系统的框图;
图7示出又一相似性度量方法的流程图;
图8示出又一相似性度量系统的框图;
图9示出一白噪声补偿方法的流程图;
图10示出又一白噪声补偿方法的流程图;
图11示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的方法的流程图;
图12示出计算行为数据的相似度的流程图;
图13示出计算特征数据的相似度的流程图;
图14示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的系统的框图;
图15示出本发明的推荐方法的流程图;
图16示出本发明的推荐系统的框图。
具体实施方式
在个性化推荐的过程中,对于已知用户、物品、以及用户对物品的操作历史的情况,如何能够在未知用户和物品的属性向量的情况下计算出用户和用户、或者物品和物品之间的相似度,下面进行说明。
关于属性向量值服从均匀分布下的相似度计算
下面,本发明给出一种新的相似性定义,首先针对属性向量值服从在负无穷大到正无穷大上的均匀分布的情况进行介绍。
物体可以用n维属性向量描述,物体a的属性向量为[a[1],a[2],a[3],......,a[n]],物体b的属性向量为[b[1],b[2],b[3],......,b[n]],sim(a,b)表示物体a和物体b的在给定权重为k和方差向量为[δ2[1],δ2[2],δ2[3],......,δ2[n]]情况下的相似度值。
式1
例如在仅具有一个属性,且属性向量值服从在负无穷大到正无穷大上的均匀分布的情况下,物体a和物体b的相似度为属性值变量x服从N(a[1],δ[1]2)正态分布时的在b[1]处概率密度值。虽然上述属性向量未知,无法通过正态分布公式直接计算出概率密度值,但是根据已有的操作历史数据能够计算出概率密度值。在未知属性向量的情况下,利用正态分布卷积运算时仍然服从正态分布的良好特性来建立物体之间的关联,从而利用能够求出的概率密度值来求出相似性。因此该相似度定义对于隐藏属性的物品或用户的相似性分析有用。
在物体属性向量已知的条件下,带入向量值,即可得到相似度结果。
对于未知物体属性向量的情况,我们列举了以下例子。
实施例1
首先以连续的情况为例。对于连续情况,给定权重都为1。例举了网络书城的图书推荐,参考图1对相似性度量方法进行说明。首先,如步骤S1所示,服务器收集网络书城的所有用户信息和所有图书信息、以及用户对图书进行点击阅读的所有历史数据。将网络书城所有图书的集合设为集合M(m1,m2,......),将所有用户的集合设为集合N(n1,n2,......),假设在集合M和集合N中的元素所具有的属性值满足正无穷大到负无穷大下均匀分布。下面我们介绍在不知道图书的任何属性信息、也不知道用户的任何属性信息的情况下,如何根据用户对图书进行操作的历史数据来得到用户与用户之间的相似度。
现在假设用户集合N中用户n1希望看到的图书是图书m1,图书m1具有一个属性,属性值为μ。用户集合中其他某一个用户n2希望看到图书m2,图书m2具有属性值为x,则该用户n1希望看到的图书m1与其他某一个用户n2希望看到的图书m2之间的相似度,即用户与用户之间的相似度f0(x),在给定方差δ2的情况下,可以依据上述定义得到式2。
式2
但是,实际上我们不知道用户希望看到的图书m1和m2的属性值,当然也就不知道用户n1希望看到的图书m1和其他某一个用户n2希望看到的图书m2之间的相似度。然而我们根据用户对图书的操作历史,知道用户n1实际对图书m3进行了点击阅读,并能够计算出用户n1对图书m3的点击次数相对于该用户对所有图书的点击次数的概率D1。由于用户n1实际操作的图书是图书m3,设图书m3的属性值是y,那么用户n1希望看到的图书m1应该与图书m3相似。
如果将用户n1对图书m3的点击阅读视为一次测量,将用户n1希望看到的图书m1的属性值μ作为被测量值,将用户n1实际看到的图书m3的属性值作为测量值,将所有图书的属性值构成测量值域,如果图书的属性值无穷多,且满足大小在负无穷大到正无穷大的均匀分布,则测量得到的样本均值、即实际物品属性均值与被测量值满足极大似然估计,测量得到的样本值结果满足以被测量值μ为期望,以某未知方差为方差的正态分布。即,将样本所在值对应的概率密度值作为该样本值与实际被测量值的相似度。根据上述,使用用户n1实际读取的图书m3的属性值y去测量用户n1希望读取的图书m1的属性值μ,则图书m3的概率密度g(y)为式3。
式3
g(y)是如上所述能够根据操作历史数据计算出的概率密度值。即,如步骤S2所示,根据历史记录,计算用户n1点击图书m3的次数相对于用户n1对所有图书的点击次数的概率g(y)。
同理,如果已知某些用户点击读取了图书m3,则对于用户n1来说,用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率是已知的,即能够计算出用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率D2。同理,使用用户n2希望读取的图书m2的属性值x去测量用户n1实际读取的图书m3的属性值y,其概率密度分布z(x)也满足类似的公式(4)。
式4
z(x)是如上所述也能够根据操作历史数据计算出的概率密度值。即,如步骤S3所示,根据历史记录,计算用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率z(x)。
现在通过一种运算将属性值x和u关联起来,对g(y)和z(x)进行卷积运算,来获取和f0(x)近似的表达式。将新的积分的结果命名f(x),以和f0(x)区别,则f(x)为式5。
式5
即,如步骤S4所示,计算g(y)与z(x)的卷积,根据上述的式5,由于g(y)和z(x)已知,因此能够得到f(x)的值。f(x)为图书m1和图书m2的相似度,即该用户n1喜欢看的书与其他某一个用户n2喜欢看的书的相似度,即用户n1与用户n2之间的相似度。由于在上述中g(y)和z(x)的概率密度D1和D2通过对用户历史行为数据进行统计可以计算出,因此相似度sim(x,u)=f(x),因此在未知图书m1和图书m2的属性向量的情况下,得到了它们的相似度值,即得到用户与用户之间的相似度。
同理,计算z(x)与g(y)的卷积,能够得到图书和图书之间的相似度。
另外,通过对式5进行推导计算,可以得到式6,这里忽略了推导过程。
式6
根据进一步推导出来的式6,可知f(x)满足式1的相似性度量方法,对比式6和式2,f(x)和f0(x)形式一致,给定方差变成2δ2
对于属性个数不为1的情况,可以将上述过程看做是对很多独立属性联合分布密度的统计。服从正态分布的独立随机变量的卷积,其方差为每个正态分布的方差的和。如果依据式2所得给定的方差为(δ1 2,δ2 2,δ3 2,…),其中括号中的各个方差表示每个独立属性的统计方差,那么由于属性独立,可以推导得到给定的方差为(2δ1 2,2δ2 2,2δ3 2,…)的相似度。
另外以上推导须满足集合M、N服从负无穷大到正无穷大之间的均匀分布的假设,和集合M、N中元素的属性值保持不变的假设。但在具体情况下,都可以利用该基本原理和方法,计算出符合定义的相似度结果。
实施例1给出了连续情况的一个例子,下面对应连续情况下的相似性度量方法,对离散情况下的相似性度量方法进行介绍。
实施例2
以在网络购物中为了向用户推荐物品而计算用户和用户、或物品和物品之间的相似度为例,这里比较对象是用户和用户、或者物品和物品。参考图2进行以下说明。首先,如图2的步骤S21所示,服务器根据用户的登录注册、网站所销售的物品、以及用户对物品的操作情况进行信息的收集,即所收集的信息包括用户、物品、以及用户和物品之间的交互情况,以获取用户、物品、以及用户对物品的操作的数据。服务器对上述信息进行分析,一个是用户集合User,一个是物品集合Item,以及用户对物品的操作记录。这里每次用户对物品的操作相互独立,每次操作表达含义相同,都表达了用户对物品感兴趣。表1示出现有的用户集合User和物品集合Item之间的交互情况。aij表示用户Useri对物品Itemj的操作次数,i表示用户标号,j表示物品标号,i、j均为整数。例如用户User1对物品Item1的操作次数是a11次,用户User1对物品Item2的操作次数是a12次,用户User1对物品Item3的操作次数是a13次,用户User1对物品Item4的操作次数是a14次,依次类推,假设物品Item4没有被任何用户进行过操作,则a14=a24=a34=a44=0,假设用户User4没有对任何物品进行过操作,则a41=a42=a43=a44=0。
表1
Item1 Item2 Item3 Item4
User1 a11 a12 a13 a14
User2 a21 a22 a23 a24
User3 a31 a32 a33 a34
User4 a41 a42 a43 a44
在步骤S22中,对上述获得的数据建立数学模型形成矩阵,利用矩阵来表达上述表1,得到如下用户和物品的关系矩阵a。
矩阵a
如图2的步骤S23所示计算用户对物品的概率矩阵。首先,针对矩阵a以用户为行,依次将各物品被该用户的操作次数,除以该用户进行过的操作总次数,得到矩阵A。如果该行对应的用户没有进行任何操作,则矩阵该行取满足元素值都相同且和为1的值。矩阵A可以看做实际物品测量用户希望得到的物品的统计分布,即用户对物品的概率矩阵。这里,用户对物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
Aij表示矩阵A的元素,即表示用户Useri对物品Itemj操作的次数与该用户Useri对所有物品进行的操作总次数的比,则如下式7所示,其中k表示所有物品的数量。
式7
矩阵A
矩阵第一行表示:Item1被User1操作的概率是A11,A11=a11/(a11+a12+a13+a14),以下依次类推,Item2被User1操作的概率是A12,Item3被User1操作的概率是A13,Item4被User1操作的概率是A14。矩阵第二行表示:Item1被User2操作的概率是A21,Item2被User2操作的概率是A22,Item3被User2操作的概率是A23,Item4被User2操作的概率是A24。依次类推,假设User4没有进行任何操作,因此该行取各值相同并且和为1的值,即均取A41=A42=A43=A44=0.25。
如图2的步骤S24所示计算物品对用户的概率矩阵。首先物品和用户的关系矩阵为b,矩阵b=aT
矩阵b
针对矩阵b,以物品为行,依次将各用户操作该物品的操作次数,除以该物品被进行过的操作总次数。如果该行对应的物品没有被操作过,则矩阵该列取满足元素值都相同且和为1的值。矩阵B可以看做用户希望得到的物品测量实际物品的统计分布,即物品对用户的概率矩阵。这里,所述物品对用户的概率的概率密度是服从相同或者相近方差的正态分布密度。
Bij表示矩阵B的元素,即表示物品Itemj被用户Useri操作的次数与该物品Itemj被所有用户的操作总次数的比,则如下式8所示,其中h表示所有用户的数量。
式8
矩阵B
矩阵B第一行表示:Item1被User1操作的概率是B11,其中,B11=a11/(a11+a21+a31+a41),以下依次类推,Item1被User2操作的概率是B21,Item1被User3操作的概率是B31,Item1被User4操作的概率是B41。矩阵BT第二行表示:Item2被User1操作的概率是B12,依次类推。如果Item4没有被进行任何操作,因此该行取各值相同并且和为1的值,即均取B14=B24=B34=B44=0.25。
在步骤S25中,在计算出上述概率的情况下,对应实施例1取卷积,即,对矩阵A和B进行相乘得到用户和用户之间的相似度矩阵AB,AB=A*B。
ABij表示矩阵AB的元素,则AB11=A11*B11+A12*B12+A13*B13+A14*B14,AB12=A11*B21+A12*B22+A13*B23+A14*B24,依次类推。
矩阵AB
该相似度值是在某个未知权值k以及某个未知方差向量下的相似度值,该矩阵AB为用户和用户之间的相似度矩阵。例如第一行表示User1和User1的相似度是的AB11,User1和User2的相似度是AB12,User1和User3的相似度是AB13,User1和User4的相似度是AB14,同理依此类推。
如果计算矩阵B*A,则得到物品和物品之间的相似度矩阵BA=B*A。
BAij表示矩阵BA的元素,则BA11=B11*A11+B21*A21+B31*A31+B41*A41,BA12=B11*A12+B21*A22+B31*A32+B41*A42,依次类推。
矩阵E
例如矩阵E第一行表示Item1和Item1的相似度BA11,Item1和Item2的相似度是BA12,Item1和Item3的相似度是BA13,Item1和Item4的相似度是BA14。矩阵E第二行、第三行、第四行依此类推。
在本实施例中,不知道物品的属性,也不知道用户的属性,但是根据正态分布在卷积的情况下仍然服从正态分布的特性,利用用户对物品的操作历史,得到物品相对于用户的概率矩阵以及用户相对于物品的概率矩阵,从而能够计算出用户与用户之间的相似度或者物品和物品的相似度。从而可以依此来向用户推荐物品,提高所推荐的物品被用户的采纳的可能性。
图3示出了一种相似性度量系统300,相似性度量系统包括数据收集单元301、数学模型建立单元302、概率矩阵生成单元303、相似度计算单元304。数据收集单元301例如收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。数学模型建立单元302建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。概率矩阵生成单元303根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户对物品的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品对用户的概率矩阵。相似性计算单元304计算所述用户对物品的概率矩阵与所述物品对用户的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述物品对用户的概率矩阵与所述用户对物品的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
利用了本发明的相似性度量方法所得出的相似性的结果与以往计算相似性的方法在满足假设的条件下相比具有很好的效果。
根据上述利用了正态分布的特性的对相似性的定义,能够在未知属性向量的情况下计算出物品之间的相似度,其应用不限于上述实施例,能够应用于各个未知属性的比较对象之间的相似度计算上。
针对上述相似度的增强相似度关联的运算
实施例3是对实施例1所得的结果进行增强相似度关联的运算。我们知道,方差越大表明关联的结果增多,但其误差也相应增大。
图4示出示出实施例1的增强相似性关联的方法的流程图,参考图4对实施例3进行说明。利用上述相似性定义式1,并根据在实施例1中所得到的相似度结果,在图4的步骤S41通过对任意图书mx和my、与my和mz的相似度进行对my的卷积运算,如式9所示,能够得到mx和mz之间的关联,从而扩大了图书之间相似性的关联的范围,增强图书之间相似性的关联,得到增强相似度sim(mx,my)。通过式9的运算,满足式1的方差也变成4δ2
式9
并且根据式1和式9得到式10的结果,其中C0是常数。
式10
方差增大,虽然增强了图书之间的相似性关联,但同时误差也扩大了。为了减小误差,使相似度给定的方差重新为2δ2,在图4的步骤S42中进行式11的方差收回运算,得到进行了方差收回的增强相似度sim'(mx,my)。
式11
根据式10和式11得到式12,即方差变回了δ2,这里C0、C1、C0'均是常数。
式12
根据上述,方差重新为2δ2,能够增强比较对象之间的相似性关联,并保持误差不变。
通过上述,方差实现了从2δ2变为4δ2又重新回到2δ2的变化,即得到了更大范围与mx具有相似度关联的图书,可以从中选择相似度高的图书用于推荐。增强后的相似度sim’(mx,mz)的值可根据式11得到。
实施例3给出了连续情况的一个例子,下面对应连续情况下的增强相似性关联的相似性度量方法,对离散情况下的增强相似性关联的相似性度量方法进行介绍。
实施例4
图5是示出对实施例2的增强相似性关联的方法的流程图,参考图5对实施例4进行说明。实施例4是对实施例2所得的相似矩阵进行增强相似性关联的运算。这里一般给定的权值,使用能使相似度的和为1的权值进行计算。
例如表示用户和用户之间的相似度的相似矩阵AB,在图5的步骤S51中,首先对其进行增强相似性的计算,来进一步扩大用户之间的关联。增强后的相似矩阵f=(AB)*(AB)T
fij表示矩阵f的元素,则f11=AB11*AB11+AB12*AB12+AB13*AB13+AB14*AB14,f12=AB11*AB21+AB12*AB22+AB13*AB23+AB14*AB24,依次类推。
矩阵f
矩阵f为经过相似度增强之后的用户和用户之间的增强相似矩阵,通过增强运算扩大了用户和用户之间关联的范围,使之间计算出相似度为零的用户之间具有了关联。同理,计算(BA)*(BA)T则得到增强了物品和物品之间关联的增强相似矩阵。
随着上述的相似性增强,用户与用户之间的相似性所满足的方差增加了一倍,其误差也增加了一倍,这里为了使误差大小保持与原来一致,如图5的步骤S52所示,对增强的相似矩阵进行方差收回运算,如式13所示。矩阵g表示进行了方差收回运算后的用户与用户之间的相似矩阵。该运算如下所示,fij表示增强矩阵f中的元素,gij表示方差收回运算后的增强矩阵g中的元素,i表示矩阵的行号,j表示矩阵的列号,h表示列号的最大值,i、j、h均为大于零的整数。
式13
矩阵g
矩阵g中g11表示用户User1和User1进行了方差收回运算的增强相似度值,g11=f11 2/(f11 2+f12 2+f13 2+f14 2)。其他依次类推。
图6示出了一种增强相似性关联的相似性度量系统600,增强相似性关联的相似性度量系统包括获取相似性矩阵单元601、相似度增强运算单元602、以及方差收回运算单元603。获取相似性矩阵单元601获取比较对象之间的相似度矩阵。获取相似性矩阵单元601与图3所示相似性度量系统300同样,包括数据收集单元、数学模型建立单元、概率矩阵生成单元、以及相似性计算单元。所述数据收集单元收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。所述数学模型建立单元建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。所述概率矩阵生成单元根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵。所述相似性计算单元计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。相似度增强运算单元602计算比较对象之间的相似度矩阵与自身的转置矩阵的乘积,从而得到增强相似度关联的比较对象之间的增强相似度关联的增强相似度矩阵。方差收回计算单元603计算增强相似度矩阵中各元素的平方与该元素所在的行的各元素的平方和的比作为新的元素,从而得到进行方差收回计算后的比较对象户之间的相似矩阵。
根据实施例3和4,对在实施例1和2中所得的相似矩阵进行增强相似度关联的运算,从而增大了比较对象(例如用户与用户、或者物品和物品)之间的关联,并进行方差收回运算,从而使增强相似度关联所带来的误差与原来一致,保持不变。在上述的实施例中得到被比较对象之间相似度关联范围更大、误差不变的相似度。
关于数据存在偏斜的情况下的相似度的计算
在上述相似性计算中,各属性向量值、即各行为数据需要服从在负无穷大到正无穷大上的均匀分布,在不满足上述情况、即存在数据偏斜的情况下,得到的物品和物品之间的相似度矩阵可能不对称,无法进行进一步的相似度增强运算。为了得到对称的相似性矩阵,对于上述求出的相似性的方法可以进行一个相似度结果的逼近,以获取更加准确的相似度。
以下对相似度结果的逼近进行详细介绍。
图7示出又一相似性度量方法的流程图。参考图7可知,首先如步骤S71所示,获取集合a与集合b的元素以及元素之间的操作关系数据,然后如步骤S72所示,根据上述数据得到集合b中元素之间的相似度值。例如获取集合a和集合b的元素,将无差别的相似性操作次数表示为sim(item_a,item_b),这里所说的无差别的相似性操作次数是指集合a中的元素item_a与集合b中的元素item_b之间的操作关系。利用以下公式求取集合b内部元素之间的相似性值sim’(Item_bi,Item_bj)。公式如下:
式14
其中,sim’(Item_bi,Item_bj)表示集合b中元素Item_bi和Item_bj之间的相似度,是对利用式1的方法所求出的相似度结果进行逼近的值。k是归一化因子,进行归一化后定义2是对定义1中的一个相似度结果的逼近。由于无差别的相似性操作次数表示为sim(item_a,item_b),因此例如sim(item_am,item_bi)表示集合a中的元素item_am与集合b中的元素item_bi之间无差别的相似性操作次数。sim(item_am,item_bj)表示集合a中的元素item_am与集合b中的元素item_bj之间无差别的相似性操作次数。其中,m、n、i、j均表示集合中元素的标号。
在上述式14中,将相似性操作发生时间设为t(item_a,item_b),即集合a中的元素item_a对集合b中的元素item_b的操作时间点。利用以下公式求取集合b内部元素之间的相似性方法。假设用G表示式14中的以下部分:
则在考虑与时间有关的滤波系数f(t(item_am,item_bi),t(item_am,item_bj))的情况下,则相似性公式如下:
式15
其中k是归一化因子,f(t(item_am,item_bi),t(item_am,item_bj))是和时间有关的某个函数,使得时间越相近,函数值越大。如一般用的低通滤波函数,让时间相近的值较大。例如时间滤波函数f为式16。
式16
其中β是小于1大于0的低通滤波系数。
图8示出又一相似性度量系统的框图,本发明的相似性度量系统,包括:数据获取单元,其获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);相似度计算单元,其执行基于式14的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算。这里关于数据存在偏斜的情况下的相似度的计算并不仅仅适用于在数据存在偏斜的情况,在数据均匀分布的情况下也能适用。同理以下说明的关于数据存在偏斜的情况下的增强相似度的计算也能适用于数据均匀分布的情况。
关于数据存在偏斜的情况下的增强相似度的计算
针对上述相似度度量方法以及系统所计算出的矩阵可以进行进一步的相似度增强运算,该增强运算为将根据得到的集合b内部元素的相似度值所得的相似度矩阵以及该相似度矩阵的转置矩阵,继续使用式14的计算相似度,并进行归一化计算,以执行增强相似度的计算。
关于白噪声补偿
在上述的实施例中,以仅一个属性为例进行了说明,但对于物品来说存在多个属性,用户对物品进行操作的同时会对某些物品的某些属性进行了评价,但是有些物品却不存在用户评价的数据,或者用户未对所操作的物品的所有属性进行评价,导致所得到的用户对物品属性的评价的交互数据比较少。
白噪声补偿方法包括以下步骤:计算样本空间中的各样本的属性向量的测量值的平均值作为所述属性向量的估计值;计算所有样本的所述属性向量的估计值的平均值;对于所述属性向量的测量值数目小于预定数目的样本,利用上述所有样本的所述属性向量的估计值的平均值作为样本的所述属性向量的测量值,将样本的所述属性向量的测量值数目补足至预定数目;重新计算被补足所述属性向量的测量值数目的样本的所述属性向量测量值的平均值作为估计值。
另外,又一白噪声补偿方法包括以下步骤:计算样本空间中的各样本的属性向量的测量值的平均值作为所述属性向量的估计值;计算所有样本的所有所述属性向量的测量值的平均值;对于所述属性向量的测量值数目小于预定数目的样本,利用上述所有样本的所有所述属性向量的测量值的平均值作为样本的所述属性向量的测量值,将样本的所述属性向量的测量值数目补足至预定数目;重新计算被补足所述属性向量的测量值数目的样本的所述属性向量测量值的平均值作为估计值。
参考图9对存在多个独立属性进行样本统计的情况进行说明。假设国内某个网站上有很多的电影,评分与观看时长是电影的属性向量。现在想确定某部电影的评分和用户观看时长。已知现在有三个用户对该电影进行了观看和评分。该网站上关于评分的测量值分别为7、5、8,关于观看时长的测量值分别为1.4、1.6、1.5。具体情况如表2所示。
表2
评分(满分10分) 观看时长(小时)
用户1 7 1.4
用户2 5 1.6
用户3 8 1.5
首先如步骤S91所示,计算出关于该电影的评分测量值的平均值以及观看时长测量值的平均值,即评分测量值的平均值为(7+5+8)/3=6.67,观看时长测量值的平均值为(1.4+1.6+1.5)/3=1.5。
已知一部电影观看的用户数目在30以上,才能反映电影在该网站的实际评分和观看时长。但是由于上述该网站对于该电影的评价数量只有3个,评价数量过少,因此对该网站的该电影的两个属性向量进行白噪声补偿。
如步骤S92所示,为了准确的预测该部电影的评分和用户观看时长,该网站找到同类的其他网站上,获取各个网站对该部电影的评分和观看时长的平均值,并计算出包含该网站在内的各个网站的评分和观看时长测量值的平均值的平均值,如下表3所示。
表3
评分(满分10分) 观看时长(小时)
电影 6 1.2
如步骤S93所示,利用上述平均值的平均值对该网站的该电影的两个属性进行白噪声补偿,将属性向量的数量补足至30个。如步骤S94所示,计算出补足属性向量测量值后的该电影的属性向量测量值的平均值作为估计值,该网站预测该部电影的评分和观看时长为:
([7,1.4]+[5,1.6]+[8,1.5]+27*[6,1.2])/30=[6.0667,1.230]
所以该网站预测该部电影,在该网站上的评分为6.0667分,观看时长为1.230小时。从而得到了更为准确的预测。
也可以取代图9中的步骤S92,而如图10所示的步骤S102所示,计算出所有网站的关于属性评分的测量值的平均值,并计算出所有网站的关于属性观看时长的测量值的平均值,并如步骤S103所示,利用上述计算出的测量值的平均值去补足该网站的该部电影的属性向量测量值的个数,使其为30个,并利用补足白噪声后的属性向量测量值来计算属性向量测量值的平均值作为估计值。
下面,以上述说明为基础,介绍将基于行为数据的相似度和基于特征数据的相似度利用贝叶斯公式进行综合的方法。
参考图11至图13进行说明。图11示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合方法的流程图;图12示出计算行为数据的相似度的流程图。如图11的步骤S111所示,首先获取特征数据和行为数据。然后,如步骤S112所示,计算出基于行为数据的物品和物品之间的相似度矩阵。具体的如图12所示,首先如步骤S121所示,基于获取行为数据而获取用户、物品、以及用户对物品的操作的数据;然后如步骤S122所示,利用上述数据计算出物品和物品之间的相似度矩阵。对于上述计算出的相似度矩阵还可以如步骤S123所示,对上述物品和物品之间的相似度矩阵进行增强相似度运算。
根据上述计算相似度的方法、以及相似度增强方法,能够在未知属性向量的情况下利用行为数据进行相似性的度量。即基于行为数据获取比较对象之间的相似度值,并进行增强相似度的运算。这里,针对行为数据比较少的情况,为了稳定统计结果也可以利用上述的白噪声补偿方法进行上述的白噪声补偿。通过上述,获取基于行为数据的相似度值。
如图11中的步骤S113所示,计算出基于特征数据的物品和物品之间的相似度矩阵。同样地,利用上述的相似度计算方法以及相似度增强方法能够计算出基于特征数据的物品和物品之间的相似度。具体的如图13所示,在步骤S131中,获取物品、属性、以及物品所对应的属性的属性值的数据。在步骤S132中,根据上述数据利用式1或者式14计算出物品和物品之间的相似度矩阵。在步骤S133中,对属性信息进行白噪声补偿,并按照已知属性信息和未知属性信息对相似度的贡献比例来计算出补偿了白噪声的相似度矩阵。物品包括已知属性和未知属性,对于已知属性能够获得作为物品和属性的关系的属性值,可以利用属性值根据式1或者式14所介绍的相似度计算方法计算出基于属性信息的物品和物品之间的相似度。由于已知的属性,只占物品属性信息的一部分,那么计算出来的相似度结果,需要进行白噪声补偿。补偿方法是,对未知的物品属性信息,假设其贡献的相似性信息是白色噪声,即任意一个物品和其他物品的相似度相同。这样得到一个相似度矩阵。将该相似度矩阵和利用已知属性计算出来的相似度矩阵,按照某个比例相加,就得到了利用属性方法所计算得到的相似度矩阵。具体的,已知的属性信息占物品属性信息的比例,并不能事先知道,这样就需要利用交叉验证的方法,来确定这个比例系数,以达到最佳的推荐效果。
如图11的步骤S114所示,利用贝叶斯公式对上述基于行为数据的物品和物品之间的相似度矩阵和基于特征数据的物品和物品之间的相似度矩阵进行综合。具体地,对于物品和物品之间,将基于补充了白噪声的基于特征数据的相似度和基于行为数据的相似度利用贝叶斯公式进行综合,其中基于特征数据计算得到的相似度结果作为先验分布,将利用行为数据计算得到的相似度结果作为条件分布,如下式所示。
式17
其中,bi、bj表示物品,下标变量i=1,2……,先验概率密度sim′(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim″(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。该相似度同样是满足式1定义的相似度的估计值。
根据上述的计算,针对行为数据和特征数据不均匀的情况将基于行为数据和基于特征数据的相似度进行了有效综合,从而得到较好的相似度结果。
参考图14,图14示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的系统的框图,相似性度量系统141包括:数据获取单元142,其获取关于用户和物品的行为数据和特征数据;基于行为数据的相似度计算单元143,其计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算单元144,其计算基于特征数据的物品和物品之间的相似度;以及相似度综合单元145,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用贝叶斯公式进行综合,
其中,bi、bj表示物品,下标变量i=1,2……,先验概率密度sim″(bj,bi)为基于特征数据的的物品bj和物品bi之间的相似度结果,条件概率密度sim′(bi,bj)为基于行为数据的物品bi和物品bj相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
关于本发明的推荐方法
根据上述,已知用户对物品的概率矩阵以及物品和物品之间的贝叶斯相似度矩阵的归一化矩阵,通过将上述两个矩阵进行相乘,即得到了推荐矩阵。
下面举例对本发明的推荐方法进行说明。由于基于式1的相似度计算方法仅适用于在数据均匀分布的情况下,而式14的相似度计算方法适用于任何的数据的计算,因此,这里以式14的相似度计算方法为例来进行说明。
例如用户和物品(行为数据)的关系如下
物品1 物品2 物品3
用户1 1 1 0
用户2 1 0 1
用户3 2 0 0
物品和属性(特征数据)的关系如下
属性1 属性2 属性3
物品1 1 1 1
物品2 1 0 0
物品3 0 1 0
基于行为数据(log数据)用户和物品之间的关系矩阵log_a为
基于特征数据(Tag数据)的物品和属性的关系矩阵tag_c为
根据用户和物品之间的关系矩阵log_a利用式14计算基于行为数据的物品和物品之间的相似度矩阵sim_log为
这里如果有时间滤波,可以在乘上一个和时间有关的滤波函数。下面以不进行时间滤波为例继续进行计算。
上述的相似度矩阵是被进行了归一化后的相似度矩阵,在归一化之前的相似度矩阵是对称的。还可以对该归一化的相似度矩阵进行增强,即利用该相似度矩阵sim_log作为输入矩阵进一步利用式14进行相似度计算,并进行归一化。以下以未进行增强的相似度矩阵继续进行说明。
以上针对基于行为数据的物品和物品之间的增强相似度进行了计算,下面对基于特征数据(Tag数据)的物品和物品之间的相似度进行计算。
首先,基于特征数据(Tag数据)的属性和物品的关系矩阵tag_c求出其基于特征数据的物品和属性的关系矩阵(tag_c)T,根据物品和属性的关系矩阵(tag_c)T利用式14以与上述相同的方式计算相似度,得到物品和物品之间的相似度,并对其进行归一化,得到归一化的物品和物品之间的相似度矩阵sim_tag为
对于当前的属性向量进行白噪声补偿,假设一共需要6个属性向量,则需要补偿白噪声,所补偿的白噪声的属性值为1/(6-3),所补偿的属性向量的矩阵W为
假设所补偿的物品的属性信息对相似度的贡献是9/10,实际有的属性信息对相似度的贡献是1/10。则实际物品和物品之间,基于属性信息的相似度估计值为sim_tag'=(sim_tag*0.1)+(W*0.9),根据上述sim_tag'矩阵为
这里假设已知属性信息占比10%,而实际的占比需要通过交叉验证法来求,使结果的RMSE最低。
下面,根据已求出的基于行为数据的物品和物品之间的相似度矩阵sim_log和基于特征数据的物品和物品之间的补足白噪声的相似度矩阵sim_tag’,基于贝叶斯公式17,将相似度进行综合。其中,加了白噪声的基于特征的相似度矩阵sim_tag'是先验信息(即式子中的sim′(bi,bj)),基于行为数据的物品和物品之间的相似度矩阵sim_log是条件信息(即式子中的sim″′(bj,bi))。所以综合如下:
贝叶斯的分子部分矩阵为矩阵sim_tag'点乘矩阵(sim_log)T,并对上述矩阵点乘结果进行归一化得到综合了基于行为数据的相似度和基于特征数据的相似度的相似度矩阵,并进行归一化,得到归一化后的贝叶斯相似矩阵sim_BAYES,矩阵sim_BAYES为:
以下求推荐矩阵,首先为基于用户和物品之间的关系矩阵log_a求出用户对物品的偏好的归一化矩阵、即用户对物品的概率矩阵A为
将用户与物品的概率矩阵A和上述矩阵sim_BAYES的乘积,即得到以下推荐矩阵BAYES:
在上述log数据是训练数据的情况下,另外还有测试数据,来验证推荐的效果。如测试数据为:
物品1 物品2 物品3
用户1 0 1 0
用户2 1 1 0
用户3 1 0 0
则测试数据矩阵test为:
对test矩阵进行归一化,得到归一化后的矩阵TEST:
利用标准最小错误率均方误差准则,对推荐结果进行评测。
这里的误差准则定义如下:
式18
式18中的sim(Item_ai,Item_bj)表示测试数据中用户对物品的操作次数,表示基于上述推荐方法的向用户Item_ai推荐Item_bj的概率,n表示用户的行为数据的个数,err表示最小错误率均方误差。
根据式18首先计算测试数据矩阵Test和推荐矩阵BESYS的差,得到以下矩阵mse:
进一步基于公式计算矩阵mse与自身矩阵的点乘为矩阵mse’:
上述计算即计算出式18中的测试数据矩阵与推荐矩阵的差的平方,接着基于式18对矩阵mse’求和在求平均,并对所得到值开方得到err=0.3569。
这里可以对基于特征数据的物品和物品之间相似度的白噪声补偿中的白噪声比例、或者与时间相关函数中的系数重新进行设置,反复通过式18调试,交叉验证,求出使该式所得的值满足小于预定值或者成为最小的值。
在上述介绍了基于式1和式14的相似度度量方法、相似度增强方法、对行为数据和特征数据的各自的白噪声补偿方法、对基于行为数据的相似度和基于特征数据的相似度的贝叶斯综合方法、以及最终得到推荐结果的方法进行了说明。
将通过上述得到的贝叶斯相似矩阵,作为先验相似性,用户对该相似性推荐结果会做出具体的行为。将针对该具体的行为的、用户对物品的行为数据补全白噪声,之后,利用以上的方法计算得到相似矩阵,作为条件相似性,再次利用贝叶斯公式来进行计算,修正最终的相似性产生结果,从而形成闭环一个负反馈系统。
根据上述,本发明的推荐方法可参考图15来进行说明。如图15的步骤S151所示,首先执行数据获取步骤,获取关于用户的行为数据以及物品的特征数据。如步骤S152所示,执行相似度计算步骤,利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵。这里,在计算基于行为数据的物品和物品之间的相似度矩阵时,首先对行为数据进行白噪声补偿,之后,计算出基于行为数据的物品和物品之间的相似度矩阵,并对该相似度矩阵进行增强运算,得到增强相似度矩阵。其中,这里的白噪声补偿以及增强相似度的运算根据情况也可以省略。而对于特征数据,首先利用特征数据计算出基于所述特征数据的物品和物品之间的相似度矩阵,并对所述相似度矩阵进行基于特征数据的白噪声补偿,得到补偿了白噪声的相似度矩阵。利用贝叶斯公式将上述基于特征的补偿了白噪声的相似度矩阵和基于行为数据的增强相似度矩阵进行综合,得到贝叶斯相似度矩阵。在步骤S153中,执行推荐矩阵计算步骤,利用用户的行为数据生成的用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵。另一方面将所得到的贝叶斯相似度矩阵作为先验相似度矩阵,将用户根据推荐矩阵进行操作而得到的行为数据的物品与物品的相似度矩阵作为条件矩阵,利用贝叶斯公式继续求相似度,以修正相似度结果,从而实现一个基于相似度进行推荐的负反馈方法以及系统。
图16示出本发明的推荐系统的框图。推荐系统160包括数据获取单元161,其获取关于用户的行为数据以及物品的特征数据;相似度计算单元162,其利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;推荐矩阵计算单元163,其利用用户的行为数据生成的用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵。
另外,以上推荐方法所涉及的各个步骤也可以通过硬件构成的各个单元来实现。
在上述中我们一直以计算物品和物品之间的相似度来得到推荐结果进行举例,但也同样适用于利用用户和用户之间的相似度来得到推荐结果。即首先获取用户的行为数据以及用户的特征数据,基于上述的方法我们可以计算出基于行为数据的用户和用户之间的相似度,也可以计算出基于特征数据的用户和用户之间的相似度,将两者利用贝叶斯公式进行综合,从而得到综合了用户的行为数据和特征数据的、用户和用户之间的贝叶斯相似度的贝叶斯综合矩阵,利用物品与用户之间的关系矩阵与所得到的贝叶斯综合矩阵相乘进而得到推荐矩阵。同样地,上述的关于行为数据和特征数据的白噪声补偿方法与增强相似度的方法也能应用于基于用户和用户的相似度计算的推荐方法以及系统中。
根据本发明的推荐方法以及系统能够对基于行为数据的相似度和基于特征数据的相似度进行有效的综合,并对所得的相似度结果不断地进行修正,因此能够得到更为准确的推荐结果。本领域技术人员将理解,还存在可用于实现本发明实施例的更多可选实施方式和改进方式,并且上述实施方式和示例仅是一个或多个实施例的说明。
根据上述,本发明提供了一种推荐方法以及系统。本发明不限于上述的实施例,只要在该技术构思的范围内,均包含在本发明的范围中。

Claims (16)

1.一种推荐方法,其特征在于,包括以下步骤:
数据获取步骤,获取关于用户的行为数据以及物品的特征数据;
相似度计算步骤,利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;
推荐矩阵计算步骤,利用所述用户的行为数据生成用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵;
所述相似度计算步骤包括以下步骤:
基于行为数据的相似度计算步骤,计算基于行为数据的物品和物品之间的相似度;
基于特征数据的相似度计算步骤,计算基于特征数据的物品和物品之间的相似度;以及
相似度综合步骤,将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,来得到贝叶斯相似度矩阵,
<mrow> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&amp;Sigma;</mi> <mi>j</mi> </munder> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,bi、bj表示物品集合中的物品,下标变量i和j为集合中元素的标号,先验概率密度sim'(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim”(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim”'(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
2.根据权利要求1所述的推荐方法,其特征在于,
在所述基于行为数据的相似度计算步骤中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim”(bj,bi)的计算,以生成相似度矩阵,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>*</mo> <munder> <mi>&amp;Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,m,n表示集合中元素的标号,k是归一化因子。
3.根据权利要求2所述的推荐方法,其特征在于,
将所述相似度矩阵作为输入矩阵,利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
4.根据权利要求1所述的推荐方法,其特征在于,
在计算基于行为数据的相似度之前还包括白噪声补偿步骤:将用户对物品操作的次数低于预定次数的用户补充至预定次数。
5.根据权利要求1至4中任一项所述的推荐方法,其特征在于,
在所述基于特征数据的相似度计算步骤中,利用所获取物品集合中的物品b和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim'(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>*</mo> <munder> <mi>&amp;Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,m,n表示集合中元素的标号,k是归一化因子。
6.根据权利要求5所述的推荐方法,其特征在于,
还包括基于特征数据的相似度的白噪声补偿步骤:针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
7.根据权利要求6所述的推荐方法,其特征在于,
还包括最小误差评测步骤,利用训练数据对所述推荐矩阵根据标准最小错误率均方误差准则进行评测,修改所述白噪声补偿步骤中的所述预定比例来使误差小于一定值。
8.根据权利要求6所述的推荐方法,其特征在于,
还包括以下步骤:
获取用户基于所述推荐矩阵而进行的用户对物品的操作的行为数据;
对该行为数据进行白噪声补偿,将用户对物品操作的次数低于预定次数的用户补充至预定次数;
将所述贝叶斯相似度矩阵作为先验相似度,将基于进行了白噪声补偿的行为数据而得到的物品和物品之间的相似度矩阵作为条件相似度,再次利用贝叶斯公式进行相似度计算,从而得到修正的相似度矩阵。
9.一种推荐系统,其特征在于,包括:
数据获取单元,其获取关于用户的行为数据以及物品的特征数据;
相似度计算单元,其利用所获取的所述行为数据和特征数据获取物品和物品之间的相似度矩阵;
推荐矩阵计算单元,其利用所述用户的行为数据生成用户对物品的概率矩阵,并将所述概率矩阵与所述相似度矩阵相乘来获取推荐矩阵;
所述相似度计算单元包括以下单元:
基于行为数据的相似度计算单元,其计算基于行为数据的物品和物品之间的相似度;
基于特征数据的相似度计算单元,其计算基于特征数据的物品和物品之间的相似度;以及
相似度综合单元,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,来得到贝叶斯相似度矩阵,
<mrow> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&amp;Sigma;</mi> <mi>j</mi> </munder> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,bi、bj表示物品集合中的物品,下标变量i和j为集合中元素的标号,先验概率密度sim'(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim”(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim”'(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
10.根据权利要求9所述的推荐系统,其特征在于,
所述基于行为数据的相似度计算单元利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim”(bj,bi)的计算,以生成相似度矩阵,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>sim</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>*</mo> <munder> <mi>&amp;Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,m,n表示集合中元素的标号,k是归一化因子。
11.根据权利要求10所述的推荐系统,其特征在于,
还包括相似度增强单元,其将所述相似度矩阵作为输入矩阵,利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
12.根据权利要求9所述的推荐系统,其特征在于,
还包括白噪声补偿单元,在计算基于行为数据的相似度之前,所述白噪声补偿单元将用户对物品操作的次数低于预定次数的用户补充至预定次数。
13.根据权利要求9至12中任一项所述的推荐系统,其特征在于,
所述基于特征数据的相似度计算单元利用所获取物品集合中的物品b和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim'(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>sim</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>*</mo> <munder> <mi>&amp;Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mo>&amp;Sigma;</mo> <mi>n</mi> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,m,n表示集合中元素的标号,k是归一化因子。
14.根据权利要求13所述的推荐系统,其特征在于,
还包括基于特征数据的相似度的白噪声补偿单元,其针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
15.根据权利要求14所述的推荐系统,其特征在于,
还包括最小误差评测单元,所述最小误差评测单元利用训练数据对所述推荐矩阵根据标准最小错误率均方误差准则进行评测,修改所述白噪声补偿步骤中的所述预定比例来使误差小于一定值。
16.根据权利要求14所述的推荐系统,其特征在于,
所述数据获取单元获取用户基于所述推荐矩阵而进行的用户对物品的操作的行为数据;
所述白噪声补偿单元对该行为数据进行白噪声补偿,将用户对物品操作的次数低于预定次数的用户补充至预定次数;
所述相似度综合单元被输入所述贝叶斯相似度矩阵作为先验相似度,并被输入基于进行了白噪声补偿的行为数据而得到的物品和物品之间的相似度矩阵作为条件相似度,所述相似度综合单元再次利用贝叶斯公式进行相似度计算,从而得到修正的相似度矩阵。
CN201410267183.3A 2014-06-16 2014-06-16 一种推荐方法以及系统 Active CN104063589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410267183.3A CN104063589B (zh) 2014-06-16 2014-06-16 一种推荐方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410267183.3A CN104063589B (zh) 2014-06-16 2014-06-16 一种推荐方法以及系统

Publications (2)

Publication Number Publication Date
CN104063589A CN104063589A (zh) 2014-09-24
CN104063589B true CN104063589B (zh) 2018-01-16

Family

ID=51551299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410267183.3A Active CN104063589B (zh) 2014-06-16 2014-06-16 一种推荐方法以及系统

Country Status (1)

Country Link
CN (1) CN104063589B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346476B (zh) * 2014-11-20 2017-07-04 西安电子科技大学 基于物品相似度和网络结构的个性化物品推荐方法
CN106959949B (zh) * 2016-01-08 2019-08-20 中国科学院声学研究所 一种用于推荐系统的数据结构化处理方法
CN106959966A (zh) * 2016-01-12 2017-07-18 腾讯科技(深圳)有限公司 一种信息推荐方法及系统
CN108429865B (zh) * 2017-02-13 2020-10-16 中国移动通信集团广东有限公司 一种产品推荐处理方法及装置
CN106991193B (zh) * 2017-04-26 2020-03-13 努比亚技术有限公司 获取物品相似度的方法及终端、计算机可读存储介质
CN107239993B (zh) * 2017-05-24 2020-11-24 海南大学 一种基于拓展标签的矩阵分解推荐方法及系统
CN108022150B (zh) * 2017-11-29 2021-07-06 金色家园网络科技有限公司 基于o2o数据的推荐方法和系统
CN107967627A (zh) * 2017-12-05 2018-04-27 北京工业大学 一种基于内容的线性回归理财产品推荐方法
CN109753563B (zh) * 2019-03-28 2019-09-10 深圳市酷开网络科技有限公司 基于大数据的标签提取方法、装置及计算机可读存储介质
CN110415076A (zh) * 2019-07-11 2019-11-05 广东奥园奥买家电子商务有限公司 一种基于用户行为数据的商品推荐方法及装置
CN112866037A (zh) * 2021-03-02 2021-05-28 中国科学院重庆绿色智能技术研究院 基于后邻域正则化的联网服务质量隐特征提取装置与方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法
CN102915307A (zh) * 2011-08-02 2013-02-06 腾讯科技(深圳)有限公司 一种个性化信息推荐的方法、装置及信息处理系统
CN103116639A (zh) * 2013-02-20 2013-05-22 新浪网技术(中国)有限公司 基于用户-物品二分图模型的物品推荐方法及系统
CN103309972A (zh) * 2013-06-08 2013-09-18 清华大学 基于链路预测的推荐方法和系统
CN103400286A (zh) * 2013-08-02 2013-11-20 世纪禾光科技发展(北京)有限公司 一种基于用户行为进行物品特征标注的推荐系统及方法
CN103514239A (zh) * 2012-11-26 2014-01-15 Tcl美国研究所 一种集成用户行为和物品内容的推荐方法及系统
CN103559622A (zh) * 2013-07-31 2014-02-05 焦点科技股份有限公司 基于特征的协同过滤推荐方法
CN103700007A (zh) * 2013-12-18 2014-04-02 东软集团股份有限公司 基于物品的推荐方法及系统
CN103745100A (zh) * 2013-12-27 2014-04-23 浙江大学 一种基于项目的混合显性隐性反馈的协同过滤推荐算法
CN103744966A (zh) * 2014-01-07 2014-04-23 Tcl集团股份有限公司 一种物品推荐方法、装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法
CN102915307A (zh) * 2011-08-02 2013-02-06 腾讯科技(深圳)有限公司 一种个性化信息推荐的方法、装置及信息处理系统
CN103514239A (zh) * 2012-11-26 2014-01-15 Tcl美国研究所 一种集成用户行为和物品内容的推荐方法及系统
CN103116639A (zh) * 2013-02-20 2013-05-22 新浪网技术(中国)有限公司 基于用户-物品二分图模型的物品推荐方法及系统
CN103309972A (zh) * 2013-06-08 2013-09-18 清华大学 基于链路预测的推荐方法和系统
CN103559622A (zh) * 2013-07-31 2014-02-05 焦点科技股份有限公司 基于特征的协同过滤推荐方法
CN103400286A (zh) * 2013-08-02 2013-11-20 世纪禾光科技发展(北京)有限公司 一种基于用户行为进行物品特征标注的推荐系统及方法
CN103700007A (zh) * 2013-12-18 2014-04-02 东软集团股份有限公司 基于物品的推荐方法及系统
CN103745100A (zh) * 2013-12-27 2014-04-23 浙江大学 一种基于项目的混合显性隐性反馈的协同过滤推荐算法
CN103744966A (zh) * 2014-01-07 2014-04-23 Tcl集团股份有限公司 一种物品推荐方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置
CN107123032B (zh) * 2017-05-02 2020-11-13 北京邮电大学 一种物品推荐方法及装置

Also Published As

Publication number Publication date
CN104063589A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104063589B (zh) 一种推荐方法以及系统
Bag et al. An efficient recommendation generation using relevant Jaccard similarity
Aditya et al. A comparative analysis of memory-based and model-based collaborative filtering on the implementation of recommender system for E-commerce in Indonesia: A case study PT X
Bauer et al. Recommender systems based on quantitative implicit customer feedback
Chen et al. An enhanced ordered weighted averaging operators generation algorithm with applications for multicriteria decision making
Emvalomatis et al. A reduced‐form model for dynamic efficiency measurement: Application to dairy farms in Germany and the Netherlands
Zhang et al. Collaborative filtering for recommender systems
Giering Retail sales prediction and item recommendations using customer demographics at store level
CN106682114A (zh) 一种融合用户信任关系和评论信息的个性化推荐方法
Cho et al. A loss function approach to group preference aggregation in the AHP
Wang et al. Robust tree-based causal inference for complex ad effectiveness analysis
Dotson et al. A probit model with structured covariance for similarity effects and source of volume calculations
CN103744917B (zh) 混合推荐方法及系统
CN109102127A (zh) 商品推荐方法及装置
CN104063445B (zh) 一种相似性度量的方法以及系统
CN103514255A (zh) 一种基于项目层次类别的协同过滤推荐方法
CN104111969B (zh) 一种相似性度量的方法以及系统
Ivanova et al. How can online marketplaces reduce rating manipulation? A new approach on dynamic aggregation of online ratings
Gower Netflix prize and SVD
CN108053050A (zh) 点击率预估方法、装置、计算设备及存储介质
Chan et al. Continuous model selection for large-scale recommender systems
Ciavolino et al. The GME estimator for the regression model with a composite indicator as explanatory variable
Cho et al. Structured factor analysis: A data matrix-based alternative approach to structural equation modeling
Shi The application of machine learning in online purchasing intention prediction
Bacon et al. Augmenting discrete-choice data to identify common preference scales for inter-subject analyses

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant