CN104111969A - 一种相似性度量的方法以及系统 - Google Patents

一种相似性度量的方法以及系统 Download PDF

Info

Publication number
CN104111969A
CN104111969A CN201410244546.1A CN201410244546A CN104111969A CN 104111969 A CN104111969 A CN 104111969A CN 201410244546 A CN201410244546 A CN 201410244546A CN 104111969 A CN104111969 A CN 104111969A
Authority
CN
China
Prior art keywords
article
user
matrix
probability
respect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410244546.1A
Other languages
English (en)
Other versions
CN104111969B (zh
Inventor
朱宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Mobile Network Technology (beijing) Co Ltd
Original Assignee
Baidu Mobile Network Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Mobile Network Technology (beijing) Co Ltd filed Critical Baidu Mobile Network Technology (beijing) Co Ltd
Priority to CN201410244546.1A priority Critical patent/CN104111969B/zh
Publication of CN104111969A publication Critical patent/CN104111969A/zh
Application granted granted Critical
Publication of CN104111969B publication Critical patent/CN104111969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Abstract

本发明涉及一种相似性度量的方法以及系统。所述相似性度量方法包括:收集用户访问物品的行为并获取用户、物品、以及用户对物品的操作行为的数据;对获取的数据进行分析以建立用户与物品之间交互关系矩阵;根据所述用户与物品之间交互关系矩阵,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;根据所述用户与物品之间交互关系矩阵,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。

Description

一种相似性度量的方法以及系统
技术领域
本发明涉及信息处理领域,特别涉及信息处理领域中的相似性度量的方法以及系统。
背景技术
当前,在众多领域、例如互联网行业等均涉及相似性度量,并基于各种已有的相似性度量方法进行相似性分析。
例如在个性化推荐领域等,服务器收集并存储了用户及其操作对象的大量数据,需要根据用户已进行的操作向用户推荐用户可能感兴趣的相关操作对象,在推荐的过程中需要计算出要推荐的操作对象与用户进行操作的操作对象的相似度,以将相似度高的操作对象推荐给用户。这里,在相似性度量方法上,大体上存在以下几种。
基于物体属性向量已知条件下的相似性度量方法。该相似性度量方法,依据物体属性已知的情况,计算物体属性向量在某种意义下的距离,作为物体与物体之间的相似性度量。例如:欧几里得距离、马氏距离、米科夫斯基距离、汉明距离、jaccard系数、皮尔逊相关系数、余弦相似度等。该类相似性度量方法的明显特点是,在该相似度计算公式中有物体的属性向量值。这种相似性度量方法需要已知物体的属性向量,对于隐性属性的物体难以计算相似度。
基于关联关系的相似性度量方法。该相似性度量方法,是寻找物体与物体之间的关联,再通过某种规则定义出一种关联的程度,进而作为物体与物体之间的相似性度量。如:关联相似度、基于图的相似度、基于RandomWalk的相似性度量方法等。这类相似性度量方法的缺点在于其关联含义的解释较为困难。
基于统计的相似性度量方法。该方法与关联关系的相似性度量方法不同,关联关系的相似性度量方法是已知物体与物体之间关联的明确情况。而基于统计的相似性度量方法,基于统计学中的概率。如某个物体和另外一个物体发生某种关联的概率。同样在某些时候,也需要关联的定义,甚至物体属性向量的相似度定义。这类相似性度量方法的明显特点在于,其已知的是物体和物体之间关联的统计结果。
在上述以往的相关性度量方法中,存在以下几个问题。
首先,基于属性向量的相似性度量方法需要知道相比较的两个对象的属性向量,即需要属性向量已知,对于未知属性向量的情况下,无法进行相似性的判断。
其次,存在准确度低的问题。例如在使用余弦相似度度量方法的情况下,如果各属性向量是不独立、即不正交的情况下,其计算出的相似度是不准确的。例如在对象Aa的属性向量是{x1,y1,z1},对象Bb的属性向量是{x2,y2,z2},在上述属性之间相关的情况下、即不正交的情况下,其计算出的相似度准确度低,存在大量的信息损失。
另外,存在计算复杂度高的问题。基于关联关系的相似性度量方法以及基于统计的相似性度量方法需要寻找比较对象之间关联,其过程比较复杂,导致相似度计算的难度较大。
发明内容
本发明就是鉴于现有技术中相似度度量的方法存在的各种问题而做出的,本发明其目的在于提供一种在未知物体属性向量的情况下定义和计算出最佳相似度的相似性度量的方法和系统。
一种相似性度量方法,其特征在于,收集用户访问物品的行为以获取用户、物品、以及用户对物品的操作行为的数据;对获取的数据进行分析以建立用户与物品之间交互关系矩阵;根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。
一种相似性度量系统,其特征在于,包括:数据收集单元,所述数据收集单元收集用户访问物品的行为,并获取用户、物品、以及用户对物品的操作行为的数据;数学模型建立单元,所述数学模型建立单元对获取的数据进行分析,建立用户与物品之间交互关系矩阵;概率矩阵生成单元,根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;相似度计算单元,所述相似度计算单元计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。
根据本发明的相似性度量方法以及系统能够在比较对象的属性向量未知的情况下,更准确地计算出比较对象之间的相似度,有利于隐性属性的比较对象的相似度的分析。
附图说明
图1示出实施例1的相似性度量方法的流程图;
图2示出实施例2的相似性度量方法的流程图;
图3是示出相似性度量系统的框图。
具体实施方式
在个性化推荐的过程中,对于已知用户、物品、以及用户对物品的操作历史的情况,如何能够在未知用户和物品的属性向量的情况下计算出用户和用户、或者物品和物品之间的相似度。
下面,首先对本发明给出一种新的相似性定义进行介绍。
物体可以用n维属性向量描述,物体a的属性向量为[a[1],a[2],a[3],……,a[n]],物体b的属性向量为[b[1],b[2],b[3],……,b[n]],sim(a,b)表示物体a和物体b的在给定权重为k和方差向量为[δ2[1],δ2[2],δ2[3],……,δ2[n]]情况下的相似度值。
sim ( a , b ) = k · Π i = 0 i = n 1 2 π δ [ i ] e ( - ( a [ i ] - b [ i ] ) 2 2 δ [ i ] 2 )   式1
例如在仅具有一个属性,且属性向量值服从在负无穷大到正无穷大上的均匀分布的情况下,物体a和物体b的相似度为属性值变量x服从N(a[1],δ[1]2)正态分布时的在b[1]处概率密度值。虽然上述属性向量未知,无法通过正态分布公式直接计算出概率密度值,但是根据已有的操作历史数据能够计算出概率密度值。在未知属性向量的情况下,利用正态分布卷积运算时仍然服从正态分布的良好特性来建立物体之间的关联,从而利用能够求出的概率密度值来求出相似性。因此该相似度定义对于隐藏属性的物品或用户的相似性分析有用。
在物体属性向量已知的条件下,带入向量值,即可得到相似度结果。
对于未知物体属性向量的情况,我们列举了以下例子。
实施例1
首先以连续的情况为例。对于连续情况,给定权重都为1。例举了网络书城的图书推荐,参考图1对相似性度量方法进行说明。首先,如步骤S1所示,服务器收集网络书城的所有用户信息和所有图书信息、以及用户对图书进行点击阅读的所有历史数据。将网络书城所有图书的集合设为集合M(m1,m2,……),将所有用户的集合设为集合N(n1,n2,……),假设在集合M和集合N中的元素所具有的属性值满足正无穷大到负无穷大下均匀分布。下面我们介绍在不知道图书的任何属性信息、也不知道用户的任何属性信息的情况下,如何根据用户对图书进行操作的历史数据来得到用户与用户之间的相似度。
现在假设用户集合N中用户n1希望看到的图书是图书m1,图书m1具有一个属性,属性值为μ。用户集合中其他某一个用户n2希望看到图书m2,图书m2具有属性值为x,则该用户n1希望看到的图书m1与其他某一个用户n2希望看到的图书m2之间的相似度,即用户与用户之间的相似度f0(x),可以依据上述定义得到式2。
f 0 ( x ) = 1 2 π δ e ( - ( x - u ) 2 2 δ 2 )   式2
但是,实际上我们不知道用户希望看到的图书m1和m2的属性值,当然也就不知道用户n1希望看到的图书m1和其他某一个用户n2希望看到的图书m2之间的相似度。然而我们根据用户对图书的操作历史,知道用户n1实际对图书m3进行了点击阅读,并能够计算出用户n1对图书m3的点击次数相对于该用户对所有图书的点击次数的概率D1。由于用户n1实际操作的图书是图书m3,设图书m3的属性值是y,那么用户n1希望看到的图书m1应该与图书m3相似。
如果将用户n1对图书m3的点击阅读视为一次测量,将用户n1希望看到的图书m1的属性值μ作为被测量值,将用户n1实际看到的图书m3的属性值作为测量值,将所有图书的属性值构成测量值域,如果图书的属性值无穷多,且满足大小在负无穷大到正无穷大的均匀分布,则测量得到的样本均值、即实际物品属性均值与被测量值满足极大似然估计,测量得到的样本值结果满足以被测量值μ为期望,以某未知方差为方差的正态分布。即,将样本所在值对应的概率密度值作为该样本值与实际被测量值的相似度。根据上述,使用用户n1实际读取的图书m3的属性值y去测量用户n1希望读取的图书m1的属性值μ,则图书m3的概率密度g(y)为式3。
g ( x ) = 1 2 π δ e ( - ( y - u ) 2 2 δ 2 )   式3
g(y)是如上所述能够根据操作历史数据计算出的概率密度值。即,如步骤S2所示,根据历史记录,计算用户n1点击图书m3的次数相对于用户n1对所有图书的点击次数的概率g(y)。
同理,如果已知某些用户点击读取了图书m3,则对于用户n1来说,用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率是已知的,即能够计算出用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率D2。同理,使用用户n2希望读取的图书m2的属性值x去测量用户n1实际读取的图书m3的属性值y,其概率密度分布z(x)也满足类似的公式(4)。
z ( x ) = 1 2 π δ e ( - ( x - y ) 2 2 δ 2 )   式4
z(x)是如上所述也能够根据操作历史数据计算出的概率密度值。即,如步骤S3所示,根据历史记录,计算用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率z(x)。
现在通过一种运算将属性值x和u关联起来,对g(y)和z(x)进行卷积运算,来获取和f0(x)近似的表达式。将新的积分的结果命名f(x),以和f0(x)区别,则f(x)为式5。
f ( x ) = ∫ - ∞ + ∞ g ( y ) · z ( x ) dy = ∫ - ∞ + ∞ 1 2 π δ e ( - ( y - u ) 2 2 δ 2 ) · 1 2 π δ e ( - ( x - y ) 2 2 δ 2 ) dy   式5
即,如步骤S4所示,计算g(y)与z(x)的卷积,根据上述的式5,由于g(y)和z(x)已知,因此能够得到f(x)的值。f(x)为图书m1和图书m2的相似度,即该用户n1喜欢看的书与其他某一个用户n2喜欢看的书的相似度,即用户n1与用户n2之间的相似度。由于在上述中g(y)和z(x)的概率密度D1和D2通过对用户历史行为数据进行统计可以计算出,因此相似度sim(x,u)=f(x),因此在未知图书m1和图书m2的属性向量的情况下,得到了它们的相似度值,即得到用户与用户之间的相似度。
同理,计算z(x)与g(y)的卷积,能够得到图书和图书之间的相似度。
另外,通过对式5进行推导计算,可以得到式6,这里忽略了推导过程。
f ( x ) = 1 2 π 2 δ e ( - ( x - u ) 2 2 ( 2 δ ) 2 )   式6
根据进一步推导出来的式6,可知f(x)满足式1的相似性度量方法,对比式6和式2,f(x)和f0(x)形式一致,给定方差变成2δ2
对于属性个数不为1的情况,可以将上述过程看做是对很多独立属性联合分布密度的统计。服从正态分布的独立随机变量的卷积,其方差为每个正态分布的方差的和。如果依据式2所得给定的方差为(δ1 2,δ2 2,δ3 2,…),其中括号中的各个方差表示每个独立属性的统计方差,那么由于属性独立,可以推导得到给定的方差为(2δ1 2,2δ2 2,2δ3 2,…)的相似度。
另外以上推导须满足集合M、N服从负无穷大到正无穷大之间的均匀分布的假设,和集合M、N中元素的属性值保持不变的假设。但在具体情况下,都可以利用该基本原理和方法,计算出符合定义的相似度结果。
实施例1给出了连续情况的一个例子,下面对应连续情况下的相似性度量方法,对离散情况下的相似性度量方法进行介绍。
实施例2
以在网络购物中为了向用户推荐物品而计算用户和用户、或物品和物品之间的相似度为例,参考图2进行以下说明。首先,如图2的步骤S11所示,服务器根据用户的登录注册、网站所销售的物品、以及用户对物品的操作情况进行信息的收集,即所收集的信息包括用户、物品、以及用户和物品之间的交互情况,以获取用户、物品、以及用户对物品的操作的数据。服务器对上述信息进行分析,一个是用户集合User,一个是物品集合Item,以及用户对物品的操作记录。这里每次用户对物品的操作相互独立,每次操作表达含义相同,都表达了用户对物品感兴趣。表1示出现有的用户集合User和物品集合Item之间的交互情况。aij表示用户i对物品j的操作次数,i表示用户标号,j表示物品标号,i、j均为整数。例如用户User1对物品Item1的操作次数是a11次,用户User1对物品Item2的操作次数是a12次,用户User1对物品Item3的操作次数是a13次,用户User1对物品Item4的操作次数是a14次,依次类推,假设物品Item4没有被任何用户进行过操作,则a14=a24=a34=a44=0,假设用户User4没有对任何物品进行过操作,则a41=a42=a43=a44=0。
表1
Item1 Item2 Item3 Item4
User1 a11 a12 a13 a14
User2 a21 a22 a23 a24
User3 a31 a32 a33 a34
User4 a41 a42 a43 a44
在步骤S12中,对上述获得的数据建立数学模型形成矩阵,利用矩阵来表达上述表1,得到如下矩阵A。
矩阵A
a 11 a 12 a 13 a 14 a 21 a 22 a 23 a 24 a 31 a 32 a 33 a 34 a 41 a 42 a 43 a 44
如图2的步骤S13所示计算物品相对于用户的概率矩阵。首先,针对矩阵A以用户为行,依次将各物品被该用户的操作次数,除以该用户进行过的操作总次数,得到矩阵B。如果该行对应的用户没有进行任何操作,则矩阵该行取满足元素值都相同且和为1的值。矩阵B可以看做实际物品测量用户希望得到的物品的统计分布,即物品相对于用户的概率矩阵。这里,物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度。
bij表示矩阵B的元素,即表示用户i对物品j操作的次数与该用户i对所有物品进行的操作总次数的比,则如下式7所示,其中k表示所有物品的数量。
b ij = a ij Σ j = 1 k a ij   式7
矩阵B
b 11 b 12 b 13 b 14 b 21 b 22 b 23 b 24 b 31 b 32 b 33 b 34 b 41 b 42 b 43 b 44
矩阵第一行表示:Item1被User1操作的概率是b11,b11=a11/(a11+a12+a13+a14),以下依次类推,Item2被User1操作的概率是b12,Item3被User1操作的概率是b13,Item4被User1操作的概率是b14。矩阵第二行表示:Item1被User2操作的概率是b21,Item2被User2操作的概率是b22,Item3被User2操作的概率是b23,Item4被User2操作的概率是b24。依次类推,假设User4没有进行任何操作,因此该行取各值相同并且和为1的值,即均取b41=b42=b43=b44=0.25。
如图2的步骤S14所示计算用户相对于物品的概率矩阵。针对矩阵A,以物品为列,依次将各用户操作该物品的操作次数,除以该物品被进行过的操作总次数,得到矩阵C,并计算转置矩阵CT。如果该列对应的物品没有被操作过,则矩阵该列取满足元素值都相同且和为1的值。矩阵CT可以看做用户希望得到的物品测量实际物品的统计分布,即用户相对于物品的概率矩阵。这里,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
cii表示矩阵C的元素,即表示物品j被用户i操作的次数与该物品j被所有用户的操作总次数的比,则如下式8所示,其中h表示所有用户的数量。
c ij = a ij Σ i = 1 h a ij   式8
矩阵C
c 11 c 12 c 13 c 14 c 21 c 22 c 23 c 24 c 31 c 32 c 33 c 34 c 41 c 42 c 43 c 44
矩阵CT
c 11 c 21 c 31 c 41 c 12 c 22 c 32 c 42 c 13 c 23 c 33 c 43 c 14 c 24 c 34 c 44
矩阵CT第一行表示:Item1被User1操作的概率是c11,其中,c11=a11/(a11+a21+a31+a41),以下依次类推,Item1被User2操作的概率是c21,Item1被User3操作的概率是c31,Item1被User4操作的概率是c41。矩阵CT第二行表示:Item2被User1操作的概率是c12,依次类推。如果Item4没有被进行任何操作,因此该行取各值相同并且和为1的值,即均取c14=c24=c34=c44=0.25。
在步骤S15中,在计算出上述概率的情况下,对应实施例1取卷积,即,对矩阵B和CT进行相乘得到矩阵D,D=B*CT
dij表示矩阵D的元素,则d11=b11*c11+b12*c12+b13*c13+b14*c14,d12=b11*c21+b12*c22+b13*c23+b14*c24,依次类推。
矩阵D
d 11 d 12 d 13 d 14 d 21 d 22 d 23 d 24 d 31 d 32 d 33 d 34 d 41 d 42 d 43 d 44
该相似度值是在某个未知权值k以及某个未知方差向量下的相似度值,该矩阵D为用户和用户之间的相似度矩阵。例如第一行表示User1和User1的相似度是的d11,User1和User2的相似度是d12,User1和User3的相似度是d13,User1和User4的相似度是d14,同理依此类推。
如果计算矩阵CT*B,则得到物品和物品之间的相似度矩阵E=CT*B。
eij表示矩阵E的元素,则e11=c11*b11+c21*b21+c31*b31+c41*b41,e12=c11*b12+c21*b22+c31*b32+c41*b42,依次类推。
矩阵E
e 11 e 12 e 13 e 14 e 21 e 22 e 23 e 24 e 31 e 32 e 33 e 34 e 41 e 42 e 43 e 44
例如矩阵E第一行表示Item1和Item1的相似度是e11,Item1和Item2的相似度是e12,Item1和Item3的相似度是e13,Item1和Item4的相似度是e14。矩阵E第二行、第三行、第四行依此类推。
在本实施例中,不知道物品的属性,也不知道用户的属性,但是根据正态分布在卷积的情况下仍然服从正态分布的特性,利用用户对物品的操作历史,得到物品相对于用户的概率矩阵以及用户相对于物品的概率矩阵,从而能够计算出用户与用户之间的相似度或者物品和物品的相似度。从而可以依此来向用户推荐物品,提高所推荐的物品被用户的采纳的可能性。
图3示出了一种相似性度量系统300,相似性度量系统包括数据收集单元301、数学模型建立单元302、概率矩阵生成单元303、相似度计算单元304。所述数据收集单元301例如收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。所述数学模型建立单元302建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。所述概率矩阵生成单元303根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵。所述相似性运算单元304计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的转置矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述用户相对于物品的概率矩阵的转置矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
利用了本发明的相似性度量方法所得出的相似性的结果与以往计算相似性的方法在满足假设的条件下相比具有很好的效果。
根据上述利用了正态分布的特性的对相似性的定义,能够在未知属性向量的情况下计算出物品之间或者用户之间的相似度,其应用不限于上述实施例,能够应用于各个未知属性的比较对象之间的相似度计算上。

Claims (8)

1.一种相似性度量方法,其特征在于,包括以下步骤:
收集用户访问物品的行为,并获取用户、物品、以及用户对物品的操作行为的数据;
对获取的数据进行分析以建立用户与物品之间交互关系矩阵;
根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;
根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;
计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。
2.根据权利要求1所述的相似性度量方法,其特征在于,
所述物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
3.根据权利要求1或2所述的相似性度量方法,其特征在于,
在生成所述物品相对于用户的概率矩阵时,以用户为行,依次将各物品被该用户的操作次数除以该用户进行过的操作总次数来得到概率矩阵,如果所述用户没有操作任何物品,则每个物品被所述用户操作的概率取满足元素值都相同且和为1的值,
在生成所述用户相对于物品的概率矩阵时,以物品为列,依次将各用户操作该物品的操作次数除以该物品被进行过的操作总次数来得到概率矩阵,如果该列对应的物品没有被操作过,则矩阵该列取满足元素值都相同且和为1的值,并计算所得到的概率矩阵的转置矩阵作为所述用户相对于物品的概率矩阵。
4.根据权利要求1或2所述的相似性度量方法,其特征在于,
计算所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
5.一种相似性度量系统,其特征在于,包括:
数据收集单元,所述数据收集单元收集用户访问物品的行为并获取用户、物品、以及用户对物品的操作行为的数据;
数学模型建立单元,所述数学模型建立单元对获取的数据进行分析,建立用户与物品之间交互关系矩阵;
概率矩阵生成单元,根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;
相似度计算单元,所述相似度计算单元计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。
6.根据权利要求4所述的相似性度量系统,其特征在于,
所述物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
7.根据权利要求4或5所述的相似性度量方法,其特征在于,
在所述概率矩阵生成单元生成物品相对于用户的概率矩阵时,以用户为行,依次将各物品被该用户的操作次数除以该用户进行过的操作总次数来得到概率矩阵,如果所述用户没有操作任何物品,则每个物品被所述用户操作的概率取满足元素值都相同且和为1的值,
在所述概率矩阵生成单元生成用户相对于物品的概率矩阵时,以物品为列,依次将各用户操作该物品的操作次数除以该物品被进行过的操作总次数来得到概率矩阵,如果该列对应的物品没有被操作过,则矩阵该列取满足元素值都相同且和为1的值,并计算所得到的概率矩阵的转置矩阵作为所述用户相对于物品的概率矩阵。
8.根据权利要求4或5所述的相似性度量方法,其特征在于,
所述相似度计算单元计算所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
CN201410244546.1A 2014-06-04 2014-06-04 一种相似性度量的方法以及系统 Active CN104111969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410244546.1A CN104111969B (zh) 2014-06-04 2014-06-04 一种相似性度量的方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410244546.1A CN104111969B (zh) 2014-06-04 2014-06-04 一种相似性度量的方法以及系统

Publications (2)

Publication Number Publication Date
CN104111969A true CN104111969A (zh) 2014-10-22
CN104111969B CN104111969B (zh) 2017-06-20

Family

ID=51708762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410244546.1A Active CN104111969B (zh) 2014-06-04 2014-06-04 一种相似性度量的方法以及系统

Country Status (1)

Country Link
CN (1) CN104111969B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统
WO2017186106A1 (zh) * 2016-04-29 2017-11-02 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法
CN110321486A (zh) * 2019-06-28 2019-10-11 北京科技大学 一种网络商城的推荐方法和装置
CN114544410A (zh) * 2022-04-24 2022-05-27 南通重矿金属新材料有限公司 一种多功能摩擦磨损调试实验平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173746A1 (en) * 2005-01-18 2006-08-03 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
US20110302155A1 (en) * 2010-06-03 2011-12-08 Microsoft Corporation Related links recommendation
CN103093376A (zh) * 2013-01-16 2013-05-08 北京邮电大学 基于奇异值分解算法的聚类协同过滤推荐系统
CN103412908A (zh) * 2013-08-01 2013-11-27 西北工业大学 一种基于相似性矩阵融合的音频数据检索方法
CN103440269A (zh) * 2013-08-01 2013-12-11 西北工业大学 一种基于相互学习的视频数据检索方法
CN103678329A (zh) * 2012-09-04 2014-03-26 中兴通讯股份有限公司 推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
US20060173746A1 (en) * 2005-01-18 2006-08-03 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs
US20110302155A1 (en) * 2010-06-03 2011-12-08 Microsoft Corporation Related links recommendation
CN103678329A (zh) * 2012-09-04 2014-03-26 中兴通讯股份有限公司 推荐方法及装置
CN103093376A (zh) * 2013-01-16 2013-05-08 北京邮电大学 基于奇异值分解算法的聚类协同过滤推荐系统
CN103412908A (zh) * 2013-08-01 2013-11-27 西北工业大学 一种基于相似性矩阵融合的音频数据检索方法
CN103440269A (zh) * 2013-08-01 2013-12-11 西北工业大学 一种基于相互学习的视频数据检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YAN-NI CHEN ET AL.: ""A Hybrid Collaborative Filtering Algorithm Based on User-Item"", 《2010 INTERNATIONAL CONFERENCE ON COMPUTATIONAL AND INFORMATION SCIENCES》 *
YUEPING WU ET AL.: ""A Collaborative Filtering Recommendation Algorithm Based on Improved Similarity Measure Method"", 《2010 IEEE INTERNATIONAL CONFERENCE ON PROGRESS IN INFORMATICS AND COMPUTINIG》 *
李鹏飞等: ""基于混合模型推荐算法的优化"", 《计算机科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统
CN104537118B (zh) * 2015-01-26 2017-12-26 苏州大学 一种微博数据处理方法、装置及系统
WO2017186106A1 (zh) * 2016-04-29 2017-11-02 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
US11394798B2 (en) 2016-04-29 2022-07-19 Tencent Technology (Shenzhen) Company Limited User portrait obtaining method, apparatus, and storage medium according to user behavior log records on features of articles
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法
CN110010196B (zh) * 2019-03-19 2020-11-06 北京工业大学 一种基于异质网的基因相似性搜索方法
CN110321486A (zh) * 2019-06-28 2019-10-11 北京科技大学 一种网络商城的推荐方法和装置
CN110321486B (zh) * 2019-06-28 2021-08-03 北京科技大学 一种网络商城的推荐方法和装置
CN114544410A (zh) * 2022-04-24 2022-05-27 南通重矿金属新材料有限公司 一种多功能摩擦磨损调试实验平台
CN114544410B (zh) * 2022-04-24 2022-07-12 南通重矿金属新材料有限公司 一种多功能摩擦磨损调试实验平台

Also Published As

Publication number Publication date
CN104111969B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
Bag et al. An efficient recommendation generation using relevant Jaccard similarity
US11816120B2 (en) Extracting seasonal, level, and spike components from a time series of metrics data
Sellers et al. The COM‐Poisson model for count data: a survey of methods and applications
CN104111969A (zh) 一种相似性度量的方法以及系统
CN102542003B (zh) 用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型
Zhang et al. Enabling kernel-based attribute-aware matrix factorization for rating prediction
US20140108431A1 (en) Correlated information recommendation
CN107464132B (zh) 一种相似用户挖掘方法及装置,电子设备
Slud et al. Mean-squared error estimation in transformed Fay–Herriot models
CN104063589A (zh) 一种推荐方法以及系统
Sun et al. Causal inference via sparse additive models with application to online advertising
CN105469263A (zh) 一种商品推荐方法及装置
US20150356194A1 (en) Systems and methods for trend aware self-correcting entity relationship extraction
CN106504011A (zh) 一种业务对象的展示方法和装置
WO2018232331A1 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
CN104063445B (zh) 一种相似性度量的方法以及系统
Debelak et al. Comparing the effects of different smoothing algorithms on the assessment of dimensionality of ordered categorical items with parallel analysis
CN113065062A (zh) 一种基于用户阅读时间行为的新闻推荐方法及系统
Wu Using a novel approach to assess process performance in the presence of measurement errors
Cho et al. Structured factor analysis: A data matrix-based alternative approach to structural equation modeling
CN110599281A (zh) 一种确定目标店铺的方法和装置
CN107357847B (zh) 数据处理方法及其装置
CN110287373A (zh) 基于评分预测和用户特征的协同过滤电影推荐方法及系统
Källberg et al. Statistical estimation of quadratic Rényi entropy for a stationary m-dependent sequence
CN104077365A (zh) 一种增强相似度关联的相似性度量方法以及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant