CN104077365A - 一种增强相似度关联的相似性度量方法以及系统 - Google Patents
一种增强相似度关联的相似性度量方法以及系统 Download PDFInfo
- Publication number
- CN104077365A CN104077365A CN201410260834.6A CN201410260834A CN104077365A CN 104077365 A CN104077365 A CN 104077365A CN 201410260834 A CN201410260834 A CN 201410260834A CN 104077365 A CN104077365 A CN 104077365A
- Authority
- CN
- China
- Prior art keywords
- item
- similarity
- article
- user
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Heterocyclic Carbon Compounds Containing A Hetero Ring Having Oxygen Or Sulfur (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种增强相似度关联的相似性度量方法以及系统。所述增强相似度关联的相似性度量方法,其特征在于,计算比较对象之间的相似度矩阵;以及针对所述得到的比较对象之间的相似度矩阵与所述相似度矩阵的转置矩阵,利用上述计算所述相似度矩阵的方法进行计算,以得到增强相似度关联的比较对象之间的增强相似度矩阵。
Description
技术领域
本发明涉及信息处理领域,特别涉及信息处理领域中的增强相似性关联的相似性度量的方法以及系统。
背景技术
当前,在众多领域均涉及相似性度量,并基于各种已有的相似性度量方法进行相似性分析。例如在互联网行业等领域所涉及的相似性分析。
例如在个性化推荐领域等,服务器收集存储了用户及其操作对象的大量数据,经常需要根据用户已进行的操作向用户推荐用户可能感兴趣的相关操作对象,在推荐的过程中通常需要计算出要推荐的操作对象与用户进行操作的操作对象的相似度,以将相似度高的操作对象推荐给用户。
在已知物体和物体之间相似度的情况下,对于某个物体,往往需要增强物体之间的关联,得到更多和该物体关联的物体,这对用户来说选择范围变大,被用户接受推荐的可能性也变大。然而,当前主要是依靠变更相似度计算方法来增强相似性关联。这种利用多种相似度计算方法来增强相似性关联的方法存在着准确度低、计算复杂的问题。
发明内容
本发明就是鉴于现有技术中相似度度量的方法存在的问题而做出的,本发明其目的在于提供一种新的增强相似性关联的相似性度量方法和系统。
一种增强相似度关联的相似性度量方法,包括以下步骤:获取比较对象之间的相似度矩阵;以及计算所述得到的比较对象之间的相似度矩阵与其自身转置矩阵的乘积,以得到增强相似度关联的比较对象之间的增强相似度矩阵。
一种增强相似性关联的相似性度量系统,包括:相似性矩阵获取单元,所述相似性矩阵获取单元获取比较对象之间的相似度矩阵;以及相似度增强运算单元,所述相似度增强运算单元针对所述得到的比较对象之间的相似度矩阵所述相似度矩阵的转置矩阵,利用上述计算所述相似度矩阵的方法进行计算,以得到增强相似度关联的比较对象之间的增强相似度矩阵。
根据上述的增强相似性关联的相似性度量方法和系统,能够通过增强相似性关联来扩大比较对象之间的关联范围,并通过方差收回来保持不变的误差。
附图说明
图1示出实施例1的相似性度量方法的流程图;
图2示出实施例2的相似性度量方法的流程图;
图3是示出相似性度量系统的框图;
图4示出实施例1的增强相似性关联的方法的流程图;
图5示出实施例2的增强相似性关联的方法的流程图;
图6示出增强相似性关联的相似性度量系统的框图;
图7示出又一相似性度量方法的流程图;
图8示出又一相似性度量系统的框图。
具体实施方式
关于属性向量值服从均匀分布下的相似度计算
在个性化推荐的过程中,对于已知用户、物品、以及用户对物品的操作历史的情况,如何能够在未知用户和物品的属性向量的情况下计算出用户和用户、或者物品和物品之间的相似度。
下面,本发明给出一种新的相似性定义,首先针对属性向量值服从在负无穷大到正无穷大上的均匀分布的情况进行介绍。
物体可以用n维属性向量描述,物体a的属性向量为[a[1],a[2],a[3],……,a[n]],物体b的属性向量为[b[1],b[2],b[3],……,b[n]],sim(a,b)表示物体a和物体b的在给定权重为k和方差向量为[δ2[1],δ2[2],δ2[3],……,δ2[n]]情况下的相似度值。
例如在仅具有一个属性,且属性向量值服从在负无穷大到正无穷大上的均匀分布的情况下,物体a和物体b的相似度为属性值变量x服从N(a[1],δ[1]2)正态分布时的在b[1]处概率密度值。虽然上述属性向量未知,无法通过正态分布公式直接计算出概率密度值,但是根据已有的操作历史数据能够计算出概率密度值。在未知属性向量的情况下,利用正态分布卷积运算时仍然服从正态分布的良好特性来建立物体之间的关联,从而利用能够求出的概率密度值来求出相似性。因此该相似度定义对于隐藏属性的物品或用户的相似性分析有用。
在物体属性向量已知的条件下,带入向量值,即可得到相似度结果。
对于未知物体属性向量的情况,我们列举了以下例子。
关于相似性度量的方法
实施例1
首先以连续的情况为例。对于连续情况,给定权重都为1。例举了网络书城的图书推荐,参考图1对相似性度量方法进行说明。首先,如步骤S1所示,服务器收集网络书城的所有用户信息和所有图书信息、以及用户对图书进行点击阅读的所有历史数据。将网络书城所有图书的集合设为集合M(m1,m2,……),将所有用户的集合设为集合N(n1,n2,……),假设在集合M和集合N中的元素所具有的属性值满足正无穷大到负无穷大下均匀分布。下面我们介绍在不知道图书的任何属性信息、也不知道用户的任何属性信息的情况下,如何根据用户对图书进行操作的历史数据来得到用户与用户之间的相似度。
现在假设用户集合N中用户n1希望看到的图书是图书m1,图书m1具有一个属性,属性值为μ。用户集合中其他某一个用户n2希望看到图书m2,图书m2具有属性值为x,则该用户n1希望看到的图书m1与其他某一个用户n2希望看到的图书m2之间的相似度,即用户与用户之间的相似度f0(x),在给定方差δ2的情况下,可以依据上述定义得到式2。
式2
但是,实际上我们不知道用户希望看到的图书m1和m2的属性值,当然也就不知道用户n1希望看到的图书m1和其他某一个用户n2希望看到的图书m2之间的相似度。然而我们根据用户对图书的操作历史,知道用户n1实际对图书m3进行了点击阅读,并能够计算出用户n1对图书m3的点击次数相对于该用户对所有图书的点击次数的概率D1。由于用户n1实际操作的图书是图书m3,设图书m3的属性值是y,那么用户n1希望看到的图书m1应该与图书m3相似。
如果将用户n1对图书m3的点击阅读视为一次测量,将用户n1希望看到的图书m1的属性值μ作为被测量值,将用户n1实际看到的图书m3的属性值作为测量值,将所有图书的属性值构成测量值域,如果图书的属性值无穷多,且满足大小在负无穷大到正无穷大的均匀分布,则测量得到的样本均值、即实际物品属性均值与被测量值满足极大似然估计,测量得到的样本值结果满足以被测量值μ为期望,以某未知方差为方差的正态分布。即,将样本所在值对应的概率密度值作为该样本值与实际被测量值的相似度。根据上述,使用用户n1实际读取的图书m3的属性值y去测量用户n1希望读取的图书m1的属性值μ,则图书m3的概率密度g(y)为式3。
g(y)是如上所述能够根据操作历史数据计算出的概率密度值。即,如步骤S2所示,根据历史记录,计算用户n1点击图书m3的次数相对于用户n1对所有图书的点击次数的概率g(y)。
同理,如果已知某些用户点击读取了图书m3,则对于用户n1来说,用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率是已知的,即能够计算出用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率D2。同理,使用用户n2希望读取的图书m2的属性值x去测量用户n1实际读取的图书m3的属性值y,其概率密度分布z(x)也满足类似的公式(4)。
z(x)是如上所述也能够根据操作历史数据计算出的概率密度值。即,如步骤S3所示,根据历史记录,计算用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率z(x)。
现在通过一种运算将属性值x和u关联起来,对g(y)和z(x)进行卷积运算,来获取和f0(x)近似的表达式。将新的积分的结果命名f(x),以和f0(x)区别,则f(x)为式5。
即,如步骤S4所示,计算g(y)与z(x)的卷积,根据上述的式5,由于g(y)和z(x)已知,因此能够得到f(x)的值。f(x)为图书m1和图书m2的相似度,即该用户n1喜欢看的书与其他某一个用户n2喜欢看的书的相似度,即用户n1与用户n2之间的相似度。由于在上述中g(y)和z(x)的概率密度D1和D2通过对用户历史行为数据进行统计可以计算出,因此相似度sim(x,u)=f(x),因此在未知图书m1和图书m2的属性向量的情况下,得到了它们的相似度值,即得到用户与用户之间的相似度。
同理,计算z(x)与g(y)的卷积,能够得到图书和图书之间的相似度。
另外,通过对式5进行推导计算,可以得到式6,这里忽略了推导过程。
根据进一步推导出来的式6,可知f(x)满足式1的相似性度量方法,对比式6和式2,f(x)和f0(x)形式一致,给定方差变成2δ2。
对于属性个数不为1的情况,可以将上述过程看做是对很多独立属性联合分布密度的统计。服从正态分布的独立随机变量的卷积,其方差为每个正态分布的方差的和。如果依据式2所得给定的方差为(δ1 2,δ2 2,δ3 2,…),其中括号中的各个方差表示每个独立属性的统计方差,那么由于属性独立,可以推导得到给定的方差为(2δ1 2,2δ2 2,2δ3 2,…)的相似度。
另外以上推导须满足集合M、N服从负无穷大到正无穷大之间的均匀分布的假设,和集合M、N中元素的属性值保持不变的假设。但在具体情况下,都可以利用该基本原理和方法,计算出符合定义的相似度结果。
实施例1给出了连续情况的一个例子,下面对应连续情况下的相似性度量方法,对离散情况下的相似性度量方法进行介绍。
实施例2
以在网络购物中为了向用户推荐物品而计算用户和用户、或物品和物品之间的相似度为例,这里比较对象是用户和用户、或者物品和物品。参考图2进行以下说明。首先,如图2的步骤S21所示,服务器根据用户的登录注册、网站所销售的物品、以及用户对物品的操作情况进行信息的收集,即所收集的信息包括用户、物品、以及用户和物品之间的交互情况,以获取用户、物品、以及用户对物品的操作的数据。服务器对上述信息进行分析,一个是用户集合User,一个是物品集合Item,以及用户对物品的操作记录。这里每次用户对物品的操作相互独立,每次操作表达含义相同,都表达了用户对物品感兴趣。表1示出现有的用户集合User和物品集合Item之间的交互情况。aij表示用户Useri对物品Itemj的操作次数,i表示用户标号,j表示物品标号,i、j均为整数。例如用户User1对物品Item1的操作次数是a11次,用户User1对物品Item2的操作次数是a12次,用户User1对物品Item3的操作次数是a13次,用户User1对物品Item4的操作次数是a14次,依次类推,假设物品Item4没有被任何用户进行过操作,则a14=a24=a34=a44=0,假设用户User4没有对任何物品进行过操作,则a41=a42=a43=a44=0。
表1
Item1 | Item2 | Item3 | Item4 | |
User1 | a11 | a12 | a13 | a14 |
User2 | a21 | a22 | a23 | a24 |
User3 | a31 | a32 | a33 | a34 |
User4 | a41 | a42 | a43 | a44 |
在步骤S22中,对上述获得的数据建立数学模型形成矩阵,利用矩阵来表达上述表1,得到如下用户和物品的关系矩阵a。
矩阵a
如图2的步骤S23所示计算物品相对于用户的概率矩阵。首先,针对矩阵a以用户为行,依次将各物品被该用户的操作次数,除以该用户进行过的操作总次数,得到矩阵A。如果该行对应的用户没有进行任何操作,则矩阵该行取满足元素值都相同且和为1的值。矩阵A可以看做实际物品测量用户希望得到的物品的统计分布,即物品相对于用户的概率矩阵。这里,物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度。
Aij表示矩阵A的元素,即表示用户Useri对物品Itemj操作的次数与该用户Useri对所有物品进行的操作总次数的比,则如下式7所示,其中k表示所有物品的数量。
矩阵A
矩阵第一行表示:Item1被User1操作的概率是A11,A11=a11/(a11+a12+a13+a14),以下依次类推,Item2被User1操作的概率是A12,Item3被User1操作的概率是A13,Item4被User1操作的概率是A14。矩阵第二行表示:Item1被User2操作的概率是A21,Item2被User2操作的概率是A22,Item3被User2操作的概率是A23,Item4被User2操作的概率是A24。依次类推,假设User4没有进行任何操作,因此该行取各值相同并且和为1的值,即均取A41=A42=A43=A44=0.25。
如图2的步骤S24所示计算用户相对于物品的概率矩阵。首先物品和用户的关系矩阵为b,矩阵b=aT,
矩阵b
针对矩阵b,以物品为行,依次将各用户操作该物品的操作次数,除以该物品被进行过的操作总次数。如果该行对应的物品没有被操作过,则矩阵该列取满足元素值都相同且和为1的值。矩阵B可以看做用户希望得到的物品测量实际物品的统计分布,即用户相对于物品的概率矩阵。这里,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
Bij表示矩阵B的元素,即表示物品Itemj被用户Useri操作的次数与该物品Itemj被所有用户的操作总次数的比,则如下式8所示,其中h表示所有用户的数量。
矩阵B
矩阵B第一行表示:Item1被User1操作的概率是B11,其中,B11=a11/(a11+a21+a31+a41),以下依次类推,Item1被User2操作的概率是B21,Item1被User3操作的概率是B31,Item1被User4操作的概率是B41。矩阵BT第二行表示:Item2被User1操作的概率是B12,依次类推。如果Item4没有被进行任何操作,因此该行取各值相同并且和为1的值,即均取B14=B24=B34=B44=0.25。
在步骤S25中,在计算出上述概率的情况下,对应实施例1取卷积,即,对矩阵A和B进行相乘得到用户和用户之间的相似度矩阵AB,AB=A*B。
ABij表示矩阵AB的元素,则AB11=A11*B11+A12*B12+A13*B13+A14*B14,AB12=A11*B21+A12*B22+A13*B23+A14*B24,依次类推。
矩阵AB
该相似度值是在某个未知权值k以及某个未知方差向量下的相似度值,该矩阵AB为用户和用户之间的相似度矩阵。例如第一行表示User1和User1的相似度是的AB11,User1和User2的相似度是AB12,User1和User3的相似度是AB13,User1和User4的相似度是AB14,同理依此类推。
如果计算矩阵B*A,则得到物品和物品之间的相似度矩阵BA=B*A。
BAij表示矩阵BA的元素,则BA11=B11*A11+B21*A21+B31*A31+B41*A41,BA12=B11*A12+B21*A22+B31*A32+B41*A42,依次类推。
矩阵E
例如矩阵E第一行表示Item1和Item1的相似度BA11,Item1和Item2的相似度是BA12,Item1和Item3的相似度是BA13,Item1和Item4的相似度是BA14。矩阵E第二行、第三行、第四行依此类推。
在本实施例中,不知道物品的属性,也不知道用户的属性,但是根据正态分布在卷积的情况下仍然服从正态分布的特性,利用用户对物品的操作历史,得到物品相对于用户的概率矩阵以及用户相对于物品的概率矩阵,从而能够计算出用户与用户之间的相似度或者物品和物品的相似度。从而可以依此来向用户推荐物品,提高所推荐的物品被用户的采纳的可能性。
图3示出了一种相似性度量系统300,相似性度量系统包括数据收集单元301、数学模型建立单元302、概率矩阵生成单元303、相似度计算单元304。数据收集单元301例如收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。数学模型建立单元302建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。概率矩阵生成单元303根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵。相似性计算单元304计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
利用了本发明的相似性度量方法所得出的相似性的结果与以往计算相似性的方法在满足假设的条件下相比具有很好的效果。
根据上述利用了正态分布的特性的对相似性的定义,能够在未知属性向量的情况下计算出物品之间的相似度,其应用不限于上述实施例,能够应用于各个未知属性的比较对象之间的相似度计算上。
针对上述相似度的增强相似度关联的运算
实施例3是对实施例1所得的结果进行增强相似度关联的运算。我们知道,方差越大表明关联的结果增多,但其误差也相应增大。
图4示出示出实施例1的增强相似性关联的方法的流程图,参考图4对实施例3进行说明。利用上述相似性定义式1,并根据在实施例1中所得到的相似度结果,在图4的步骤S41通过对任意图书mx和my、与my和mz的相似度进行对my的卷积运算,如式9所示,能够得到mx和mz之间的关联,从而扩大了图书之间相似性的关联的范围,增强图书之间相似性的关联,得到增强相似度sim(mx,my)。通过式9的运算,满足式1的方差也变成4δ2。
并且根据式1和式9得到式10的结果,其中C0是常数。
方差增大,虽然增强了图书之间的相似性关联,但同时误差也扩大了。为了减小误差,使相似度给定的方差重新为2δ2,在图4的步骤S42中进行式11的方差收回运算,得到进行了方差收回的增强相似度sim’(mx,my)。
根据式10和式11得到式12,即方差变回了δ2,这里C0、C1、C0’均是常数。
根据上述,方差重新为2δ2,能够增强比较对象之间的相似性关联,并保持误差不变。
通过上述,方差实现了从2δ2变为4δ2又重新回到2δ2的变化,即得到了更大范围与mx具有相似度关联的图书,可以从中选择相似度高的图书用于推荐。增强后的相似度sim’(mx,mz)的值可根据式11得到。
实施例3给出了连续情况的一个例子,下面对应连续情况下的增强相似性关联的相似性度量方法,对离散情况下的增强相似性关联的相似性度量方法进行介绍。
实施例4
图5是示出对实施例2的增强相似性关联的方法的流程图,参考图5对实施例4进行说明。实施例4是对实施例2所得的相似矩阵进行增强相似性关联的运算。这里一般给定的权值,使用能使相似度的和为1的权值进行计算。
例如表示用户和用户之间的相似度的相似矩阵AB,在图5的步骤S51中,首先对其进行增强相似性的计算,来进一步扩大用户之间的关联。增强后的相似矩阵f=(AB)*(AB)T。
fij表示矩阵f的元素,则f11=AB11*AB11+AB12*AB12+AB13*AB13+AB14*AB14,f12=AB11*AB21+AB12*AB22+AB13*AB23+AB14*AB24,依次类推。
矩阵f
矩阵f为经过相似度增强之后的用户和用户之间的增强相似矩阵,通过增强运算扩大了用户和用户之间关联的范围,使之间计算出相似度为零的用户之间具有了关联。同理,计算(BA)*(BA)T则得到增强了物品和物品之间关联的增强相似矩阵。
随着上述的相似性增强,用户与用户之间的相似性所满足的方差增加了一倍,其误差也增加了一倍,这里为了使误差大小保持与原来一致,如图5的步骤S52所示,对增强的相似矩阵进行方差收回运算,如式13所示。矩阵g表示进行了方差收回运算后的用户与用户之间的相似矩阵。该运算如下所示,fij表示增强矩阵f中的元素,gij表示方差收回运算后的增强矩阵g中的元素,i表示矩阵的行号,j表示矩阵的列号,h表示列号的最大值,i、j、h均为大于零的整数。
矩阵g
矩阵g中g11表示用户User1和User1进行了方差收回运算的增强相似度值,g11=f11 2/(f11 2+f12 2+f13 2+f14 2)。其他依次类推。
图6示出了一种增强相似性关联的相似性度量系统600,增强相似性关联的相似性度量系统包括获取相似性矩阵单元601、相似度增强运算单元602、以及方差收回运算单元603。获取相似性矩阵单元601获取比较对象之间的相似度矩阵。获取相似性矩阵单元601与图3所示相似性度量系统300同样,包括数据收集单元、数学模型建立单元、概率矩阵生成单元、以及相似性运算单元。所述数据收集单元收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。所述数学模型建立单元建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。所述概率矩阵生成单元根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵。所述相似性运算单元计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。相似度增强运算单元602计算比较对象之间的相似度矩阵与自身的转置矩阵的乘积,从而得到增强相似度关联的比较对象之间的增强相似度关联的增强相似度矩阵。方差收回计算单元603计算增强相似度矩阵中各元素的平方与该元素所在的行的各元素的平方和的比作为新的元素,从而得到进行方差收回计算后的比较对象户之间的相似矩阵。
根据实施例3和4,对在实施例1和2中所得的相似矩阵进行增强相似度关联的运算,从而增大了比较对象(例如用户与用户、或者物品和物品)之间的关联,并进行方差收回运算,从而使增强相似度关联所带来的误差与原来一致,保持不变。在上述的实施例中得到被比较对象之间相似度关联范围更大、误差不变的相似度。
下面举例对上述的相似性方法以及增强相似度的方法进行说明。
例如在用户和物品的关系如下的情况下,
Item1 | Item2 | Item3 | |
User1 | 1 | 1 | 0 |
User2 | 1 | 0 | 1 |
User3 | 2 | 0 | 0 |
用户和物品的关系矩阵a=[1,1,0;1,0,1;2,0,0]
物品和用户的关系矩阵b=aT
物品相对于用户的概率矩阵(即、用户对物品偏好的归一化矩阵)A=[a(1,:)/sum(a(1,:));a(2,:)/sum(a(2,:));a(3,:)/sum(a(3,:))]
用户相对于物品的概率矩阵(即、物品被用户偏好的归一化矩阵)B=[b(1,:)/sum(b(1,:));b(2,:)/sum(b(2,:));b(3,:)/sum(b(3,:))]
物品和物品之间的相似度BA=B*A
用户和用户之间的相似度AB=A*B
如果上述用户和物品的行为数据满足在负无穷到正无穷上均匀分布的情况下,即如果上述相似度矩阵对称,则可根据上述增强相似度的方法进行进一步的相似度增强运算。
关于数据存在偏斜的情况下的相似度的计算
在上述相似性计算中,各属性向量值、即各行为数据需要服从在负无穷大到正无穷大上的均匀分布,在不满足上述情况、即存在数据偏斜的情况下,得到的物品和物品之间的相似度矩阵可能不对称,为了得到对称的相似性矩阵,对于上述求出的相似性的方法可以进行一个相似度结果的逼近,以获取更加准确的相似度。
以下对相似度结果的逼近进行详细介绍。
图7示出又一相似性度量方法的流程图。参考图7可知,首先如步骤S71所示,获取集合a与集合b的元素以及元素之间的操作关系数据,然后如步骤S72所示,根据上述数据得到集合b中元素之间的相似度值。例如获取集合a和集合b的元素,将无差别的相似性操作次数表示为sim(item_a,item_b),这里所说的无差别的相似性操作次数是指集合a中的元素item_a与集合b中的元素item_b之间的操作关系。利用以下公式求取集合b内部元素之间的相似性值sim’(Item_bi,Item_bj)。公式如下:
式14
其中,sim’(Item_bi,Item_bj)表示集合b中元素Item_bi和Item_bj之间的相似度,是对利用式1的方法所求出的相似度结果进行逼近的值。k是归一化因子,进行归一化后定义2是对定义1中的一个相似度结果的逼近。由于无差别的相似性操作次数表示为sim(item_a,item_b),因此例如sim(item_am,item_bi)表示集合a中的元素item_am与集合b中的元素item_bi之间无差别的相似性操作次数。sim(item_am,item_bj)表示集合a中的元素item_am与集合b中的元素item_bj之间无差别的相似性操作次数。其中,m、n、i、j均表示集合中元素的标号。
在上述式14中,将相似性操作发生时间设为t(item_a,item_b),即集合a中的元素item_a对集合b中的元素item_b的操作时间点。利用以下公式求取集合b内部元素之间的相似性方法。假设用G表示式14中的以下部分:
则在考虑与时间有关的滤波系数f(t(item_am,item_bi),t(item_am,item_bj))的情况下,则相似性公式如下:
其中k是归一化因子,f(t(item_am,item_bi),t(item_am,item_bj))是和时间有关的某个函数,使得时间越相近,函数值越大。如一般用的低通滤波函数,让时间相近的值较大。例如时间滤波函数f为式16。
式16
其中β是小于1大于0的低通滤波系数。
图8示出又一相似性度量系统的框图,本发明的相似性度量系统,包括:数据获取单元,其获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);相似度计算单元,其执行基于下式的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
关于数据存在偏斜的情况下的增强相似度的计算
针对上述相似度度量方法以及系统所计算出的矩阵可以进行进一步的相似度增强运算,该增强运算为将根据得到的集合b内部元素的相似度值所得的相似度矩阵以及该相似度矩阵的转置矩阵,继续使用式14的计算相似度,并进行归一化计算,以执行增强相似度的计算。
例如在用户(相当于集合a)和物品(相当于集合b)的关系如下的情况下,
Item1 | Item2 | Item3 | |
User1 | 1 | 1 | 0 |
User2 | 1 | 0 | 1 |
User3 | 2 | 0 | 0 |
在上表中表示User1对Item1的无差别的相似性操作次数是1,User1对Item2的无差别的相似性操作次数是1,依次类推。
根据式14可得到物品和物品之间进行了相似度结果的逼近的相似度,该相似度在进行归一化之前为对称矩阵,进行归一化后得到下述矩阵。
针对上述归一化的矩阵以及其转置矩阵,利用公式14再次进行计算,以实现相似度增强运算,得到下述的归一化增强相似度矩阵
根据上述利用了正态分布的特性的对相似性的定义,能够在未知属性向量的情况下计算出物品之间或者用户之间的相似度,并计算出对上述相似度进行增强的增强相似度。并且,根据本发明,能够保证在数据有偏斜的时候可以很好地计算相似度以及增强相似度。其应用不限于上述实施例,能够应用于各个未知属性的比较对象之间的相似度计算上。本领域技术人员将理解,还存在可用于实现本发明实施例的更多可选实施方式和改进方式,并且上述实施方式和示例仅是一个或多个实施例的说明。
根据上述,本发明提供了一种进行增强相似性关联的相似度度量方法以及系统。本发明不限于上述的实施例,只要在该技术构思的范围内,均包含在本发明的范围中。
Claims (20)
1.一种增强相似度关联的相似性度量方法,其特征在于,包括以下步骤:
计算比较对象之间的相似度矩阵;以及
针对得到的所述比较对象之间的相似度矩阵与所述相似度矩阵的转置矩阵,利用上述计算所述相似度矩阵的方法进行计算,以得到增强相似度关联的比较对象之间的增强相似度矩阵。
2.根据权利要求1所述的增强相似度关联的相似性度量方法,其特征在于,通过以下步骤计算所述比较对象之间的相似度矩阵:
收集用户访问物品的行为,并获取用户、物品、以及用户对物品的操作行为的数据;
对获取的数据进行分析以建立用户与物品之间交互关系矩阵;
根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;
根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;
计算所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到作为所述比较对象的物品与物品之间的相似度矩阵。
3.根据权利要求1或2所述的增强相似度关联的相似性度量方法,其特征在于,
计算增强相似度矩阵中各元素的平方与该元素所在的行的各元素的平方和的比作为新的元素,从而得到进行方差收回计算后的所述比较对象之间的方差收回相似矩阵。
4.根据权利要求2所述的增强相似度关联的相似性度量方法,其特征在于:
所述物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
5.根据权利要求2所述的增强相似度关联的相似性度量方法,其特征在于,
在生成所述物品相对于用户的概率矩阵时,以用户为行,依次将各物品被该用户的操作次数除以该用户进行过的操作总次数来得到概率矩阵,如果所述用户没有操作任何物品,则所述物品相对于用户的概率矩阵的该行取满足元素值都相同且和为1的值,
在生成所述用户相对于物品的概率矩阵时,首先生成所述用户与物品之间交互关系矩阵的转置矩阵作为物品与用户之间交互关系矩阵,然后以物品为行,依次将各用户操作该物品的操作次数除以该物品被进行过的操作总次数来得到概率矩阵,如果该行对应的物品没有被操作过,则所述用户相对于物品的概率矩阵的该行取满足元素值都相同且和为1的值。
6.根据权利要求2所述的增强相似度关联的相似性度量方法,其特征在于,
计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到作为所述比较对象的用户与用户之间的相似度矩阵。
7.根据权利要求1所述的增强相似度关联的相似性度量方法,其特征在于,
数据获取步骤,获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);
相似度计算步骤,执行基于下式的作为所述比较对象的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算,
其中,i,j,m,n表示集合b中元素的标号,k是归一化因子。
8.根据权利要求7所述的增强相似度关联的相似性度量方法,其特征在于,
将相似性操作发生时间设为t(item_a,item_b),并设
在考虑与时间有关的时间滤波函数f(t(item_am,item_bi),t(item_am,item_bj))的情况下,集合b内部的元素item_bi与元素item_bj的相似性值为
9.根据权利要求8所述的增强相似度关联的相似性度量方法,其特征在于,
所述时间滤波函数f(t(item_am,item_bi),t(item_am,item_bj))是低通滤波函数,在时间上越接近,函数值越大。
10.根据权要求9所述的增强相似度关联的相似性度量方法,其特征在于,
所述时间滤波函数为:
其中,β是小于1大于0的低通滤波系数。
11.一种增强相似度关联的相似性度量系统,其特征在于,包括:
相似性矩阵获取单元,所述相似性矩阵获取单元获取比较对象之间的相似度矩阵;以及
相似度增强运算单元,所述相似度增强运算单元针对所述得到的比较对象之间的相似度矩阵所述相似度矩阵的转置矩阵,利用上述计算所述相似度矩阵的方法进行计算,以得到增强相似度关联的比较对象之间的增强相似度矩阵。
12.根据权利要求11所述的增强相似度关联的相似性度量系统,其特征在于,
所述相似性矩阵获取单元包括:
数据收集单元,所述数据收集单元收集用户访问物品的行为并获取用户、物品、以及用户对物品的操作行为的数据;
数学模型建立单元,所述数学模型建立单元对获取的数据进行分析,建立用户与物品之间交互关系矩阵;
概率矩阵生成单元,根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;
相似度计算单元,所述相似度计算单元计算所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到作为所述比较对象的物品与物品之间的相似度矩阵。
13.根据权利要求11或12所述的增强相似度关联的相似性度量系统,其特征在于,包括:
方差收回计算单元,所述方差收回计算单元计算所述增强相似度矩阵中各元素的平方与该元素所在的行的各元素的平方和的比作为新的元素,从而得到进行方差收回计算后的所述比较对象之间的方差收回相似矩阵。
14.根据权利要求12所述的增强相似度关联的相似性度量系统,其特征在于,
所述物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度,所述用户相对于物品的概率的概率密度是服从相同或者相近方差的正态分布密度。
15.根据权利要求12所述的增强相似度关联的相似性度量系统,其特征在于,
在概率矩阵生成单元生成物品相对于用户的概率矩阵时,以用户为行,依次将各物品被该用户的操作次数除以该用户进行过的操作总次数来得到概率矩阵,如果所述用户没有操作任何物品,则所述物品相对于用户的概率矩阵的该行取满足元素值都相同且和为1的值,
在概率矩阵生成单元生成用户相对于物品的概率矩阵时,首先生成所述用户与物品之间交互关系矩阵的转置矩阵作为物品与用户之间交互关系矩阵,然后以物品为行,依次将各用户操作该物品的操作次数除以该物品被进行过的操作总次数来得到概率矩阵,如果该行对应的物品没有被操作过,则所述用户相对于物品的概率矩阵的该行取满足元素值都相同且和为1的值。
16.根据权利要求11所述的增强相似度关联的相似性度量系统,其特征在于,
所述相似度计算单元计算计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到作为所述比较对象的用户与用户之间的相似度矩阵。
17.根据权利要求11所述的增强相似度关联的相似性度量系统,其特征在于,包括:
数据获取单元,其获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);
相似度计算单元,其执行基于下式的作为所述比较对象的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
18.根据权利要求17所述的增强相似度关联的相似性度量系统,其特征在于,
将相似性操作发生时间设为t(item_a,item_b),并设
在考虑与时间有关的时间滤波函数f(t(item_am,item_bi),t(item_am,item_bj))的情况下,集合b内部的元素item_bi与元素item_bj的相似性值为
19.根据权利要求18所述的增强相似度关联的相似性度量系统,其特征在于,
所述时间滤波函数f(t(item_am,item_bi),t(item_am,item_bj))是低通滤波函数,在时间上越接近,函数值越大。
20.根据权利要求19所述的增强相似度关联的相似性度量系统,其特征在于,
所述时间滤波函数为:
其中,β是小于1大于0的低通滤波系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410260834.6A CN104077365B (zh) | 2014-06-12 | 2014-06-12 | 一种增强相似度关联的相似性度量方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410260834.6A CN104077365B (zh) | 2014-06-12 | 2014-06-12 | 一种增强相似度关联的相似性度量方法以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104077365A true CN104077365A (zh) | 2014-10-01 |
CN104077365B CN104077365B (zh) | 2018-04-27 |
Family
ID=51598619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410260834.6A Active CN104077365B (zh) | 2014-06-12 | 2014-06-12 | 一种增强相似度关联的相似性度量方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077365B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709780A (zh) * | 2016-11-14 | 2017-05-24 | 北京邮电大学 | 一种物品推荐方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640227B1 (en) * | 2000-09-05 | 2003-10-28 | Leonid Andreev | Unsupervised automated hierarchical data clustering based on simulation of a similarity matrix evolution |
CN101576904A (zh) * | 2009-03-03 | 2009-11-11 | 杜小勇 | 一种基于有权图来计算文本内容相似度的方法 |
CN103020161A (zh) * | 2012-11-26 | 2013-04-03 | 北京奇虎科技有限公司 | 在线视频推荐方法和推荐系统及处理系统 |
CN103246672A (zh) * | 2012-02-09 | 2013-08-14 | 中国科学技术大学 | 对用户进行个性化推荐的方法和装置 |
-
2014
- 2014-06-12 CN CN201410260834.6A patent/CN104077365B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640227B1 (en) * | 2000-09-05 | 2003-10-28 | Leonid Andreev | Unsupervised automated hierarchical data clustering based on simulation of a similarity matrix evolution |
CN101576904A (zh) * | 2009-03-03 | 2009-11-11 | 杜小勇 | 一种基于有权图来计算文本内容相似度的方法 |
CN103246672A (zh) * | 2012-02-09 | 2013-08-14 | 中国科学技术大学 | 对用户进行个性化推荐的方法和装置 |
CN103020161A (zh) * | 2012-11-26 | 2013-04-03 | 北京奇虎科技有限公司 | 在线视频推荐方法和推荐系统及处理系统 |
Non-Patent Citations (1)
Title |
---|
李纯 等: "基于快速谱聚类的图像分割算法", 《应用科技》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709780A (zh) * | 2016-11-14 | 2017-05-24 | 北京邮电大学 | 一种物品推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104077365B (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bag et al. | An efficient recommendation generation using relevant Jaccard similarity | |
Garg | Generalized intuitionistic fuzzy interactive geometric interaction operators using Einstein t-norm and t-conorm and their application to decision making | |
CN103412948B (zh) | 基于聚类的协同过滤的商品推荐方法及系统 | |
CN104063589A (zh) | 一种推荐方法以及系统 | |
CN102789462B (zh) | 一种项目推荐方法及系统 | |
US9342791B2 (en) | Systems and methods for trend aware self-correcting entity relationship extraction | |
CN104111946B (zh) | 基于用户兴趣的聚类方法和装置 | |
CN107464132B (zh) | 一种相似用户挖掘方法及装置,电子设备 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
CN104102648A (zh) | 基于用户行为数据的兴趣推荐方法及装置 | |
CN103514255A (zh) | 一种基于项目层次类别的协同过滤推荐方法 | |
WO2010011603A1 (en) | Correlated information recommendation | |
CN104111969A (zh) | 一种相似性度量的方法以及系统 | |
CN104778237A (zh) | 一种基于关键用户的个性化推荐方法和系统 | |
CN105654361A (zh) | 一种基于社区o2o的信用评价方法和系统 | |
CN104063445A (zh) | 一种相似性度量的方法以及系统 | |
CN111353838A (zh) | 自动化校验商品类目的方法和装置 | |
CN108073667A (zh) | 产生用户浏览属性的方法、以及非暂存计算机可读介质 | |
CN105303447A (zh) | 利用网络信息进行信用评级的方法和系统 | |
CN111782928B (zh) | 信息推送方法、装置和计算机可读存储介质 | |
CN108109030B (zh) | 数据分析方法、系统及非暂态计算机可读取介质 | |
CN110599281A (zh) | 一种确定目标店铺的方法和装置 | |
CN105590234A (zh) | 一种向目标用户推荐商品的方法和系统 | |
Han et al. | Calibrating fractional Vasicek model | |
CN104077365A (zh) | 一种增强相似度关联的相似性度量方法以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |