CN108108399B

CN108108399B - 一种混合高斯建模改进的协同过滤推荐方法

Info

Publication number: CN108108399B
Application number: CN201711267674.8A
Authority: CN
Inventors: 邓辉舫; 周君君
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-07-28
Anticipated expiration: 2037-12-05
Also published as: CN108108399A

Abstract

本发明公开了一种混合高斯建模改进的协同过滤推荐方法，包括步骤：1)对用户‑物品评分矩阵的各个物品的评分分布建立混合高斯模型；2)利用EM算法计算出每个物品评分分布的混合高斯模型参数；3)根据每个物品评分的混合高斯模型计算每个用户的惊异度向量；4)根据用户的惊异度向量计算用户之间的相似度；5)根据用户之间的相似度进行协同过滤推荐。本发明通过对物品评分分布进行混合高斯建模，计算出所有用户的惊异度向量，在此基础上计算用户的相似度，最后进行协同过滤推荐，缓解数据的稀疏性问题，有效的提高推荐效果。

Description

一种混合高斯建模改进的协同过滤推荐方法

技术领域

本发明涉及数据挖掘的协同过滤推荐的技术领域，尤其是指一种混合高斯建模改进的协同过滤推荐方法。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏时代走入了信息过载的时代，信息生产者希望自己生产的内容能够在海量的信息中脱颖而出，信息消费者希望从浩瀚的信息海洋中寻找到自己感兴趣的内容。当用户的信息需求十分明确时，分类目录和搜索引擎提供了一种迅速寻找到用户所需要信息的方式，但是分类目录往往只能够覆盖少量的类别信息且相比于用户具体的需求来说较为抽象，而搜索引擎虽然能够针对用户的搜索关键字返回相关的结果，但是要求用户能够用关键词来准确的描述自己所希望寻找的信息，否则搜索引擎所返回的信息也不是用户所希望获取的。推荐系统在信息过载以及用户需求不明确的情况下，通过分析用户的历史行为对用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣的信息，从信息的角度来说，推荐系统能够更好的发掘信息的长尾，从而帮助非热门的信息提供给感兴趣的用户。

协同过滤推荐算法是目前使用最广泛且发展成熟的个性化推荐算法。对协同过滤算法来说，核心在于计算用户之间的相似度。一般的用户相似度是找到两个用户评过分的公共物品，计算这些物品对应评分向量的余弦相似度。这种用户相似度的计算方法没有挖掘出用户之间更深入的相似信息，不能够取得比较好的推荐效果。根据信息检索领域的经典模型TF-IDF(词频-倒排文档频率)的思想，对于一个物品的评分越是远离主流的评分范围，说明该评分越能够提供更多关于该用户的信息，反之，越是在主流评分范围内说明该评分越是不具有好的区分能力和代表性，因此对评分进行建模并对用户评分所包含的信息量进行刻画是一种改善用户相似度度量效果的途径。

本发明提供的一种混合高斯建模改进的协同过滤推荐方法，对物品的评分分布进行混合高斯建模，得到用户的惊异度向量，在此基础上计算用户的相似度，然后进行协同过滤推荐。它发掘出评分中更具代表性和区分性的信息，缓解了协同过滤的稀疏性问题，提高了推荐效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种混合高斯建模改进的协同过滤推荐方法，改善用户之间的相似度度量准确性，缓解了传统协同过滤的数据稀疏性问题，通过混合高斯模型挖掘出用户评分中具有代表性和区分性的信息，获得更好的推荐效果。

为实现上述目的，本发明所提供的技术方案为：一种混合高斯建模改进的协同过滤推荐方法，包括以下步骤：

1)对用户-物品评分矩阵的各个物品的评分分布建立混合高斯模型；

2)利用EM算法即期望最大化算法估算每个物品评分分布的混合高斯模型参数；

3)根据每个物品评分的混合高斯模型计算每个用户的惊异度向量；

4)根据用户的惊异度向量计算用户之间的相似度；

5)根据用户之间的相似度进行协同过滤推荐。

在步骤1)中，所述用户-物品评分矩阵是指M个用户对N个物品进行评分后得到的矩阵T_M×N，如下式所示：

式中，r_i,j表示第i个用户对第j个物品的评分值，i＝1,2,...,M，j＝1,2,...,N；所述的对物品的评分分布建立混合高斯模型，是指对矩阵T_M×N中第j个物品的评分分布通过混合高斯模型进行刻画，即第i个用户对第j个物品的评分值r_i,j在矩阵T_M×N中第j列评分中出现的概率f(r_i,j)表示为下式：

式中a_j,1,a_j,2表示高斯混合参数，满足如下关系：

a_j,1+a_j,2＝1,0≤a_j,1,a_j,2≤1

式中μ_j,k表示用于描述第j个物品评分分布的第k个高斯分布的均值，k＝1,2；式中σ_j,k表示用于描述第j个物品评分分布的第k个高斯分布的标准差；

式中

表示在以μ_j,k为均值，以σ_j,k为标准差的高斯分布下评分值r_i,j出现的概率；

在步骤2)中，利用EM算法估算每个物品评分分布的混合高斯模型的参数a_j,k,μ_j,k,σ_j,k,k＝1,2，包括以下步骤：

2.1)初始化参数a_j,k,μ_j,k,σ_j,k，分别记为

且保证如下关系成立：

2.2)将评分值r_i,j和参数值

代入下式计算：

2.3)根据用户-评分矩阵T_M×N的物品个数N和步骤2.2)的计算结果γ_k(r_i,j)，更新参数a_j,k,μ_j,k,σ_j,k，并分别另记为

计算方式为：

2.4)计算参数a_j,k,μ_j,k,σ_j,k更新前后变化量的绝对值大小，分别记为Δa_j,k,Δμ_j,k,Δσ_j,k，计算方式如下：

2.5)根据参数值更新量绝对值的大小Δa_j,k,Δμ_j,k,Δσ_j,k判断是否继续进行参数的迭代计算，如果max(Δa_j,k,Δμ_j,k,Δσ_j,k)≤0.0001，式中max()表示取最大值运算，则停止参数迭代计算，输出本轮迭代计算得到的参数值，即

作为最终对混合高斯模型参数的估计值，分别记为

否则继续计算步骤2.2)-2.5)；

在步骤3)中，所述用户的惊异度向量是指第i个用户所对应的长度为N的向量S_i，计算方式如下：

S_i＝(s_i,1,s_i,2,…,s_i,N)

式中，

表示矩阵T_M×N中第j列评分的中位数，运算ln()表示以自然常数e为底数的对数运算，运算sgn()为取符号运算，具体定义如下：

在步骤4)中，所述的用户的相似度是指任意两个用户p和q对应的惊异度向量S_p,S_q之间的相似度，记为w_p,q，计算如下：

式中s_p,j表示第p个用户的惊异度向量中第j个元素，s_q,j表示第q个用户的惊异度向量中第j个元素，r_p,j表示第p个用户对第j个物品的评分值，r_q,j表示第q个用户对第j个物品的评分值。

在步骤5)中，假设用户之间的兴趣偏好具有相似度，在估计一个用户对于一个物品的评分时，从所有对于该物品进行过评分的用户中，寻找出与该用户最相似的K个其他用户，记这K个用户的下标i,(i∈{1,2,...,M})构成的集合为U_K，然后根据这K个相似用户对该物品的评分以及跟该用户的相似度来估计该用户

对于该物品的评分，具体地，第d个用户对于第g个物品的评分估计

的计算方法如下式：

式中，i表示属于集合U_K中的第i,(i∈{1,2,...,M})个用户，w_d,i表示第d个用户和第i个用户之间的相似度，r_i,g表示第i个用户对于第g个物品的评分值。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次对物品的用户评分进行混合高斯建模，发掘出用户评分中具有区分度的信息，丰富了用户评分所传递的信息。

2、本发明首次将混合高斯模型下的用户评分值转换为用户的惊异度向量，并作为衡量用户之间相似度的基础，改善了用户相似性度量的准确性问题。

3、本发明通过将基于惊异度向量上的用户相似度信息融入基于用户的协同过滤推荐算法中，缓解了协同过滤的稀疏性问题，提高了协同过滤的推荐效果。

4、本发明通过将混合高斯模型下的用户评分转换为惊异度向量，并建立用户之间的相似度度量方式，能够与传统的用户相似度度量方式相结合，且用户评分的建模模型可以更换，可扩展性和灵活性强。

5、本发明方法在有较多用户评分数据的推荐系统中具有广泛的使用空间，只需要周期性的计算每个物品对应的混合高斯模型的参数，运算简单、可扩展性强，能得到更好的推荐效果。

附图说明

图1是本发明方法计算的基本流程图。

图2是本发明中对物品评分进行混合高斯建模的示意图。横轴表示某一物品的评分值，纵轴表示该物品评分值出现的概率值，实线表示建模后实际的混合高斯模型对应的概率密度曲线，虚线表示用于构建混合高斯模型的两个基本高斯分布，其中μ_j,k表示第k(k＝1,2)个基本高斯分布的均值参数。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的混合高斯建模改进的协同过滤推荐方法，是通过对物品的评分分布进行混合高斯建模，在此基础上计算得到所有用户的惊异度向量，通过用户之间的惊异度向量计算用户之间的相似度，然后进行协同过滤推荐，其包含以下步骤：

1)获取M个用户对N个物品的评分数据，构建成如下形式的用户-物品评分矩阵T_M×N。

其中，r_i,j表示第i(i＝1,2,...,M)个用户对第j(j＝1,2,...,N)个物品的评分值。

2)对所有物品的评分建立混合高斯模型，即：对于矩阵T_M×N中第j(j＝1,2,...,N)个物品的评分分布(即第j列的所有评分值)通过混合高斯模型进行刻画。混合高斯建模过程示意图如图2所示，建模之后，第i(i＝1,2,...,M)个用户对第j个物品的评分值r_i,j在矩阵T_M×N中第j列评分中出现的概率f(r_i,j)可以表示为：

式中a_j,1,a_j,2表示高斯混合参数，满足如下关系：

a_j,1+a_j,2＝1,0≤a_j,1,a_j,2≤1

式中μ_j,k表示用于描述第j(j＝1,2,...,N)个物品评分分布的第k(k＝1,2)个高斯分布的均值；式中σ_j,k表示用于描述第j(j＝1,2,...,N)个物品评分分布的第k(k＝1,2)个高斯分布的标准差；

式中

表示在以μj_,k为均值，以σj_,k为标准差的基本高斯分布下评分值r_i,j出现的概率。

式中的参数a_j,k,μ_j,k,σ_j,k,(k＝1,2)称为混合高斯模型的参数，需要通过EM算法估算出这些参数的值才能计算f(r_i,j)。

3)通过利用EM算法估算每个物品评分分布的混合高斯模型的参数a_j,k,μ_j,k,σ_j,k,(k＝1,2；j＝1,2,...,N)，包括以下步骤：

3.1)对参数a_j,k,μ_j,k,σ_j,k,(k＝1,2；j＝1,2,...,N)的值进行初始化，初始化后的参数分别记为

且保证如下关系成立：

3.2)将矩阵T_M×N中第j列的评分值r_i,j和参数值

代入下式计算：

3.3)根据用户-评分矩阵T_M×N的物品个数N和步骤3.2)的计算结果γ_k(r_i,j)，更新参数a_j,k,μ_j,k,σ_j,k，更新后的值分别另记为

计算方式为：

3.4)计算参数a_j,k,μ_j,k,σ_j,k更新前后变化量的绝对值大小，分别记为Δa_j,k,Δμ_j,k,Δσ_j,k，计算方式如下：

3.5)根据参数变化量绝对值的大小Δa_j,k,Δμ_j,k,Δσ_j,k判断是否继续进行参数的迭代更新计算。如果max(Δa_j,k,Δμ_j,k,Δσ_j,k)≤0.0001(式中max()表示取最大值运算)，则停止参数迭代计算，输出本轮迭代计算得到的参数值，即

作为最终对混合高斯模型参数的估计值，分别记为

否则继续计算步骤3.2)-3.5)，直到满足停止迭代更新计算的条件为止。

4)估算出混合高斯模型的参数

后，根据

的定义依次对N个物品的所有评分值r_i,j进行计算，得到如下矩阵：

其中

再计算出f(r_i,j),i＝1,2,...,M,j＝1,2,...,N后，在此基础上为所有用户构建各自的惊异度向量S_i,(i＝1,2,...,M)，惊异度向量计算方式如下：

S_i＝(s_i,1,s_i,2,…,s_i,N),i＝1,2,...,M

I(r_i,j)＝-ln(f(r_i,j))

式中，

表示矩阵T_M×N中第j列评分值r_·,j的中位数，f(r_i,j)表示矩阵F_M×N中第i行第j列的元素；运算ln()表示以自然常数e为底数的对数运算；运算sgn()为取符号运算，具体定义如下：

对M个用户的惊异度向量计算完成后，得到如下形式的矩阵：

其中第i(i＝1,2,...,M)行代表第i个用户的惊异度向量S_i。

5)在获得所有用户的惊异度向量之后，任意两个用户p和q之间的相似度便可以通过对应的惊异度向量S_p,S_q来度量，记它们之间的相似度为w_p,q，计算方式如下：

式中，s_p,j表示第p个用户的惊异度向量中第j个元素，s_q,j表示第q个用户的惊异度向量中第j个元素，r_p,j表示第p个用户对第j个物品的评分值，r_q,j表示第q个用户对第j个物品的评分值。列下标的范围{j|r_p,j,r_q,j≠0}是为了保证用户p和用户q对于第j个物品的评分均为有效的评分(0分为无效的评分)。

6)在建立了用户之间的相似度度量方式之后，根据协同过滤推荐算法便可以估计用户对于物品的评分值。假设选择最相似用户的个数为K，需要估计第d个用户(记为用户d)对于第g个物品(记为物品g)的评分值，计算步骤如下：

6.1)找出物品g中除用户d外所有给g评过分(即评分不为0)的用户，记这些用户的下标构成的集合为U_all；

6.2)计算用户d与集合U_all中各个用户的相似度w_d,i,(i∈U_all)

6.3)根据相似度w_d,i,(i∈U_all)找出K个最大的w_d,i值所对应的用户，记这些用户的下标i,(i∈{1,2,...,M})构成的集合为U_K；

6.4)根据下式计算用户d对于物品g的评分值

式中i表示属于集合U_K中的第i,(i∈{1,2,...,M})个用户，w_d,i表示第d个用户和第i个用户之间的相似度，r_i,g表示第i个用户对于第g个物品的评分值。

估计出用户d对于物品g的评分值

后，根据这些评分值的大小便可以给用户推荐其感兴趣的新物品。

综上所述，在采用以上方案后，本发明为协同过滤推荐算法提供了新的评分建模方法，对物品的评分分布进行混合高斯建模，将建模之后的信息量化为惊异度向量，在用户惊异度向量的基础上对用户之间的相似度进行度量，能够有效地发掘出用户评分中具有代表性和区分度的信息，改善用户之间的相似度度量准确性，缓解数据稀疏性问题，具有实际推广价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种混合高斯建模改进的协同过滤推荐方法，其特征在于，包括以下步骤：

1)对用户-物品评分矩阵的各个物品的评分分布建立混合高斯模型；其中，所述用户-物品评分矩阵是指M个用户对N个物品进行评分后得到的矩阵T_M×N，如下式所示：

式中a_j,1,a_j,2表示高斯混合参数，满足如下关系：

a_j,1+a_j,2＝1,0≤a_j,1,a_j,2≤1

式中

2)利用EM算法即期望最大化算法估算每个物品评分分布的混合高斯模型的参数a_j,k,μ_j,k,σ_j,k,k＝1,2，包括以下步骤：

2.1)初始化参数a_j,k,μ_j,k,σ_j,k，分别记为

且保证如下关系成立：

2.2)将评分值r_i,j和参数值

代入下式计算：

计算方式为：

作为最终对混合高斯模型参数的估计值，分别记为

否则继续计算步骤2.2)-2.5)；

3)根据每个物品评分的混合高斯模型计算每个用户的惊异度向量；其中，所述用户的惊异度向量是指第i个用户所对应的长度为N的向量S_i，计算方式如下：

S_i＝(s_i,1,s_i,2,…,s_i,N)

式中，

4)根据用户的惊异度向量计算用户之间的相似度；

5)根据用户之间的相似度进行协同过滤推荐。

2.根据权利要求1所述的一种混合高斯建模改进的协同过滤推荐方法，其特征在于：在步骤4)中，所述的用户的相似度是指任意两个用户p和q对应的惊异度向量S_p,S_q之间的相似度，记为w_p,q，计算如下：

3.根据权利要求1所述的一种混合高斯建模改进的协同过滤推荐方法，其特征在于：在步骤5)中，假设用户之间的兴趣偏好具有相似度，在估计一个用户对于一个物品的评分时，从所有对于该物品进行过评分的用户中，寻找出与该用户最相似的K个其他用户，记这K个用户的下标i构成的集合为U_K，i∈{1,2,...,M}，然后根据这K个相似用户对该物品的评分以及跟该用户的相似度来估计该用户对于该物品的评分，具体地，第d个用户对于第g个物品的评分估计

的计算方法如下式：

式中，i表示属于集合U_K中的第i个用户，w_d,i表示第d个用户和第i个用户之间的相似度，r_i,g表示第i个用户对于第g个物品的评分值。