CN104636496A

CN104636496A - 基于高斯分布和距离相似度的混合聚类的推荐方法

Info

Publication number: CN104636496A
Application number: CN201510097905.XA
Authority: CN
Inventors: 张宜浩; 文俊浩
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2015-03-04
Filing date: 2015-03-04
Publication date: 2015-05-20

Abstract

本发明公开了一种基于高斯分布和距离相似度的混合聚类的推荐方法，包括如下步骤：S1，获取用户行为数据集，将行为数据集划分为有标签数据和无标签数据，对有标签数据和无标签数据分别进行距离度量学习；S2，根据所述距离度量权重矩阵，与高斯混合模型混合计算得到目标函数，对所述目标函数进行优化求解；S3，根据得到目标函数优化求解后，通过聚类算法得到聚类行为数据，将聚类行为数据推荐给用户。

Description

基于高斯分布和距离相似度的混合聚类的推荐方法

技术领域

本发明涉及计算机数据挖掘领域，尤其涉及一种基于高斯分布和距离相似度的混合聚类的推荐方法。

背景技术

基于协同过滤的推荐方法利用用户的兴趣偏好相似性来产生推荐，它是将相似用户喜欢的物品推荐给目标用户。其策略是具有相同或相似价值观、知识水平或兴趣偏好的用户，对信息的需求也是相似的。协同过滤推荐方法的一个显著优势是对推荐的对象没有特殊要求，能够推荐艺术品、音乐、电影等难以进行内容分析的物品。如图1所示。

基于协同过滤的推荐方法关键在于用户的相似度计算，常用的相似度计算方法主要集中于Jaccard系数、向量夹角、余弦皮尔逊相关系数(PearsonCorrelation Coefficient)等。但这些方法存在着共同的缺点：

①计算用户兴趣相似度的方式单一；

②算法的时间复杂度与用户的数成平方数增长(即O(|U|*|U|))，当用户数很大时非常耗时；

③这些相似度计算方法无法挖掘用户行为数据潜在的隐藏约束关系，而在很多情况下，这些潜在的隐藏约束关系(must-link和cannot-link的成对约束)是实实在在存在的；

④不易利用用户标签信息。在一个实际的推荐系统中，普遍存在着用户给物品打的标签，这些用户标签信息或者是用户对物品特征的标签，或者是用户对物品喜欢程度的标签，它一方面描述了用户的兴趣，另一方面也表达了物品的语义，其对实现个性化推荐具有重要的作用。

所以亟需本领域技术人员解决上述技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于高斯分布和距离相似度的混合聚类的推荐方法。

为了实现本发明的上述目的，本发明提供了一种基于高斯分布和距离相似度的混合聚类的推荐方法，其关键在于，包括如下步骤：

S1，获取用户行为数据集，将行为数据集划分为有标签数据和无标签数据，对有标签数据和无标签数据分别进行距离度量学习；

S2，根据所述距离度量权重矩阵，与高斯混合模型混合计算得到目标函数，对所述目标函数进行优化求解；

S3，根据得到目标函数优化求解后，通过聚类算法得到聚类行为数据，将聚类行为数据推荐给用户。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S1包括：

S1-1，假设和是行为数据集中两个实例的特征向量，则马氏距离为：其中S是这两个特征向量的协方差矩阵，L表示有标签数据，U表示无标签数据，W_ij表示实例x_i和实例x_j间边的权重。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S2构建权重矩阵的规则包括：

A，如果x_i∈L和x_j∈L，i、j为用户行为数据集中的任意两个行为数据；label(x_i)和label(x_j)为任意两个有标签数据的标签，

B，如果x_i∈L或者x_j∈U，

寻找

μ_{k} = \frac{Σ_{l = 1}^{m} 1 {label (x_{l}) = label (x_{i})} x_{l}}{Σ_{l = 1}^{m} 1 {label (x_{l}) = label (x_{i})}},

{dis}_{\max}^{(k)} = \max (dis (μ_{k}, x_{1}), . . . . . ., dis (μ_{k}, x_{m})),

C，如果x_i∈U或x_j∈L，W_ij与B相同，

D，如果x_i∈U和x_j∈U，

当k∈{1…k}，k为数据点，m为正整数，μ_k为数据点的均值，执行

dis (x_{i}, μ_{k}) \leq {dis}_{\max}^{(k)} and dis (x_{j}, μ_{k}) \leq {dis}_{\max}^{(k),}

当W_ij＝1，或者W_ij＝0。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S2目标函数构建包括：

假设表示P_i(c)和P_j(c)两个高斯分布，这两个分布之间的散度如下：

D (P_{i} (c) | | P_{j} (c)) = \underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)},

c为两个数据分布；

通过

D_{ij} = \frac{1}{2} (D (P_{i} (c) | | P_{j} (c)) + D (P_{j} (c) | | P_{i} (c))) = \frac{1}{2} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)})

变换来度量两个分布P_i(c)和P_j(c)间的相似性；

定义P_i(c)＝P(c|x_i)，

通过

R = Σ_{i, j = 1}^{m} D_{ij} W_{ij} = \frac{1}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)} W_{ij}

来度量条件概率P(c|x)的平滑性；

得到的平滑部分和高斯混合模型的似然估计进行线性组合，得到新的高斯混合模型的目标函数如下，

其中，λ是两部分线性组合的权重系数，从公式中的高斯混合模型和马氏距离相似性矩阵来度量。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S3包括：

S3-1，计算期望，利用对隐藏变量的现有估计值，计算其最大似然估计值；

S3-2，期望最大化，根据计算期望求得的最大似然值来重新计算各参数的值，期望最大化求得的参数估计值被用于下一个计算期望计算中，这个过程不断交替进行。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S3中计算期望包括：

计算隐藏变量P(c_i＝j|x_i)的后验概率，其表达式中包括了三个参数为，类比比率Φ，类别为j的特征均值μ，和类别为j的特征均方差矩阵Σ，利用贝叶斯公式计算其后验概率得：

P (c_{i} = j | x_{i}) = \frac{p (x_{i} | c_{i} = j; μ, Σ) p (c_{i} = j; Φ)}{Σ_{l = 1}^{k} p (x_{i} | c_{i} = l; μ, Σ) p (c_{i} = l; Φ)},

在公式中，p(x_i|c_i＝j；μ,Σ)的值是利用高斯密度函数计算得来，而p(c_i＝j；Φ)表示数据实例中类别c_i＝j所占比率，记为Φ_j。

所述的基于高斯分布和距离相似度的混合聚类的推荐方法，优选的，所述S3中期望最大化包括：

求解函数表达式的最大似然估计，求解出最大似然估计函数中各参数的值；

将目标函数分解为两个部分和

假定则有：

其中，与标准高斯混合模型对数似然估计的表示式完全相同；是利用距离度量学习得到的规则，其中包括P_i(c)，P_i(c)～N(μ_i,Σ_i)，在期望最大化中重新估计得到的Φ_i值与标准高斯混合模型中的参数值是完全相同的，

Φ_{k} = \frac{1}{m} Σ_{i = 1}^{m} p (c_{k} | x_{i});

重新估计均值μ_k和协方差Σ_k参数：

\begin{matrix} D (P_{i} (c) | | P_{j} (c)) = \underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} \\ = Σ_{l = 1}^{k} P_{i} (c_{l}) \log \frac{P_{i} (c_{l})}{P_{j} (c_{l})} \\ = Σ_{l = 1}^{k} P (c_{l} | x_{i}) \log \frac{P (c_{l} | x_{i})}{P (c_{l} | x_{j})} \\ = Σ_{l = 1}^{k} P (c_{l} | x_{i}) \log (\frac{P (x_{i} | c_{i} = k; μ_{l}, Σ_{l}) Φ_{k}}{Σ_{l = 1}^{k} P (x_{i} | c_{i} = l; μ_{l}, Σ_{l}) Φ_{l}} \cdot \frac{Σ_{l = 1}^{k} P (x_{j} | c_{j} = l; μ_{l}, Σ_{l}) Φ_{l}}{P (x_{i} | c_{j} = k; μ_{l}, Σ_{l}) Φ_{k}}) \end{matrix}

\begin{matrix} = Σ_{l = 1}^{k} P (c_{l} | x_{i}) \log \frac{N (x_{i} | μ_{l}, Σ_{l})}{N (x_{j} | μ_{l}, Σ_{l})} \cdot \frac{Σ_{l = 1}^{k} N (x_{j} | μ_{l}, Σ_{l}) Φ_{l}}{Σ_{l = 1}^{k} N (x_{i} | μ_{l}, Σ_{l}) Φ_{l}} \\ = Σ_{l = 1}^{k} P (c_{l} | x_{i}) {[\frac{1}{2} {(x_{j} - μ_{l})}^{T} Σ_{k}^{- 1} (x_{j} - μ_{l}) - \frac{1}{2} {(x_{i} - μ_{l})}^{T} Σ_{k}^{- 1} (x_{i} - μ_{l})] + \log \frac{Σ_{l = 1}^{k} N (x_{j} | μ_{l}, Σ_{l}) Φ_{l}}{Σ_{l = 1}^{k} N (x_{i} | μ_{l}, Σ_{l}) Φ_{l}}} \\ = Σ_{l = 1}^{k} P (c_{l} | x_{i}) {[\frac{1}{2} {(x_{j} - μ_{l})}^{T} Σ_{l}^{- 1} (x_{j} - μ_{l}) - \frac{1}{2} {(x_{i} - μ_{l})}^{T} Σ_{l}^{- 1} (x_{i} - μ_{l})] + O (x_{i} | x_{j})} \end{matrix}

其中，

O (x_{i} | | x_{j}) = \log \frac{Σ_{l = 1}^{k} N (x_{j} | μ_{l}, Σ_{l}) Φ_{l}}{Σ_{l = 1}^{k} N (x_{i} | μ_{l}, Σ_{l}) Φ_{l}},

由于O(x_i||x_j)+O(x_j||x_i)＝0，所以

获得目标函数的局部最大值，将看作拉格朗日函数，参数λ是拉格朗日乘子，通过拉格朗日函数对各个变量进行求导，得到和并令其等于零，求得候选值集合，其中，大写N代表新的函数名、上标T代表矩阵的转秩、大写O代表新的函数名；

根据公式

中的对μ_k求偏导数得：

令得到：

μ_{k} = x_{i} - \frac{λ Σ_{i, j = 1}^{m} {(x_{i} - x_{j}) (P (c_{k} | x_{i}) - P (c_{k} | x_{j}))} W_{ij}}{2 Σ_{i = 1}^{m} P (c_{k} | x_{i})},

根据公式

中的假定对求偏导数得：

令得到对Σ_k的估计，

获得对目标函数中参数Φ_k，μ_k和Σ_k的估计值，将其作为聚类参数的初始值，通过期望最大化聚类算法进行聚类行为数据分析，将聚类行为数据推荐给用户。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

替代用户行为的相似度计算，从而实现基于聚类分析的个性化推荐。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有技术中协同过滤的个性化推荐系统框架图；

图2是本发明基于高斯分布和距离相似度的混合聚类的推荐方法示意图；

图3是本发明基于高斯分布和距离相似度的混合聚类的推荐方法具体实施方式示意图；

图4是本发明基于高斯分布和距离相似度的混合聚类的推荐方法示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图2所示，本发明包括如下步骤：

本发明使用K-Means算法，也被称为K-平均或K-均值，是一种最广泛使用的聚类算法。该算法是以k为输入参数，把n个对象的集合分为k个簇，使得聚类结果中，簇内数据的相似度高，而簇间数据的相似度低。K-Means算法的处理流程如下：首先，随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩余的每个对象，根据其与各个簇均值的距离将其指派到最相似的簇。然后计算每个簇的新均值。这个过程不断重复，直到准则函数收敛。通常采用平方误差准则，其定义如下：

E = Σ_{i = 1}^{k} \underset{p &Element; c_{i}}{Σ} {| p - m_{i} |}^{2}

其中，E是数据集中所有对象的平方误差和，p是空间中的点，m_i是簇c_i的均值。K-Means的算法伪代码描述如表1。

表1K-Means聚类算法伪代码

Table 3.1The Pseudo code description of K-Means clustering algorithm

EM算法又称期望最大化算法(Expectation Maximization,EM)，是Dempster等人1977年提出的求参数极大似然估计的一种方法，它是一种基于模型的聚类方法。EM算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量。假设数据实例分布符合高斯混合模型，算法的目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个实例以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。

高斯混合模型是多个高斯密度函数的线性组合，旨在提供一个比单个高斯函数更丰富的混合模型。给定训练数据集{x₁,…,x_m}，其中x的每一列是一个特征向量，将隐含类别标签用c_i表示。这里假定每一个高斯函数的先验分布c_i＜Multinomial(φ)(其中Φ_j＝p(c_i＝j)，φ_j≥0，c_i有k个值{1,…,k}可取)。并且在给定c_i后，x_i满足多值高斯分布，即x_i|c_i＝j＜N(μ_j,Σ_j)。由此可得到联合概率分布p(x_i,c_i)＝p(x_i|c_i)p(c_i)，从而对这些数据进行建模。

对于高斯混合模型，可简单描述为对于每个实例x_i，可以先从k个类别中按多项式分布抽取一个c_i，然后根据c_i所对应的k个多值高斯分布中生成一个实例x_i，整个过程称作高斯混合模型。需要说明的是c_i仍然是隐含随变量，模型中还包括三个参数Φ，μ，Σ，则最大似然估计可定义为：

按照求函数最大值的常用方法，首先对其求导并令其等于零，然而我们发现这种方法在解决上式的最大似然估计时是行不通的，因为该式的求导结果不是一个封闭解(closed form)。如果假设事先知道了每个实例的c_i，那么这个最大似然估计问题将变得简单。在此，算法引入了隐藏变量P(c|x)表示观察实例x属于类别c的概率，那么最大似然估计函数可以记为：

在下面的公式中，算法引入一个非常有用的符号1{·}，它表示当大括号中表达示的布尔值为真时，1{·}的值为1，否则它的值是0，也即1{true}＝1,1{false}＝0。对Φ，μ，Σ分别求偏导数得：

Φ_{j} = \frac{1}{m} Σ_{i = 1}^{m} 1 {c_{i} = j}

μ_{j} = \frac{Σ_{i = 1}^{m} 1 {c_{i} = j} x_{i}}{Σ_{i = 1}^{m} 1 {c_{i} = j}}

Σ_{j} = \frac{Σ_{i = 1}^{m} 1 {c_{i} = j} {(x_{i} - μ_{j})}^{T} (x_{i} - μ_{j})}{Σ_{i = 1}^{m} 1 {c_{i} = j}}

其中，Φ_j是实例类别中c_i＝j的比率，μ_j是类别为j的数据样本特征的均值，Σ_j是类别为j的数据样本特征的协方差矩阵。

实际上，在确实了聚类簇c_i后，最大似然估计就变得非常接近高斯判别分析模型(Gaussian discriminant analysis model)了，所不同的是c_i在这里扮作类别标签的作用。

考虑之前提到的期望最大化(EM)算法是一个迭代算法，其可以分为两步。应用到这个问题上，第一步(E步)是猜测隐含变量c_i，第二步(M步)是更新模型中的其它参数。在M步中，算法假设在E步中的猜测是完全正确的，则EM算法伪代码描述如表2。

表2EM聚类算法伪代码

Table 3.2The Pseudo code description of EM Clustering Algorithm

在E-步中，将Φ，μ，Σ看作常量，计算c_i的后验概率，也就是估计类别的隐含变量。算法使用了贝叶斯公式，的计算公式如下：

P (c_{i} = j | x_{i}; Φ, μ, Σ) = \frac{p (x_{i} | c_{i} = j; μ, Σ) p (c_{i} = j; Φ)}{Σ_{l = 1}^{k} p (x_{i} | c_{i} = l; μ, Σ) p (c_{i} = l; Φ)}

在公式中，p(x_i|c_i＝j；μ,Σ)的值是利用高斯密度函数计算得来，

P (x_{i} | c_{i} = j, μ, Σ) = \frac{1}{{(2 π)}^{m / 2} {| Σ_{j} |}^{1 / 2}} \exp [- \frac{1}{2} {(x_{i} - μ_{j})}^{T} {Σ_{j}}^{- 1} (x_{i} - μ_{j})]

P(c_i＝j；Φ)＝Φ_j

在上述算法中，使用了聚类分布预测的概率代替了前面的1{c_i＝j}。与K-Means聚类算法相同的是，EM聚类算法的结果仍然受局部最优的影响，所以对参数重新进行多次不同的初始化不失为一种较好的办法。

本发明提出一种基于距离度量和高斯混合模型的半监督聚类算法，旨在研究如何在聚类过程中利用一些监督信息，而这些监督信息在个性化推荐系统中是真实存在的。SSCGD算法的框架描述如图2所示：

从图2可以看出算法主要包括两个部分：距离度量学习和高斯混合模型的似然估计，这两部分通过线性组合构成了该算法的目标函数。在距离度量学习中，利用马氏距离度量两个实例之间的相似度，它充分利用了数据集的几何结构来构造权重矩阵；在高斯混合模型的似然估计中，算法将来自权重矩阵的规则和高斯混合模型进行线性组合，构成SSCGD算法的目标函数。最后利用Kullback-Leibler散度作为距离约束来度量两个高斯分布的相似度，并利用期望最大化算法来对目标函数进行优化和求解。

权重矩阵构建

假设和是数据集合中两个实例的特征向量，则它们间的马氏距离可定义为：其中S是这两个特征向量的协方差矩阵。相较欧氏距离，它考虑到各种特性之间的相关性并且是尺度无关的(scaleinvariant)。定义L表示有标签数据，U表示无标签数据，W_ij表示实例x_i和实例x_j间边的权重。构建权重矩阵的规则如下：

Rule 1 : if x_{i} &Element; L and x_{j} &Element; L, W_{ij} = \{\begin{matrix} 1 & if label (x_{i}) = label (x_{j}) \\ 0 & otherwise \end{matrix}

Rule 2:if x_i∈L or x_j∈U,

where μ^{(k)} = \frac{Σ_{l = 1}^{m} 1 {label (x_{l}) = label (x_{i})} x_{l}}{Σ_{l = 1}^{m} 1 {label (x_{l}) = label (x_{i})}},

{dis}_{\max}^{(k)} = \max (dis (μ_{k}, x_{1}), \cdot \cdot \cdot \cdot \cdot \cdot, dis (μ_{k}, x_{m}))

W_{ij} = \{\begin{matrix} 1 if dis (μ_{k}, x_{j}) < {dis}_{\max}^{(k)} \\ {dis}_{\max}^{(k)} / dis (μ_{k}, x_{j}) otherwise \end{matrix}

Rule 3:if x_i∈U or x_j∈L,W_ij is similar to Rule 2

Rule 4:if x_i∈U and x_j∈U,

while k∈{1…k}do

if dis (x_{i}, μ^{(k)}) \leq {dis}_{\max}^{(k)} and dis (x_{j}, μ^{(k)}) \leq {dis}_{\max}^{(k)}

W_ij＝1 otherwise W_ij＝0

目标函数构建

高斯混合模型可以看作不同高斯组件的线性叠加，并且每个高斯组件都服从于高斯分布，为了度量两个高斯分布之间的相似性，这里采用Kullback-Leibler散度。假设表示P_i(c)和P_j(c)两个高斯分布，那么这两个分布之间的Kullback-Leibler散度可以定义如下：

D (P_{i} (c) | | P_{j} (c)) = \underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} - - - (0.1)

但是公式0.1是不对称的，为了获得一个对称的公式，我们通常利用式0.2中的变换来度量两个分布P_i(c)和P_j(c)间的相似性。

\begin{matrix} D_{ij} = \frac{1}{2} (D (P_{i} (c) | | P_{j} (c)) + D (P_{j} (c) | | P_{i} (c))) \\ = \frac{1}{2} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) \end{matrix} - - - (0.2)

定义P_i(c)＝P(c|x_i)，再考虑构建的权重矩阵W_ij，可以用式0.3来度量条件概率P(c|x)的平滑性。

\begin{matrix} R = Σ_{i, j = 1}^{m} D_{ij} W_{ij} \\ = \frac{1}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij} \end{matrix} - - - (0.3)

将式0.3得到的平滑部分和高斯混合模型的似然估计进行线性组合，得到新的高斯混合模型的目标函数如式0.4。

在式0.4中，目标函数由两个部分组成，公式的前一部分是标准的高斯混合模型，利用Kullback-Leibler散度度量的实例间的相似度，而λ则是两部分线性组合的权重系数。从公式0.4中的目标函数看出，该算法不仅考虑了数据的正态分布信息，也考虑了数据间的几何结构信息，其分别由式0.4中的高斯混合模型和马氏距离相似性矩阵来度量。

同标准的EM聚类算法一样，对式0.4中的目标函数最大值的求解也是采用了期望最大化算法，由于该式的求导结果不是一个封闭解(closed form)。我们将给出详细的对数似然函数的求解过程。

目标函数优化与求解

期望最大化(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计，特别是在数据缺失或数据不完整的情况。在高斯混合模型中，缺失数据就是数据聚类的标签，利用EM算法对其进行求解是两个步骤交替进行。

第一步是计算期望(E-Step)，利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是期望最大化(M-Step)，根据E步求得的最大似然值来重新计算各参数的值。M步上求得的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

计算期望(E-Step)

SSCGD算法的第一步就是计算隐藏变量P(c_i＝j|x_i)的后验概率，其表达式中包括了三个参数Φ，μ和Σ。利用贝叶斯公式计算其后验概率得：

P (c_{i} = j | x_{i}) = \frac{p (x_{i} | c_{i} = j; μ, Σ) p (c_{i} = j; Φ)}{Σ_{l = 1}^{k} p (x_{i} | c_{i} = l; μ, Σ) p (c_{i} = l; Φ)} - - - (0.5)

期望最大化(M-Step)

在第二步(M-Step)中，需要求解函数表达式的最大似然估计。由于表达式的求导结果不是一个封闭解(closed form)，需要利用了期望最大化算法对其进行优化。M步求解的最终目标就是求解最大似然估计函数中各参数的值。

根据求得的目标函数(公式0.4)，为了计算的方便，我们将目标函数分解为两个部分和

假定则有：

根据公式0.6和公式0.7，我们发现与标准高斯混合模型对数似然估计的表示式完全相同；是利用距离度量学习得到的规则，其仅仅包括P_i(c)，而P_i(c)～N(μ_i,Σ_i)。因此在M-步中重新估计得到的Φ_i值与标准高斯混合模型中的参数值是完全相同的。

Φ_{k} = \frac{1}{m} Σ_{i = 1}^{m} p (c_{k} | x_{i}) - - - (0.8)

下一步的任务就是重新估计其它两个参数：均值μ_k和协方差Σ_k。

其中，

O (x_{i} | | x_{j}) = \log \frac{Σ_{l = 1}^{k} N (x_{j} | μ_{l}, Σ_{l}) Φ_{l}}{Σ_{l = 1}^{k} N (x_{i} | μ_{l}, Σ_{l}) Φ_{l}}

由于O(x_i||x_j)+O(x_j||x_i)＝0，所以

下一步，我们的目标是通过对参数进行优化，获得目标函数的局部最大值，可以将看作拉格朗日函数，参数λ是拉格朗日乘子。通过拉格朗日函数对各个变量进行求导，得到和并令其等于零，可求得候选值集合。

根据式0.4中的对μ_k求偏导数得：

令可得：

μ_{k} = x_{i} - \frac{λ Σ_{i, j = 1}^{m} {(x_{i} - x_{j}) (P (c_{k} | x_{i}) - P (c_{k} | x_{j}))} W_{ij}}{2 Σ_{i = 1}^{m} P (c_{k} | x_{i})} - - - (0.9)

根据式0.4中的假定对求偏导数得：

令得到对Σ_k的估计，

根据式0.8，式0.9，式0.10的计算结果，获得对目标函数中参数Φ_k，μ_k和Σ_k的估计值。将其作为聚类参数的初始值，就利用表0.2中的EM聚类算法进行聚类分析。

在基于用户的协同过滤推荐算法中，寻找与目标用户兴趣相似的用户是整个推荐系统的核心，它直接关系到系统最终的推荐质量。本章是利用半监督聚类算法来寻找与目标用户兴趣相似的用户，因此特意设计了一个实验来评估半监督聚类算法的性能。在评估聚类算法时采用了F-Score的方法，它包括信息检索领域中的准确率和召回率。

定义L_r是标准答案中的一个类，其数目为n_r；S_i是聚类算法产生的一个类，其数目为n_i，假设类S_i中有个样本属于标准答案中的类L_r,那么则有：

准确率：

P (L_{r}, S_{i}) = \frac{n_{r}^{i}}{n_{i}};

召回率：

R (L_{r}, S_{i}) = \frac{n_{r}^{i}}{n_{i}};

则聚类算法的F-Score可以定义为：

F (L_{r}, S_{i}) = \frac{2 * R (L_{r}, S_{i}) * P (L_{r}, S_{i})}{R (L_{r}, S_{i}) + P (L_{r}, S_{i})}

对于一个给定的类L_r有，

F - Score (L_{r}) = \max_{S_{i}} F (L_{r}, S_{i}) .

聚类算法的整体F-Score表示为其中c是总的聚类簇数，n_r是类L_r中样本的数目，n是总的样本数目。

对于推荐系统中的TopN评测，假定用户u推荐N个物品记为R(u)，用户在测试集上的行为列表记为T(u)。推荐的准确率和召回率定义为：

Pr ecision = \frac{Σ_{u &Element; U} | R (u) \cap T (u) |}{Σ_{u &Element; U} | R (u) |}

Re call = \frac{Σ_{u &Element; U} | R (u) \cap T (u) |}{Σ_{u &Element; U} | T (u) |}

F - Score = \frac{2 * Pr ecision * Re call}{Pr icision + Re call}

由于基于用户协同过滤的推荐方法存在用户兴趣相似度计算方式单一的问题，且算法的时间复杂度与用户数成平方关系(即O(|U|*|U|))，这将导致当用户数很大时，算法的时间开销巨大。事实上，很多用户相互之间并没有对同样的物品产生过行为，即大多数时候|N(u)∩N(v)|＝0。基于此，本章从计算用户兴趣的相似度方法上进行改进，设计了一个半监督混合聚类算法，实现对用户偏好的聚类分析，帮助寻找目标用户的相似用户集合。该方法的时间复杂度是O(|U|*|k|)，其中|U|表示用户的数量，|k|为聚类算法的迭代次数。一般情况下，聚类算法中的迭代次数远小于用户数量，即|k|＜＜|U|。特别是当用户数量很大时，采用半监督聚类方法大大地减轻了计算用户间相似度的时间开销。

如图4所示，推荐系统中的用户标签是复杂多样的，如有表达物品种类的标签、表达用户观点的标签、与用户相关的标签等。本发明拟通过统计用户标签数据中的常用标签项，制定基于标签项的同义标签项知识库，从语义的角度对标签项进行相似度计算，将语义相似的标签归为同一类并设定一个抽象标签，从而实现对用户标签的归类和抽象。

本发明拟采用关联规则的方法对用户的标签信息进行挖掘，从而生成基于兴趣相似用户间的关联关系。算法的思想是：将用户标签数据中用户之于物品的兴趣偏好信息看作基于关联规则挖掘中的用户购买信息，即将用户抽象标签相同(标签归为同一类)的用户看作关联规则挖掘中的物品购买序列，如图4是基于标签信息的用户关联关系挖掘流程。首先是对用户标签进行清理，去掉那些不能反应用户兴趣的标签或者冗余标签，进而进行标签归类和抽象；然后利用数据挖掘中的Apriori算法或FP-Tree算法对用户进行关联挖掘与分析，从而挑选出支持度(Support)和置信度(Confidence)同时满足阈值条件的关联用户；最后根据既定的策略生成用户的关联关系，包括：相似用户的约束关系和用户对物品的评价等级，将其作为半监督学习建模中的监督信息，从而指导个性化推荐建模的过程。

基于半监督聚类算法的电影推荐流程如图3所示：

在分析用户的人口统计学特征以及电影的信息时，发现一些用户的人口统计学特征非常相似，且用户喜欢的电影集合也有很非常大的雷同，这时我们就可以认为这两个用户具有极大的相似性。在利用半监督聚类算法进行聚类分析时，我们将这部分用户作为成对约束数据，对算法的聚类过程进行指导。

表3是在MovieLens离线数据集上，利用余弦相似度计算用户兴趣的相似度，从而得到的基于用户协同过滤推荐的实验结果。在此实验中，有一个重要的参数K，即为每个目标用户选出K个兴趣相似的用户集合，然后将K个相似用户喜欢的电影集合作为最终的推荐列表。

表3基于用户的协同过滤算法在不同K参数下的实验结果

从表3中的数据可以看出，推荐系统中的准确率与召回率并不和参数K成线性关系。在MovieLens数据集中，当K＝80时，算法会获取较高的准确率与召回率。因此合适的参数K对推荐系统获得较高的精度有一定的影响。当然，推荐结果的精度对参数K的取值也不是特别敏感，相对而言，推荐算法的性能还是比较稳定的。

表4基于聚类分析算法的电影推荐结果

表4是在MovieLens离线数据集上，利用聚类分析方法进行电影推荐得到的实验结果。本实验用到的聚类算法有K-Means算法、EM算法和SSCGD算法，在SSCGD算法中包含了一个成对约束数据比例的问题，实验中设置其值为5％-20％。

对比表3和表4中的数据可以看出，基于传统的聚类分析算法的电影推荐方法取得了与基于用户协同过滤算法几乎相当的成绩。而利用本章提出的SSCGD算法则取得了相当较好的成绩。在成对约束数据的比例设定为15％时，算法取得了获得了最高的准确率为28.92％，和最好的F-Score为20.04％。总体来看，通过对比各种算法在MovieLens数据集上获得的离线实验结果，表明基于SSCGD算法的推荐策略是积极有效的。

分析传统的基于协同过滤的推荐算法与基于聚类的推荐算法，其最大的不同主要在于：传统的协同过滤算法在计算用户兴趣相似度时主要根据用户对电影的评分记录；而本章提出的基于聚类分析的推荐算法，在计算用户兴趣相似度时，不仅用到了用户行为信息(用户对电影的评分记录)，还用到用户的人口统计学特征以及电影本身的信息，从直观上看，这些数据对计算用户兴趣的相似度有一定的作用。

本发明有益效果为：距离度量学习和高斯混合模型的似然估计，这两部分通过线性组合构成了该算法的目标函数。在距离度量学习中，利用马氏距离度量两个实例之间的相似度，它充分利用了数据集的几何结构来构造权重矩阵；在高斯混合模型的似然估计中，算法将来自权重矩阵的规则和高斯混合模型进行线性组合，构成SSCGD算法的目标函数。最后利用Kullback-Leibler散度作为距离约束来度量两个高斯分布的相似度，并利用期望最大化算法来对目标函数进行优化和求解。

提出的SSCGD算法几乎在所有的数据集上都取得了较好的成绩。特别是在diabetes和iris数据集上，相比其它三种半监督聚类算法SSCGD算法取得了更大的准确率提升。在5％的有标签数据下，在diabetes、iris、segment、waveform-5000四个数据集上，SSCGD算法的成绩明显地比其它三种算法好。随着有标签数据比例的增长，SSCGD算法对聚类成绩的改进变得相对越来越小。特别是利用segment数据进行实验时，在20％的有标签数据指导下，T-SVM算法反而比SSCGD算法取得了更好的成绩。总体来说，在少量有标签数据的指导下，本章提出的SSCGD算法对聚类结果的改进是积极有效的。

在词义归纳数据集上的聚类效果

为了评估本章提出的SSCGD算法对聚类效果的改进，本节也利用了自然语言处理领域中的词义归纳任务对该算法进行评测。

词义归纳也称为词义聚类，它是根据词的上下文信息自动获取文本中多义词的词义，其在信息检索、信息抽取、以及机器翻译领域都有着重要的应用。在本实验中，我们利用本章提出的SSCGD算法以及传统的聚类算法(K-Means算法、EM聚类算法)对特征数据进行聚类分析。

在特征的提出上，实验主要提取了目标词以及其窗口一定范围的词，将窗口的大小设定为目标词前后5个窗口，并且去除一些低频词。本次实验是在50个多义词数据集(SIGHAN2010-WSI-SampleData)上进行的，该数据集是中科院软件研究所基础软件国家工程研究中心信息检索实验室提供。该数据集包括50个目标词，每个目标词有50个句子，另外有相应的针对这50个多义词的人工标注，在实验中将其作为标准答案对聚类结果进行评估。

为方便实验结果的测试，特意开发了一个针对实验结果的测试工具，在“加载待评测文件”文本框中选择待测试的文件，在“加载参考标准文件”框中选择标准答案的文件，然后通过“计算待评测文件得分”就可以计算出测试文件的F-Score值，也可通过“查看参考标准数据”检查具体的每一个样本的聚类情况。测试工具还开发了一个“一键操作”功能，选择测试文件和标准答案所在的文件夹，通过“一键操作”功能就可以计算出该文件夹中包括的所有文件的F-Score值。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S1包括：

3.根据权利要求1所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S2构建权重矩阵的规则包括：

B，如果x_i∈L或者x_j∈U，

寻找

μ_{k} = \frac{Σ_{l = 1}^{m} 1 {label (x_{l}) = laberl (x_{i})} x_{l}}{Σ_{l = 1}^{m} 1 {label (x_{l}) = label (x_{i})}},

C，如果x_i∈U或x_j∈L，W_ij与B相同，

D，如果x_i∈U和x_j∈U，

dis (x_{i}, μ_{k}) \leq {dis}_{\max}^{(k)} and dis (x_{j}, μ_{k}) \leq {dis}_{\max}^{(k)},

当W_ij＝1，或者W_ij＝0。

4.根据权利要求1所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S2目标函数构建包括：

D (P_{i} (c) | | P_{j} (c)) = \underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)},

c为两个数据分布；

通过

D_{ij} = \frac{1}{2} (D (P_{i} (c) | | P_{j} (c)) + D (P_{j} (c) | | P_{i} (c))) = \frac{1}{2} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)})

变换来度量两个分布P_i(c)和P_j(c)间的相似性；

定义P_i(c)＝P(c|x_i)，

通过

R = Σ_{i, j = 1}^{m} D_{ij} W_{ij} = \frac{1}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} (c) \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij}

来度量条件概率P(c|x)的平滑性；

\begin{matrix} l_{new} = l - λR \\ = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) (\log p (x_{i} | c_{l}; μ, Σ) + \log Φ_{l}) - \frac{λ}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij} \end{matrix}

5.根据权利要求1所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S3包括：

6.根据权利要求5所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S3中计算期望包括：

P (c_{i} = j | x_{i}) = \frac{p (x_{i} | c_{i} = j; μ, Σ) p (c_{i} = j; Φ)}{Σ_{l = 1}^{k} p (x_{i} | c_{i} = l; μ, Σ) p (c_{i} = l; Φ)},

7.根据权利要求5所述的基于高斯分布和距离相似度的混合聚类的推荐方法，其特征在于，所述S3中期望最大化包括：

将目标函数l_new分解为两个部分l₁和l₂；

假定l_new＝l₁-l₂，则有：

l_{1} = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) (\log p (x_{i} | c_{l}; μ, Σ) + \log Φ_{l}),

\begin{matrix} l_{2} = \frac{λ}{2} Σ_{i, j = 1}^{m} (D (P_{i} (c) | | P_{j} (c)) + D (P_{j} (c) | | P_{i} (c))) W_{ij} \\ = \frac{λ}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij} \end{matrix},

其中，l₁与标准高斯混合模型对数似然估计的表示式完全相同；l₂是利用距离度量学习得到的规则，其中包括P_i(c)，P_i(c)～N(μ_i,Σ_i)，在期望最大化中重新估计得到的Φ_i值与标准高斯混合模型中的参数值是完全相同的，

Φ_{k} = \frac{1}{m} Σ_{i = 1}^{m} p (c_{k} | x_{i});

重新估计均值μ_k和协方差Σ_k参数：

其中，

O (x_{i} | | x_{j}) = \log \frac{Σ_{l = 1}^{k} N (x_{j} | μ_{l}, Σ_{l}) Φ_{l}}{Σ_{l = 1}^{k} N (x_{i} | μ_{l}, Σ_{l}) Φ_{l}},

由于O(x_i||x_j)+O(x_j||x_i)＝0，所以

\begin{matrix} l_{1} = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) (\log p (x_{i} | c_{l}; μ, Σ) + \log Φ_{l}) \\ = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) [\log \frac{1}{{(2 π)}^{m / 2} {| Σ |}^{1 / 2}} - \frac{1}{2} {(x_{i} - μ_{l})}^{T} Σ_{l}^{- 1} (x_{i} - μ_{l}) + \log Φ_{l}] \end{matrix}

\begin{matrix} l_{2} = \frac{λ}{2} Σ_{i, j = 1}^{m} (D (P_{i} (c) | | P_{j} (c)) + D (P_{j} (c) | | P_{i} (c))) W_{ij} \\ = \frac{λ}{2} Σ_{i, j = 1}^{m} {Σ_{l = 1}^{k} [\frac{1}{2} {(x_{j} - μ_{l})}^{T} Σ_{l}^{- 1} (x_{j} - μ_{l}) - \frac{1}{2} {(x_{i} - μ_{l})}^{T} Σ_{l}^{- 1} (x_{i} - μ_{l})] \cdot (P (c_{l} | x_{i}) - P (c_{l} | x_{j}))} W_{ij} \end{matrix}

获得目标函数的局部最大值，将l_new看作拉格朗日函数，参数λ是拉格朗日乘子，通过拉格朗日函数对各个变量进行求导，得到和并令其等于零，求得候选值集合，其中，大写N代表新的函数名、上标T代表矩阵的转秩、大写O代表新的函数名；

根据公式

\begin{matrix} l_{new} = l - λR \\ = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) (\log p (x_{i} | c_{l}; μ, Σ) + \log Φ_{l}) - \frac{λ}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij} \end{matrix}

中的l_new，对μ_k求偏导数得：

\begin{matrix} \frac{{&PartialD; l}_{new}}{{&PartialD; μ}_{k}} = \frac{{&PartialD; l}_{1}}{{&PartialD; μ}_{k}} - \frac{&PartialD; l_{2}}{{&PartialD; μ}_{k}} \\ = Σ_{i = 1}^{m} (x_{i} - μ_{k}) Σ_{k}^{- 1} P (c_{k} | x_{i}) - \frac{λ}{2} Σ_{i, j = 1}^{m} {(x_{i} - x_{j}) Σ_{k}^{- 1} (P (c_{k} | x_{i}) - P (c_{k} | x_{j}))} W_{ij} \end{matrix}

令

\frac{{&PartialD; l}_{new}}{{&PartialD; μ}_{k}} = 0,

得到：

μ_{k} = x_{i} - \frac{λ Σ_{i, j = 1}^{m} {(x_{i} - x_{j}) (P (c_{k} | x_{i}) - P (c_{k} | x_{j}))} W_{ij}}{2 Σ_{i = 1}^{m} P (c_{k} | x_{i})},

根据公式

\begin{matrix} l_{new} = l - λR \\ = Σ_{i = 1}^{m} Σ_{l = 1}^{k} P (c_{l} | x_{i}) (\log p (x_{i} | c_{l}; μ, Σ) + \log Φ_{l}) - \frac{λ}{2} Σ_{i, j = 1}^{m} (\underset{c}{Σ} P_{i} \log \frac{P_{i} (c)}{P_{j} (c)} + \underset{c}{Σ} P_{j} (c) \log \frac{P_{j} (c)}{P_{i} (c)}) W_{ij} \end{matrix}

中的l_new，假定对求偏导数得：

令

\frac{{&PartialD; l}_{new}}{{&PartialD; Σ}_{k}^{- 1}} = \frac{{&PartialD; l}_{1}}{{&PartialD; Σ}_{k}^{- 1}} - \frac{{&PartialD; l}_{2}}{{&PartialD; Σ}_{k}^{- 1}} = 0,

得到对Σ_k的估计，