CN104572915B

CN104572915B - 一种基于内容环境增强的用户事件相关度计算方法

Info

Publication number: CN104572915B
Application number: CN201410833448.1A
Authority: CN
Inventors: 寿黎但; 陈刚; 陈珂; 伍赛; 胡天磊; 王振华
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2017-10-10
Anticipated expiration: 2034-12-29
Also published as: CN104572915A

Abstract

本发明公开了一种基于内容环境增强的用户事件相关度计算方法。利用话题模型将用户和社交事件的档案降低维度转化成话题分布；计算得到该用户档案和该社交事件档案的用户偏好特征；将用户偏好特征作为用户参加所对应事件的概率，计算采用基于协同过滤方法提取线上、线下社交影响特征；根据用户城市的事件，得到当地兴趣的话题分布，再与事件比较来得到本地流行度特征；通过训练学习排序模型，得到用户事件相关度。本发明通过充分挖掘事件社交网络中的内容环境相关信息，提取出用户偏好、社交影响、当地流行度的特征进行计算，并通过结合多项特征提高了最终结果的准确度，解决了个性化推荐系统中针对社交事件这类新对象进行推荐的技术问题。

Description

一种基于内容环境增强的用户事件相关度计算方法

技术领域

本发明涉及一种计算机语言内容处理方法，尤其涉及计算机自然语言处理领域的一种基于内容环境增强的用户事件相关度计算方法。

背景技术

话题模型是一种在文档集合中提取抽象话题的统计学方法。隐含狄利克雷分布(Latent Dirichlet allocation，LDA)是一种常用的主题模型，它以词袋模型为前提，即一篇文档是由一组词构成的集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个话题，文档中的每一个词则由其中的某一个话题生成。LDA方法可以将文档集合中每篇文档的话题以概率分布的形式生成，并且每个话题也能以词语分布的形式来描述。由于通常话题的数量远远小于词的数量，因此主题模型还可以用来进行文本对象的降维，以优化文本处理的效果。

协同过滤是推荐系统中的一种重要方法，被广泛应用于众多商业系统中。协同过滤利用兴趣相似、拥有共同经验的其他用户对某个对象的评分，来预测目标用户对该对象的喜好程序。协同过滤可以分为基于用户的方法、基于对象的方法和基于模型的方法。协同过滤方法依赖于用户针对对象的历史评分信息，因此对于一个新加入系统的对象，只有当足够的用户对其进行评分后，推荐系统才能推荐出该对象。

学习排序是在构建信息检索系统的排序模型时的一种机器学习方法，并被广泛应用于许多领域，如文档获取、推荐系统、情感分析和广告投放等。在推荐系统中，学习排序是一种重要的排序方法。学习排序针对被推荐的用户、所要推荐的对象和推荐任务学习特定的排序模型。在用户和推荐对象之间定义多项特征，训练数据是这些特征向量的列表的集合，每个列表中的向量之间具有特定的顺序。排序模型的目标是对于新的对象产生的向量组成的列表，能够以训练集中相似的方式产生对象的排列。学习排序方法分为逐点方法、逐对方法以及逐列方法。

社交事件不同于传统的推荐内容，每一个待推荐的事件都还未发生，因此是一个新对象。已有的推荐方法不能很好地解决这类新对象的推荐问题。另一方面，事件社交网络中包含了用户之间线上和线下的双重社交关系，需要同时考虑这两种社交关系对用户和事件之间相关度的影响。本发明以用户和事件的内容为核心，充分挖掘内容环境相关的多种信息，提供了用户事件相关度的计算方法，并解决了社交事件推荐的问题。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于内容环境增强的用户事件相关度计算方法，其中包含有话题模型方法、推荐系统领域的协同过滤方法以及机器学习领域的学习排序方法，很好地解决计算机语言处理中社交事件推荐这类对象计算的技术问题。

本发明解决其技术问题采用的技术方案如下：

1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案，利用话题模型将用户档案和社交事件档案降低维度转化成话题分布向量；通过比较一个用户档案和一个社交事件档案的话题分布，计算得到该用户档案和该社交事件档案对应下的用户偏好特征；

2)将用户偏好特征作为用户参加所对应事件的概率，利用该概率对该事件进行计算，采用基于协同过滤方法分别提取线上、线下社交影响特征；

3)根据用户所在地举办的所有事件，得到该城市的当地兴趣的话题分布，通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征；即通过计算事件e_j和用户u_i所在城市的当地兴趣之间的话题相似度，作为事件e_j的本地流行度特征。

4)由步骤1)～步骤3)中得到的各个特征通过训练学习排序模型，得到用户事件相关度，以对用户进行事件推荐。

所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。

所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合，用户的描述信息为用户自己选择的兴趣关键词集合，社交事件的描述信息为社交事件的属性关键词集合。

本发明通过事件的内容信息，即名字和描述来构建事件e_j的档案，该档案是以文本的形式表示，即一个词的集合。用户u_i的档案则由两部分组成：用户自己选择的兴趣关键词以及他已参加过的社交事件，这样用户档案便同时包含了用户的自我评价和过往的行为。

然后，对用户和事件的档案进行比较，以得到用户和事件的相似度。但是，由于文本内容的高维度和稀疏性，直接对文本形式的档案之间计算相似度效果不好。因此，步骤1)的用户偏好特征采用以下方式计算得到：

采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布u_i表示第i个用户，e_j表示第j个社交事件，然后采用以下公式计算用户偏好特征Pref(u_i,e_j)：

其中，和分别是用户档案和事件档案下的话题分布，M是用户话题分布和社交事件话题分布的平均量；

上述的是M到的Kullback-Leibler散度(Kullback-LeiblerDivergence)，采用以下公式计算：

其中，是用户档案的话题分布中第z个话题的权重，M(z)是平均量M中第z个话题的权重；

上述的是M到的Kullback-Leibler散度，采用以下公式计算：

其中，是社交事件档案的话题分布中第z个话题的权重。

为方便比较，把用户偏好特征Pref(u_i,e_j)在[0,1]范围内，在Kullback-Leibler散度和的计算过程中使用以2为底的对数。本发明涉及的其他Kullback-Leibler散度的计算都使用以2为底的对数。

由于用户偏好特征代表了事件和用户个人兴趣的匹配程度，也就是用户会参加该事件的可能性。因此，将用户偏好特征作为用户参加所对应事件的概率，从而可以基于协同过滤方法提取出描述社交影响的特征。由于事件社交网络区别于传统社交网络的独特之处在于它包含了线上和线下的两种社交关系，所以需要同时考虑线上朋友和线下朋友的影响。

由此，步骤2)中的线上、线下社交影响特征采用以下方式进行计算：

将用户偏好特征作为用户参加所对应事件的概率，对所对应事件进行评分计算，并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Inf^on(u_i,e_j)和线下社交影响特征Inf^off(u_i,e_j)：

其中，v、v′分别表示用户u_i的一个线上朋友和一个线下朋友，线上朋友为参加同一个小组的用户，小组为具有相同兴趣爱好的用户组成的用户集合，线下朋友为参加同一个事件的用户，分别表示用户u_i线上、线下的朋友集合，Pref(v,e_j)、Pref(v′,e_j)分别表示用户u_i的线上朋友v和线下朋友v′对事件e_j的用户偏好特征，表示用户u_i与其线上朋友v的用户偏好特征，表示用户u_i与其线下朋友v′的用户偏好特征。

用户u_i与其线上朋友v的用户偏好特征采用以下公式进行计算：

其中，θ_v是用户u_i的线上朋友v档案的话题分布，M₁是用户话题分布与其线上朋友v档案的话题分布θ_v的平均量；

上述的是M₁到的Kullback-Leibler散度，采用以下公式计算：

其中，是用户档案的话题分布中第z个话题的权重，M₁(z)是平均量M₁中第z个话题的权重；

上述的D_kl(θ_v||M₁)是M₁到θ_v的Kullback-Leibler散度，采用以下公式计算：

其中，θ_v(z)是线上朋友v档案的话题分布中第z个话题的权重。

用户u_i与其线下朋友v′的用户偏好特征为：

其中，θ_v'是用户u_i的线下朋友v′档案的话题分布，M₂是用户话题分布与其线下朋友v′档案的话题分布θ_v'的平均量；

上述的是M₂到的Kullback-Leibler散度，采用以下公式计算：

其中，是用户档案的话题分布中第z个话题的权重，M₂(z)是平均量M₂中第z个话题的权重；

上述的D_kl(θ_v'||M₂)是M₂到θ_v'的Kullback-Leibler散度，采用以下公式计算：

其中，θ_v'(z)是线下朋友v′档案的话题分布中第z个话题的权重。

通过计算事件e_j和用户u_i所在城市的当地兴趣之间的话题相似度，来得到事件e_j的当地流行。首先需要计算当地兴趣的话题分布，用户u_i所在的城市中事件的当地兴趣话题和社交事件话题均呈高斯分布。

由此步骤3)中的本地流行度特征采用以下方式计算得到：

3.1)根据最大似然估计，用户u_i所在城市的当地兴趣话题分布通过下式得到：

其中，R_i是在用户u_i所在的城市，e'表示在城市R_i内举办的单个事件，N_e'是事件e'的参与人数，θ_e'为社交事件e'的话题分布；

3.2)然后比较当地兴趣话题分布和社交事件话题分布采用以下公式计算得到事件e_j下的本地流行度特征Pop(R_i,e_j)：

其中，M₃是当地兴趣话题分布和社交事件档案的话题分布的平均量；

上述的是M₃到的Kullback-Leibler散度，采用以下公式计算：

其中，是当地兴趣话题分布中第z个话题的权重，M₃(z)是平均量M₃中第z个话题的权重；

上述的是M₃到的Kullback-Leibler散度，采用以下公式计算：

其中，是社交事件档案的话题分布中第z个话题的权重。

所述的用户u_i所在的城市中社交事件的话题分布呈高斯分布。

本发明经过上述三个特征提取阶段，从各个用户-事件对中得到了一系列内容环境相关的特征数据。接下来，把它们聚合到一个排序模型的排序函数中，通过排序模型进行学习排序。

在社交事件与用户相似度计算的情形中，用户的评价只能是二元的，即一个用户要么参加了一个事件，要么没有参加，用户也不可能多次参加同一个事件，因此采用逐对学习排序方法。从一个用户-事件对中得到的特征被表示为一个特征向量x。排序函数f是一个线性函数f(x)＝<w,x>，其中w是权重向量，<·,·>代表内积操作。训练实例的形式为i＝1,...,m。其中每一个训练实例由两个特征向量组成的对和一个标识yⁱ组成。这两个特征向量必须对应同一个用户。

由此，步骤4)具体采用以下排序模型进行训练：

4.1)对于同一个用户和同一个事件，利用步骤1)～3)得到的四个特征，组成一个特征向量x；由各个用户和各个事件相互之间构建得到训练集的各个用户-事件对，并以以下公式构建包括有同一用户下两个用户-事件对的训练实例，且该用户仅参加了两个用户-事件对所对应的两个事件中任意一事件；

其中，分别表示同一个用户对应的两个用户-事件对，y_i表示顺序标识；当该用户参加了用户-事件对中的事件，而未参加用户-事件对中的事件，则顺序标识y_i为1；当该用户参加了用户-事件对中的事件，而未参加用户-事件对中的事件，则顺序标识y_i为-1；i＝1,...,m，i为训练实例的序数，m为训练实例总数；

4.2)将所有训练实例输入排序函数f(x)＝<w,x>，x为特征向量，<·,·>代表内积操作，使用梯度下降方法最小化以下公式的损失函数，得到损失函数最小值时的权重向量w，该排序模型的损失函数L(w)为：

其中，[·]₊代表函数max(·,0)，w是权重向量，λ为正则化参数，u(i)是第i个训练实例所对应的用户，N_u(i)是用户u(i)拥有的训练实例个数。

上述公式的第一项表示Hinge损失，第二项是对权重向量w的正则化

4.3)对于新的用户-事件对，采用上述步骤1)～3)计算得到四个特征，组成一个特征向量x，代入采用排序函数f(x)＝<w,x>中得到用户事件相关度f(x)。

根据用户与事件推荐值的大小进行排序，向该用户推荐事件，用户与事件推荐值越大排序越靠前。

本发明首先设计了基于话题内容的用户偏好计算方法，在此基础上，基于线上和线下的社交关系提取出基于协同过滤的特征，同时用当地流行度来衡量事件和用户的当地兴趣之间的相似度，最后通过排序学习方法训练得到事件排序模型，实现了用户与事件相关度的计算，并进行推荐。

本发明具有的有益效果是：

本发明通过充分挖掘事件社交网络中的内容环境相关信息，提取出用户偏好、社交影响、当地流行度的特征，使用学习好的排序模型进行用户事件相关度的计算，可用于社交事件的推荐，可克服社交事件推荐的新对象问题，并通过结合多项特征提高了结果的准确度，提高推荐的效果。

附图说明

图1是本发明实施步骤流程图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1，本发明具体实施过程和工作原理如下：

1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案，利用话题模型将用户档案和社交事件档案降低维度转化成话题分布向量；通过比较一个用户档案和一个社交事件档案的话题分布，计算得到该用户档案和该社交事件档案对应下的用户偏好特征。

用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。用户的描述信息和社交事件的描述信息均为由关键词构成的集合，用户的描述信息为用户自己选择的兴趣关键词集合，社交事件的描述信息为社交事件的属性关键词集合。

用户偏好特征采用以下方式计算得到：

上述的是M到的Kullback-Leibler散度，采用以下公式计算：

其中，是社交事件档案的话题分布中第z个话题的权重。

线上、线下社交影响特征采用以下方式进行计算：将用户偏好特征作为用户参加所对应事件的概率，对所对应事件进行评分计算，并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Inf^on(u_i,e_j)和线下社交影响特征Inf^off(u_i,e_j)：

为：

上述的是M₁到的Kullback-Leibler散度，采用以下公式计算：

为：

上述的是M₂到的Kullback-Leibler散度，采用以下公式计算：

3)根据用户所在地举办的所有事件，得到该城市的当地兴趣的话题分布，通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征。

本地流行度特征采用以下方式计算得到：

上述的是M₃到的Kullback-Leibler散度，采用以下公式计算：

其中，是社交事件档案的话题分布中第z个话题的权重。

4)由步骤1)～步骤3)中得到的各个特征通过训练学习排序模型，得到用户事件相关度。

训练一个支持向量机模型，对特征向量对的次序进行分类，从而利用排序模型来进行排序：

4.1)对于同一个用户和同一个事件，利用步骤1)～3)得到的四个特征，组成一个特征向量x；由各个用户和各个事件相互之间构建得到各个用户-事件对，并以以下公式构建包括有同一用户下两个用户-事件对的训练实例，且该用户仅参加了两个用户-事件对所对应的两个事件中任意一事件；

4.2)将训练实例输入排序函数f(x)＝<w,x>，x为特征向量，<·,·>代表内积操作，使用梯度下降方法最小化以下公式的损失函数，得到损失函数最小值时的权重向量w，该排序模型的损失函数L(w)为：

Claims

1.一种基于内容环境增强的用户事件相关度计算方法，所述方法用于计算机语言处理中社交事件推荐，其特征在于，该方法的步骤如下：

1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案，利用话题模型将用户档案和社交事件档案降低维度转化成话题分布；通过比较一个用户档案和一个社交事件档案的话题分布，计算得到该用户档案和该社交事件档案对应下的用户偏好特征；

所述的步骤2)中的线上、线下社交影响特征采用以下方式进行计算：将用户偏好特征作为用户参加所对应事件的概率，对所对应事件进行评分计算，并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Inf^on(u_i,e_j)和线下社交影响特征Inf^off(u_i,e_j)：

<mrow> <msup> <mi>Inf</mi> <mrow> <mi>o</mi> <mi>n</mi> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>n</mi> </mrow> </msubsup> </mrow> </msub> <msub> <mi>w</mi> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>v</mi> </mrow> </msub> <mo>&CenterDot;</mo> <mi>Pr</mi> <mi>e</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>n</mi> </mrow> </msubsup> </mrow> </msub> <msub> <mi>w</mi> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>v</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

<mrow> <msup> <mi>Inf</mi> <mrow> <mi>o</mi> <mi>f</mi> <mi>f</mi> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>f</mi> <mi>f</mi> </mrow> </msubsup> </mrow> </msub> <msub> <mi>w</mi> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>&CenterDot;</mo> <mi>Pr</mi> <mi>e</mi> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>f</mi> <mi>f</mi> </mrow> </msubsup> </mrow> </msub> <msub> <mi>w</mi> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </mrow> </msub> </mrow> </mfrac> </mrow>

其中，v、v′分别表示用户u_i的一个线上朋友和一个线下朋友，线上朋友为参加同一个小组的用户，小组为具有相同兴趣爱好的用户组成的用户集合，线下朋友为参加同一个事件的用户，F_i ^on、F_i ^off分别表示用户u_i线上、线下的朋友集合，Pref(v,e_j)、Pref(v′,e_j)分别表示用户u_i的线上朋友v和线下朋友v′对事件e_j的用户偏好特征，表示用户u_i与其线上朋友v的用户偏好特征，表示用户u_i与其线下朋友v′的用户偏好特征；

3)根据用户所在城市举办的所有事件，得到该城市的当地兴趣的话题分布，通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征；

2.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。

3.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合，用户的描述信息为用户自己选择的兴趣关键词集合，社交事件的描述信息为社交事件的属性关键词集合。

4.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的步骤1)的用户偏好特征采用以下方式计算得到：

<mrow> <mi>Pr</mi> <mi>e</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mi>M</mi> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mi>M</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

上述的是用户话题分布M到事件档案话题分布的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>M</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

上述的是用户话题分布M到社交事件话题分布的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>M</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，是社交事件档案的话题分布中第z个话题的权重。

5.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的用户u_i与其线上朋友v的用户偏好特征采用以下公式进行计算：

<mrow> <msub> <mi>w</mi> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>v</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <mi>v</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

上述的是M₁到的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>v</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <mi>v</mi> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <mi>v</mi> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

6.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的用户u_i与其线下朋友v′的用户偏好特征采用以下公式进行计算：

<mrow> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

上述的是M₂到的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msup> <mi>v</mi> <mo>&prime;</mo> </msup> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

7.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的步骤3)中的本地流行度特征采用以下方式计算得到：

<mrow> <msub> <mi>&theta;</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>&theta;</mi> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> </msub> <mo>&CenterDot;</mo> <msub> <mi>N</mi> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> </msub> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> </mrow> </msub> <msub> <mi>N</mi> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> </msub> </mrow> </mfrac> </mrow>

<mrow> <mi>P</mi> <mi>o</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>3</mn> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>3</mn> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

上述的是M₃到的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

上述的是M₃到的Kullback-Leibler散度，采用以下公式计算：

<mrow> <msub> <mi>D</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <munder> <mo>&Sigma;</mo> <mi>z</mi> </munder> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <msub> <mi>&theta;</mi> <msub> <mi>e</mi> <mi>j</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>M</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，是社交事件档案的话题分布中第z个话题的权重。

8.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的用户u_i所在的城市中事件的当地兴趣话题和社交事件话题均呈高斯分布。

9.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法，其特征在于：所述的步骤4)具体采用以下排序模型进行训练：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mrow> <mi>u</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </msub> </mfrac> <msub> <mrow> <mo>&lsqb;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo><</mo> <mi>w</mi> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>></mo> <mo>&rsqb;</mo> </mrow> <mo>+</mo> </msub> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

其中，[·]₊代表函数max(·,0)，w是权重向量，λ为正则化参数，u(i)是第i个训练实例所对应的用户，N_u(i)是用户u(i)拥有的训练实例个数；