CN111061961A

CN111061961A - 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统

Info

Publication number: CN111061961A
Application number: CN201911137480.5A
Authority: CN
Inventors: 钱忠胜; 谢晓欣
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-04-24
Anticipated expiration: 2039-11-19
Also published as: CN111061961B

Abstract

本发明公开了一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统。首先，根据社交关系中好友与非好友对用户决策的影响，结合用户评分利用自适应带宽核密度方法，计算用户签到的个性化分布，并得出兴趣点间的相关性。然后，由于Bi‑LSTM输出的序列具有词语语义和词序列前后间语法等隐藏信息的特征，而CNN擅长从一系列特征中捕捉显著特征，故而将Bi‑LSTM和CNN叠加组成新的深层神经网络，从而学习用户和兴趣点的潜在特征。最后，通过概率矩阵方法将社交、地理位置、分类偏好以及潜在特征相融合，预测用户的个性化偏好，从而达到个性化推荐的目的。

Description

一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统

技术领域

本发明涉及信息推荐技术领域，具体涉及一种基于融合多特征的矩阵分解兴趣点推荐方法及其实现系统。

背景技术

随着智能手机及智能设备的不断发展，基于位置社交网络(Location BasedSocial Networks,简称LBSN)的应用(如Yelp、Foursquare、街旁等)吸引着越来越多的用户共享他们的签到状态、位置以及相关评论等。基于位置的社交网络兴趣点推荐就是通过过滤社交网络中海量的信息，为用户提供最具有吸引力和最相关的兴趣点(如酒店、餐厅、景点等)，减轻信息负载带来的负面影响，从而促进了兴趣点推荐在大数据时代的不断发展。

近年来，兴趣点(Point of Interest,简称POI)推荐已经成为一个非常热门的研究课题。当前，大多数的兴趣点推荐方法都是基于用户的历史签到信息和情景信息(包括社交关系、类别信息等)以及评论信息来挖掘用户对未访问的兴趣点的偏好。但是已有的兴趣点推荐方法存在诸多问题。例如，数据稀疏问题、情景信息利用问题、评论信息在矩阵分解中的利用问题、评论信息学习模型自身的缺陷问题等。

为了降低数据的稀疏性，许多兴趣点推荐方法将用户的历史签到信息及其情景信息(如评分、地点、时间、社交关系等)结合来挖掘用户对于未签到的兴趣点的偏好。然而，在将这些情景信息以数学模型表示时，大部分都只考虑其特征中的一种情况，不能准确有效地表示该情景信息或者说会忽略该情景信息中的一些信息(例如，在考虑社交关系时仅考虑用户和好友之间的关系)，这会对结果造成一定的偏差。大多数研究在矩阵分解中仅利用用户和POI的描述文档而忽略了用户本身的特征属性。诸多基于深度学习的兴趣点推荐研究中都仅仅利用一种模型学习评论文本的内容表示。然而，单个模型都或多或少存在自身的缺点，这些缺点往往都被忽略。因此，利用单个模型学习评论文本的内容表示可能会遗忘或忽视文本中的部分内容，造成推荐结果的偏差。

发明内容

有鉴于此，有必要提供一种充分利用评论文本、提供个性化推荐兴趣点的融合多特征的矩阵分解兴趣点推荐方法及其实现系统。

一种融合多特征的矩阵分解兴趣点推荐方法，包括以下步骤：

步骤一，重构多源异构特征，所述多源异构特征包括对地理位置信息、类别偏好信息和社交关系信息，对所述多源异构特征进行重构，对应得到用户评分矩阵、分类偏好矩阵、流行度矩阵和用户活跃度；

步骤二，利用文本信息挖掘用户和兴趣点的潜在模型，生成一个混合深度神经网络HDNN结构，以自上而下的方式学习文档的潜在分布表示，通过分析用户和兴趣点的评论文档，生成文档潜在模型；

步骤三，基于乘法法则融合所述多源异构特征，生成融合地理位置、类别偏好、社交关系及混合深度神经网络的多特征融合的概率矩阵分解模型，并对概率矩阵分解模型中的参数进行优化，以预测用户的个性化偏好。

进一步地，步骤一中的所述地理位置信息的重构是指利用用户已访问的兴趣点和未访问的兴趣点间的地理位置关系来估算用户在未访问兴趣点上的相关得分，根据每个用户已访问过的兴趣点估算地理坐标上的个性化签到分布；所述类别偏好信息的重构是指将用户对类别的偏好和兴趣点的流行度计算用户和兴趣点之间的关联评分；所述社交关系信息的重构是指通过用户间的相似性对用户的签到行为进行分析，在皮尔森相关系数法的基础上，利用用户活跃度重新定义用户的相似性。

进一步地，步骤二中的所述混合深度神经网络包括双向长短期记忆网络和卷积神经网络，所述双向长短期记忆网络用于构建用户和兴趣点评论文档中每个文本句子的表示，所述卷积神经网络用于将所有文本块的语义及其关系编码到文档表示中。

进一步地，所述混合深度神经网络包括嵌入层、双向长短期记忆网络层、卷积神经网络层、池化层和输出层，其中：

所述嵌入层用于提取文档的语义信息，利用Glove词嵌入方法，将每个词转换为实值向量，把每个文本片段表示为单词嵌入序列；设令s表示为包含n个单词的文本块，每个单词都映射到一个全局向量，则有：

其中，向量e_i表示第i个单词的向量，为保持单词在文本块s中的顺序，将单词嵌入的向量连接在一起，并将文档按时间顺序排列成T个文本块，得到一个序列：S＝(s₁,s₂,…,s_t,…s_T)，其中，s_t是第t个文本块的子序列；

所述双向长短期记忆网络层用于挖掘文档中词序列间的隐藏信息；双向长短期记忆网络同时对文档中每个词的上下文信息进行语义编码并对其前后信息进行建模，将前向LSTM的输出序列

和后向LSTM的输出序列

连接起来作为下一层卷积层的输入；第t时刻隐藏向量h(t)的更新公式如下：

f_t＝σ(W_f[h(t-1),s_t]+b_f) (2)

i_t＝σ(W_i[h(t-1),s_t]+b_i) (3)

o_t＝σ(W_o[h(t-1),s_t]+b_o) (4)

h_t＝o_t*tanh(C_t) (7)

所述卷积神经网络层用于抽取文本句子间的结构特征；在卷积层，每个神经元j使用一个滤波器

其中m为卷积计算的滑动窗口，l为LSTM层输出向量的大小；对h(t)运用卷积算子

计算出新的特征g_j，如式(9)表示：

其中，b_j是偏置项，δ是激活函数；在sigmoid、tanh、修正线性单元的激活函数中，使用ReLU激活函数，避免了梯度消失的问题；

所述池化层用于从卷积神经网络层提取具有代表性的特征，并通过池化操作将可变长度的文档构造成固定长度的向量特征；利用max-pooling操作，从每个上下文特征向量中提取最大上下文特征，将一个文档的表示缩减为一个定长向量，如式(10)和式(11)表示：

d_j＝max{g₁,g₂,…,g_n-m+l} (10)

其中，w表示卷积层的核数；引入非线性，在max-pooling的基础上添加激活函数双曲正切函数tanh；在文本分析中，将不同单词窗口生成的所有特征向量串联起来，形成s_t的最终表示形式：

其中，m∈{3,4,5}；

所述输出层用于将原始文档转换为密集的分布表示形式，使用dropout函数防止过拟合；利用常规非线性投影将卷积层提取的高阶特征投影到k维空间上，如式(12)表示：

其中，Q为k×f投影矩阵，b为Q的偏置向量，

为池化层的输出。

进一步地，所述混合深度神经网络首先通过Embedding函数构建所述嵌入层，输出序列S；其次通过Bidirectional函数构建所述双向长短期记忆网络层；再将双向长短期记忆网络层的输出输入到卷积神经网络层的卷积操作中，并对卷积的结果进行降维，其中的激活函数为tanh函数；然后利用dropout函数防止结果过拟合；最后构建混合深度神经网络模型及设置其损失函数。

进一步地，步骤三中的所述基于乘法法则融合所述多源异构特征是指采用乘法法则融合地理、社交与分类偏好相关分数，并将这些分数融合到概率矩阵分解模型中；首先评估用户所在位置经纬度坐标的个性化签到分布，基于地理相关性，推导用户对未签到的兴趣点的地理相关分数；然后根据其他用户已签到的兴趣点，利用用户的社交关系，推导用户对未签到的兴趣点的社会相关分数；最后，根据用户已签到的兴趣点与未签到的兴趣点的分类与流行度，基于分类相关性，推导用户对未签到的兴趣点的分类相关分数。

进一步地，步骤三中的所述多特征融合的概率矩阵分解模型中集成了混合深度神经网络、地理位置信息、类别偏好信息和社交关系信息的重构的多源异构特征。

进一步地，步骤三中的所述对概率矩阵分解模型中的参数进行优化是指通过使用极大后验估计法，以实现优化混合深度神经网络的用户潜在模型、兴趣点潜在模型、权重和偏置变量。

以及，一种融合多特征的矩阵分解兴趣点推荐的实现系统，其用于实现如上所述的融合多特征的矩阵分解兴趣点推荐方法，该实现系统包括：

重构多源异构特征模块，利用用户和兴趣点的评论信息、地理信息、分类信息、用户的社交信息、用户属性信息以及兴趣点的签到信息和评论内容对地理位置信息、类别偏好信息和社交关系信息进行重构；

混合深度神经网络模块，用于利用文档信息挖掘用户和兴趣点的潜在模型，以自上而下的方式学习文档的潜在分布表示；

多特征融合的概率矩阵分解模型模块，用于形成融合混合深度神经网络、地理位置信息、类别偏好信息和社交关系信息的重构的多源异构特征的概率矩阵分解模型。

进一步地，所述混合深度神经网络模块包括嵌入层模块、双向长短期记忆网络层模块、卷积神经网络层模块、池化层模块和输出层模块，其中：

所述嵌入层模块用于提取文档的语义信息，并将每个词转换为实值向量，把每个文本片段表示为单词嵌入序列；

所述双向长短期记忆网络层模块用于挖掘文档中词序列间的隐藏信息；

所述卷积神经网络层模块用于抽取文本句子间的结构特征；

所述池化层模块用于从卷积神经网络层提取具有代表性的特征，并通过池化操作将可变长度的文档构造成固定长度的向量特征；

所述输出层模块用于将原始文档转换为密集的分布表示形式，防止结果过拟合。

本发明主要有以下几个方面的贡献：

1)本软件提出一种融合评分的自适应带宽核密度评估法，构建兴趣点之间的地理位置相关性；通过信息熵计算用户的活跃度，结合用户活跃度和皮尔森相关系数法计算用户相似性，并和用户的社交朋友关系相结合计算用户社交相关性；结合用户分类偏好和兴趣点流行度构建分类相关性。提出融合评论信息、地理位置、分类偏好和社交关系的概率矩阵分解模型。实验结果表明，与其他前沿方法比较，本方法在评分预测精度和top-k推荐的召回率中表现更好。

2)本软件利用叠加的双向长短期记忆网络(Bi-directional Long-Short TermMemory,Bi-LSTM)和卷积神经网络(Convolutional Neural Networks,CNN)的混合深度神经网络(HDNN)获取评论信息中用户和POIs的潜在特征，并且同时考虑词序和上下文对用户和POIs的潜在特征的影响，生成比LDA模型更好的潜在特征表示。特别是在用户-POIs签到矩阵比较稀疏时，叠加的混合深度神经网络有助于深入的了解评论信息，产生更好的潜在模型。实验结果表明，本软件的HDNN模型有更好的潜在特征学习能力。

上述基于融合多特征的矩阵分解兴趣点推荐方法及其实现系统中，根据社交关系中好友与非好友对用户决策的影响；结合用户评分利用自适应带宽核密度方法，计算用户签到的个性化分布，并得出POI间的相关性；由于Bi-LSTM输出的序列具有词语语义和词序列前后间语法等隐藏信息的特征，而CNN擅长从一系列特征中捕捉显著特征，故而将Bi-LSTM和CNN叠加组成新的深层神经网络，从而学习用户和POIs的潜在特征。最后，通过概率矩阵方法将社交、地理位置、分类偏好以及潜在特征相融合，预测用户的个性化偏好，从而达到个性化推荐的目的。

附图说明

图1是本发明实施例的融合多特征的矩阵分解兴趣点推荐方法的混合深度神经网络结构图。

图2是本发明实施例的融合多特征的矩阵分解兴趣点推荐方法的双向长短期记忆网络结构图。

图3是本发明实施例的融合多特征的矩阵分解兴趣点推荐方法的多特征融合的概率矩阵分解模型结构图。

具体实施方式

本实施例以融合多特征的矩阵分解兴趣点推荐方法为例，以下将结合具体实施例和附图对本发明进行详细说明。

请参阅图1、图2和图3，示出本发明实施例提供的一种融合多特征的矩阵分解兴趣点推荐方法。

从多源异构特征重构、上下文感知的混合网络模型、多特征融合的矩阵分解兴趣点推荐这三个方面详细阐述该软件的具体实施细节。

1.多源异构特征重构

首先给出涉及到的相关定义，然后详细讨论地理位置、类别偏好、社交关系信息的重构方法。涉及到的主要符号有：U＝{u₁,u₂,…,u_L}为用户的集合，L表示用户的数量；V＝{v₁,v₂,…,v_J}为LBSNs中所有兴趣点的集合，J表示兴趣点的数量；C＝{c₁,c₂,…,c_K}为兴趣点类别的集合，K为类别的数量且一个兴趣点可以同时属于多个分类。下面给出研究过程中需要用到的相关定义。

定义1.用户评分矩阵。给定一个LBSN上的兴趣点的用户评分数据，构建一个二维矩阵R_U×V，矩阵中每个元素

代表用户u_i∈U在位置v_j∈V上的评分。

定义2.分类偏好矩阵。给定一个LBSN上的兴趣点的用户历史评分数据和兴趣点的分类信息，构建一个二维矩阵B_U×C，矩阵中的每个元素

表示用户u_i∈U访问属于类c_j∈C的兴趣点的频率。

定义3.流行度矩阵。给定一个LBSNs上的兴趣点的签到人数和签到时间，构建一个二维矩阵P_T×V。矩阵中的每个元素

代表在t_i时刻在兴趣点v_j的签到频率，即在t_i时刻兴趣点v_j的流行度。

定义4.用户活跃度。用户已评论兴趣点的类别数和用户互动量称为用户活跃度，用Q(u_i)表示。

其中,p_c表示用户u_i已评论的第c类兴趣点占所有已评论兴趣点的数量比例，c是兴趣点的类别数量，p_I表示用户u_i的互动量，即用户的点赞数和粉丝数所占比例。

1.1地理位置信息重构

根据地理学第一定律(Tobler's First Law of Geography)：所有事物间都是存在联系的，但距离越近的事物关联性更强；用户的签到行为具有聚集效应(ClusteringPhenomenon)，即用户在一个兴趣点签到的概率和距该兴趣点的远近呈反比。本软件利用用户已访问的POIs和未访问的POIs间的地理位置关系来估计用户在未访问POIs上的相关得分。根据每个用户已访问过的POIs估计地理坐标上的个性化签到分布。

目前的工作基于非参数估计方法从用户的签到信息中学习分布形式，即，用固定带宽估计核密度。然而，固定带宽并没有反映用户签到数据中的事实：人口密集的城市地区签到密度高，人口稀少的农村地区签到密度低。每个用户的签到分布是不同的。为此，针对每个用户的签到数据调整内核带宽，并从签到数据中学习自适应带宽。通常，自适应核密度估计方法包括三个步骤:试点估计、局部带宽确定和自适应核估计。

首先，基于固定带宽核密度估计法找到一个试点估计。令集合V_u＝{v₁,v₂,…,v_n}为用户已访问POI的集合。V_u中的每一个POIv_i都有一对经纬度坐标(x_i,y_i)。通常情况下，用户对某个POI感兴趣会表现为评分高或访问频率高。故而，将用户u在兴趣点v_i上的评分(即

)作为POI v_i的权重。用户u在未访问的POI v上的签到分布的试点估计为

如式(2)表示。

其中，D为用户u访问的所有兴趣点两两之间的距离集合。K_H(v-v_j)是包含两个全局带宽(H₁,H₂)的固定带宽H的标准高斯核函数，两个全局带宽表示为式(6)与式(7)。由在地理位置信息中，两点的距离处在非欧式空间中，故而兴趣点之间的距离通过distance(v_i,v_j)来计算，如式(4)表示。

其中，R是地球半径，φ的计算如式(5)表示。

其中，

而H1和H2分别计算用户u已访问POIs的经度值与纬度值的标准偏差。

然后，利用试点估计来估计用户u访问POIv_i的自适应当地带宽h_i，如式(8)所示，其中τ是敏感参数0≤τ≤1，参数τ越大自适应当地带宽h_i对试点估计

越敏感，g是几何平均值，如式(9)表示。

最后，根据全局带宽H＝(H₁,H₂)和自适应带宽h_i得到用户u在一个未签到的兴趣点v上的签到分布的自适应核密度评估为F_Geo(v|u)，如式(10)表示。

根据上述公式可得到一个结论：当

在一个高签到密度区域时，试点估计值会较大，自适应当地带宽会较小，而生成的自适应核密度评估趋近峰值；相反，当

在一个低签到密度区域时，试点估计值会较小，自适应当地带宽较大，而生成的自适应核密度评估结果较平滑。

因此，使用自适应核密度评估F_Geo(v|u)可以提高用户u在未访问的POIv上的地理位置上签到分布的预测能力。

1.2类别偏好信息重构

在LBSN中，每一个兴趣点都可能属于多个类别，且兴趣点的类别往往给人们提示该兴趣点内的活动以及可能提供的产品和服务。例如，一个人在餐馆签到意味着他可能在那里吃饭，一家日料店则表示可以为顾客提供传统日本料理。在现实中，人们对兴趣点的类别具有明显的偏见，例如，一个爱好美食的人喜欢去餐馆品尝各种各样的食物。因此，可以通过挖掘用户已访问的兴趣点和未访问的兴趣点之间的类别相关性，从而得出用户对未访问过的兴趣点的评分。

此外，兴趣点的流行度反映了兴趣点所提供的产品和服务的质量，例如，一家受欢迎的餐厅通常表明它提供的食物和服务令人满意。因此，利用兴趣点的流行度对兴趣点的推荐是有效的。

本软件将用户对类别的偏好和兴趣点的流行度计算用户和兴趣点之间的关联评分。该方法分为三个步骤：通过类别偏好计算流行度、计算类别流行度的分布估计、计算类别相关分数。

首先，定义

为用户u对类别c_i的偏好，即用户u已签到的属于类别c_i的兴趣点的频率。然后，叠加兴趣点v各时间段的流行度定义为兴趣点v的流行度p_u,v。故，用户u在未访问POI v上的类别流行度y_u,v为：

其中，C_l为POIv所属的类别。

根据分类流行度的分布，对所有用户历史签到数据进行学习，将用户对未访问POIs的流行度映射成正则化的相关分数。类别流行度随机变量y遵循幂律分布，概率密度函数

为：

其中，ω的值由类别偏好矩阵C_U×V和流行度矩阵P_T×V决定，如式(14)表示。其中，

是兴趣点v_j上用户u_i的分类流行度。

概率密度函数相对于类别流行度是单调递减的，由于用户偏好的流行兴趣点也应该满足用户的类别偏好，故而，类别相关分数相对于类别流行度应该是单调递增的。定义y_u,v的类别相关分数为F_Ca(y_u,v)。由于1-ω<0，F_Ca相对于类别流行度y_u,v是一个递增函数，如式(15)表示。

1.3社交关系信息重构

在真实的LBSN中，用户间的相互作用会对用户的签到行为产生影响，且这种影响不仅仅体现在朋友之间，也体现在用户的属性和相似度上。我们通过用户间的相似性对用户的签到行为进行分析。由于皮尔森相关系数法是通过用户的评分来计算用户的相似度，而用户的评分通常是稀疏的，故而在皮尔森相关系数的基础上，利用用户活跃度重新定义用户的相似性。

此处将用户间的相似度通过皮尔森相关系数和用户活跃度定义，活跃度相近的用户更相似，以sigmoid函数定义活跃度与相似度间的关系，最终用户相似度的计算如式(16)表示。

其中，

表示用户u_i对兴趣点v_k的评分，

表示用户u_i对所有兴趣点评分的平均值，sim(u_i,u_j)的取值范围为[-1,1]。

通过用户间的相似度计算用户u对未签到兴趣点v的评分，如式(17)表示。其中，f(u,u′,v)根据式(16)计算的相关性强度来决定是否利用好友评分属性。

在真实世界的数据集中，社会签到评分的随机变量x遵循幂律分布，概率密度函数定义为

如式(19)表示。其中，γ由签到矩阵和社交关系矩阵决定，如式(20)表示。

f_so(x)＝(γ-1)(1+x)^-γ (19)

由于朋友间会分享更多共同的兴趣，且相似用户的兴趣更相似，所以社交相关分数相对于社交签到评分应该是单调递增的，而概率密度函数

相对于社交签到评分x是单调递减的。基于概率密度函数

定义

的社交相关分数为

如式(21)表示。由于1-γ<0，则F_So相对于社交签到评分

是一个递增函数。

2.上下文感知的混合网络模型

本软件利用文本信息挖掘用户和兴趣点的潜在模型，提出一个新的混合深度神经网络(Hybrid Deep Neural Network，简称HDNN)结构，以自上而下的方式(即，上下文感知)学习文档的潜在分布表示(把一个用户或兴趣点的评论作为一个文档)。这里详细阐述混合深度神经网络的层次结构，通过分析用户和兴趣点的评论文档，生成文档潜在模型。由于双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)可以挖掘词序列间的隐藏信息，但易忽略文本句子间的结构信息；而卷积神经网络(Convolutional NeuralNetwork，CNN)具有位移不变性的优势，可以有效抽取文本句子间的结构特征，但很难察觉词序列间的隐藏信息。因此，本软件首先利用Bi-LSTM构建用户和兴趣点评论文档中每个文本句子的表示；然后，利用CNN将所有文本块的语义及其关系编码到文档表示中。混合深度神经网络结构如

图1所示，主要由嵌入层、Bi-LSTM层、卷积层、池化层和输出层组成。

2.1嵌入层

为了提取文档的语义信息，利用Glove词嵌入方法，将每个词转换为实值向量，把每个文本片段表示为单词嵌入序列。令s表示为包含n个单词的文本块，每个单词都映射到一个全局向量，则有：

其中，向量e_i表示第i个单词的向量。为保持单词在文本块s中的顺序，将单词嵌入的向量连接在一起，可以克服词袋技术的缺陷。将文档按时间顺序排列成T个文本块，得到一个序列：S＝(s₁,s₂,…,s_t,…s_T)，其中，s_t是第t个文本块的子序列。

2.2Bi-LSTM层

传统的递归神经网络模型即使能在词与词之间传递语义信息，也不能捕获远距离的语义连接。且在参数训练过程中，梯度逐渐减小直至消失。长短期记忆网络(Long Short-Term Memory,LSTM)通过引入输入门、输出门、遗忘门和存储器单元，克服了梯度消失和长距离依赖的问题。但LSTM只能向前学习文本信息，即只能学习当前词的上文信息，无法获得下文信息。通常词的语义与上下文都相关，并且评论句往往有两种表达顺序，例如，“spotis perfect”和“the perfect spot”。考虑到词序的影响和词与词之间的依赖关系，这里利用双向长短期记忆网络(Bi-LSTM)代替LSTM，既解决了梯度消失和长距离依赖的问题，又能充分考虑上下文的语义信息。

我们将嵌入层得到的序列S＝(s₁,s₂,…,s_t,…s_T)输入到Bi-LSTM网络中，学习文本中的隐藏语义。Bi-LSTM层由前向(forward)和后向(backward)LSTM共同组成，如图2所示。

Bi-LSTM网络可以同时对文档中每个词的上下文信息进行语义编码并对其前后信息进行建模，将前向LSTM的输出序列

和后向LSTM的输出序列

连接起来作为下一层卷积层的输入。第t时刻隐藏向量h(t)的更新公式如下：

2.3卷积层

在卷积层，每个神经元j使用一个滤波器(也称为卷积核)

其中m为卷积计算的滑动窗口，l为LSTM层输出向量的大小。对h(t)运用卷积算子

计算出新的特征g_j，如式(23)表示。

其中，b_j是偏置项，δ是激活函数。在sigmoid、tanh、修正线性单元(RectifiedLinear Unit,ReLU)等激活函数中，这里使用ReLU激活函数，避免了梯度消失的问题。

2.4池化层

池化层会从卷积层提取具有代表性的特征，并通过池化操作将可变长度的文档构造成固定长度的向量特征。在卷积层后，每个滤波器生成一个可变长度(即，大小为n-m+l)的特征映射。然而，这种表示方式存在两个问题：1)上下文特征太多，其中大部分上下文特征可能无助于提高性能；2)上下文特征向量的长度不同，使得构建下层变得困难。因此，这里利用max-pooling操作，仅从每个上下文特征向量中提取最大上下文特征，将一个文档的表示缩减为一个定长向量。如式(24)和式(25)表示。

d_j＝max{g₁,g₂,…,g_n-m+l} (24)

其中，w表示卷积层的核数。

为了引入非线性，在max-pooling的基础上进一步添加一个激活函数——双曲正切函数(tanh)。在文本分析中，通常会考虑多个窗口大小，因此最终将不同单词窗口生成的所有特征向量串联起来，形成s_t的最终表示形式。例如，当m∈{3,4,5}时，得到的最终表示形式为

这里使用连接而不是平均来合并所有的特征向量。这种处理有助于为后续处理保留足够的特性，并实现更好的建模性能。

2.5输出层

在该层，利用常规非线性投影将卷积层提取的高阶特征投影到k维空间上，如式(26)表示。

其中，Q为k×f投影矩阵，b为Q的偏置向量，

为池化层的输出。此外，使用dropout防止过拟合，dropout是一项用于神经网络的正则化技术，目的是防止过拟合。在训练的过程中随机丢弃神经元及其连接，如果dropout的概率是p，那么神经元被保留的概率为1-p。在参数更新过程中，只有模型的一部分参数更新，即Q和b被更新，从而更新投影θ。通过这种方法在训练过程中减少神经元之间复杂的共适应关系。

通过上述过程，可以将原始文档转换为密集的分布表示形式。假设X和Y是兴趣点和用户的评论输入文档，使用函数hdnn(W₁,X)将X表示为θ，而使用函数hdnn(W₂,Y)将用户评论文档Y表示为投影φ。

表示混合深度神经网络(HDNN)中所有权值和偏置变量的参数，θ和φ是兴趣点和用户的分布表示。将POI^j的评论文档表示为θ_j＝hdnn(W₁,X_j)；将用户i的评论文档表示为φ_i＝hdnn(W₂,Y_i)。

利用Keras，通过指定的输入、输出和损失函数，为所提出的混合深度神经网络构建一个抽象模型。算法1给出了基于Keras函数API的HDNN模型的实现。

在算法1中，将HDNN模型分为四层，通过Embedding函数构建HDNN的嵌入层，输出序列S；Bidirectional函数构建Bi-LSTM层，其中“concat”的作用是将前后向LSTM的输入连接在一起；将Bi-LSTM层的输出输入到CNN层的卷积操作中，并对卷积的结果进行降维，且激活函数为“tanh”；利用dropout函数对结果进行处理，以防止过拟合；最后构建HDNN模型及设置其损失函数。

3.多特征融合的矩阵分解兴趣点推荐

3.1基于乘法法则的属性特征融合

关于兴趣点推荐，在之前的研究工作中，乘法法则被广泛应用于融合不同的因素，并显示了高鲁棒性。因此，本软件采用乘法法则融合地理、社交与分类偏好相关分数，并将这些分数融合到概率矩阵分解模型中。

首先评估用户所在位置经纬度坐标的个性化签到分布，基于地理相关性，推导用户对未签到的兴趣点的地理相关分数；然后根据其他用户已签到的兴趣点，利用用户的社交关系，推导用户对未签到的兴趣点的社会相关分数；最后，根据用户已签到的兴趣点与未签到的兴趣点的分类与流行度，基于分类相关性，推导用户对未签到的兴趣点的分类相关分数。用户u_i在兴趣点v_j上的签到评分由用户和兴趣点这两种因素所决定。评价

反映用户与兴趣点之间的地理、社会与分类相关性。地理、社会与分类相关分数越高，则评价

越高。这里融合地理、社会与分类相关分数，由式(10)、式(15)和式(21)给定的相关分数，关于用户u_i对兴趣点v_j的偏好，基于乘法法则，把这些相关分数整合到一个统一的偏好分数GSC_ij中，如式(27)表示。

3.2多特征融合的概率矩阵分解模型

多特征融合的概率矩阵分解模型(Probabilistic Matrix Factorization ofMulti-Feature,简称Multi-F_PMF)的结构如图3所示，该模型将混合深度神经网络(HDNN)、社交、地理位置和类别集成到此概率矩阵分解模型中。

当把PMF预测用户对兴趣点的评分时，使用特征向量u_i＝β_i+φ_i表示用户i，兴趣点j用特征向量v_j＝β_j+θ_j表示，其中

和

分别表示用户潜在偏移量(用于捕获特定兴趣点的用户偏置)，以及兴趣点潜在偏移量(用于捕获特定用户的兴趣点首选项)，如式(28)表示。

在现实系统中，有很多因素可以决定用户对某个兴趣点的评分，例如，社会影响、个人兴趣和地理位置等。完全依赖评论内容来表示用户或兴趣点是不合理的。因此，我们将地理位置、社交关系和类别偏好融入到PMF中，且ε_i/ε_j在考虑评分时，可以捕捉到用户和兴趣点的评论内容与其潜在模型之间的差异，从而使评分矩阵的因子分解更加合理和可解释性。

根据贝叶斯规则，观测数据(R,X,Y)、潜在因素(U,V,GSC,θ,φ)、参数(W₁,W₂)的联合似然性可表示为式(29)。

其中，p(V|θ,λ_v)是兴趣点潜在因子的θ-means高斯先验，p(U|φ,λ_u)是用户潜在因子的φ-means高斯先验；λ_u和λ_v是相应的高斯分布的精度；且

3.3Multi-F_PMF模型的优化

为了优化HDNN的用户潜在模型、兴趣点潜在模型、权重和偏置等变量，这里使用了极大后验(Maximum A Posteriori,简称MAP)估计法。

给定一个训练数据集，通过计算U，V，W的MAP估计值，使用U和V以及GSC来预测R中缺失的项，并使用预测结果来推荐Top-k兴趣点。

后验函数的极大化等价于式(29)的完全对数似然的极大化，可以得到目标函数如式(30)表示。

先固定θ和φ的值(即，固定变换hdnn(W₁,X)、hdnn(W₂,Y)中的参数W₁，W₂)，从而求解U和V。对于u_i和v_j，最大化遵循矩阵分解方法。u_i和v_j的更新方式如式(31)表示。

u_i←(VI_iV^T+λ_uE_k)^-1(VI_iR_i+λ_uφ_i)

v_j←(UI_jU^T+λ_vE_k)^-1(UI_jR_j+λ_vθ_j) (31)

其中，I_i是对角矩阵，I_ij是其对角元素，对于用户i的

对于兴趣点j，类似地定义I_j和R_j。

在更新u_i和v_j时采用矩阵运算策略来减少计算成本。更新v_j时，将UI_jU^T改写为UI_jU^T＝U(I_j-bE_k)U^T+bUU^T，并预先计算每个兴趣点的bUU^T；同样地，更新u_i时，将VI_iV^T改写为VI_iV^T＝V(I_i-bE_k)V^T+bVV^T，并为每个用户预先计算bVV^T。

然而，W₁和W₂不能像U和V那样通过解析进行优化，因为W₁和W₂与混合神经神经网络架构中的最大池层和非线性激活函数等特性密切相关。但当U和V固定时，损失函数L就为一个带L2正则项的平方误差函数，如式(32)表示。

根据式(32)，使用反向传播分别用给定的目标值V和U对W₁和W₂进行优化。此处利用dropout来处理过拟合问题，使得λ_w始终为0。在此情况下，参数W₁和W₂的方差是无穷多个的(即，可以取任何值)。这里保留λ_w以保证概率模型的完整性。在实现过程中，实例化两个HDNN模块，然后利用fit函数来训练参数W₁、W₂、U、V。在拟合过程中，均方误差loss＝'mse'，即最小化式(32)的结果。

为了进一步阐述Multi-F_PMF方法，在算法2中展示了其参数学习的具体过程。随机将Word2Vec或GloVe预训练的结果生成X和Y的词嵌入。

在算法2中，首先分别对每个兴趣点和用户的评论信息序列化，然后分别构建用户和兴趣点的HDNN模型。在预先设置的迭代次数内循环训练HDNN模型，直至误差小于预设值。循环语句中的具体操作为：将序列化后的评论信息输入到相应的HDNN模型中，修正U和V，更新两个HDNN模块的参数W1和W2。根据式(31)更新u_i和v_j，并根据均方误差mse更新权重W₁和W₂及误差值ε₁和ε₂，最后将式(27)计算的结果加入到预测的评分

中计算，当损失值小于预先设定的值时，结束循环；否则继续循环。最后返回目标函数值对应的参数值。

整个优化过程不断重复，直至收敛。通过优化V、U、W₁、W₂，最终可以预测用户对未访问兴趣点的评分

如式(33)所示。

对于非冷启动项预测，使用点估计

和

和

来近似地求其期望，此时预测的评分

如式(34)所示。

对于冷启动预测，兴趣点或用户是全新的，即没有评分信息等。这里使用E[β_j]＝0或E[β_i]＝0对其进行预测；根据给定项目/用户的文字描述进行转换，从而获得新兴趣点或新用户的投影θ_j或φ_i。

嵌入层模块用于提取文档的语义信息，并将每个词转换为实值向量，把每个文本片段表示为单词嵌入序列；

双向长短期记忆网络层模块用于挖掘文档中词序列间的隐藏信息；

卷积神经网络层模块用于抽取文本句子间的结构特征；

池化层模块用于从卷积神经网络层提取具有代表性的特征，并通过池化操作将可变长度的文档构造成固定长度的向量特征；

输出层模块用于将原始文档转换为密集的分布表示形式，防止结果过拟合。

本发明主要有以下几个方面的贡献：

需要说明的是，以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多特征的矩阵分解兴趣点推荐方法，其特征在于，包括以下步骤：

2.如权利要求1所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，步骤一中的所述地理位置信息的重构是指利用用户已访问的兴趣点和未访问的兴趣点间的地理位置关系来估算用户在未访问兴趣点上的相关得分，根据每个用户已访问过的兴趣点估算地理坐标上的个性化签到分布；所述类别偏好信息的重构是指将用户对类别的偏好和兴趣点的流行度计算用户和兴趣点之间的关联评分；所述社交关系信息的重构是指通过用户间的相似性对用户的签到行为进行分析，在皮尔森相关系数法的基础上，利用用户活跃度重新定义用户的相似性。

3.如权利要求1所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，步骤二中的所述混合深度神经网络包括双向长短期记忆网络和卷积神经网络，所述双向长短期记忆网络用于构建用户和兴趣点评论文档中每个文本句子的表示，所述卷积神经网络用于将所有文本块的语义及其关系编码到文档表示中。

4.如权利要求3所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，所述混合深度神经网络包括嵌入层、双向长短期记忆网络层、卷积神经网络层、池化层和输出层，其中：

和后向LSTM的输出序列

f_t＝σ(W_f[h(t-1),s_t]+b_f) (2)

i_t＝σ(W_i[h(t-1),s_t]+b_i) (3)

o_t＝σ(W_o[h(t-1),s_t]+b_o) (4)

h_t＝o_t*tanh(C_t) (7)

计算出新的特征g_j，如式(9)表示：

d_j＝max{g₁,g₂,…,g_n-m+l} (10)

其中，m∈{3,4,5}；

其中，Q为k×f投影矩阵，b为Q的偏置向量，

为池化层的输出。

5.如权利要求4所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，所述混合深度神经网络首先通过Embedding函数构建所述嵌入层，输出序列S；其次通过Bidirectional函数构建所述双向长短期记忆网络层；再将双向长短期记忆网络层的输出输入到卷积神经网络层的卷积操作中，并对卷积的结果进行降维，其中的激活函数为tanh函数；然后利用dropout函数防止结果过拟合；最后构建混合深度神经网络模型及设置其损失函数。

6.如权利要求1所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，步骤三中的所述基于乘法法则融合所述多源异构特征是指采用乘法法则融合地理、社交与分类偏好相关分数，并将这些分数融合到概率矩阵分解模型中；首先评估用户所在位置经纬度坐标的个性化签到分布，基于地理相关性，推导用户对未签到的兴趣点的地理相关分数；然后根据其他用户已签到的兴趣点，利用用户的社交关系，推导用户对未签到的兴趣点的社会相关分数；最后，根据用户已签到的兴趣点与未签到的兴趣点的分类与流行度，基于分类相关性，推导用户对未签到的兴趣点的分类相关分数。

7.如权利要求1所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，步骤三中的所述多特征融合的概率矩阵分解模型中集成了混合深度神经网络、地理位置信息、类别偏好信息和社交关系信息的重构的多源异构特征。

8.如权利要求1所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，步骤三中的所述对概率矩阵分解模型中的参数进行优化是指通过使用极大后验估计法，以实现优化混合深度神经网络的用户潜在模型、兴趣点潜在模型、权重和偏置变量。

9.一种融合多特征的矩阵分解兴趣点推荐的实现系统，其用于实现如权利要求1-8任一项所述的融合多特征的矩阵分解兴趣点推荐方法，其特征在于，该实现系统包括：

10.如权利要求9所述的融合多特征的矩阵分解兴趣点推荐的实现系统，其特征在于，所述混合深度神经网络模块包括嵌入层模块、双向长短期记忆网络层模块、卷积神经网络层模块、池化层模块和输出层模块，其中：

所述卷积神经网络层模块用于抽取文本句子间的结构特征；