CN108959409A

CN108959409A - 一种结合评论中主题与情感信息的矩阵分解推荐算法

Info

Publication number: CN108959409A
Application number: CN201810576463.0A
Authority: CN
Inventors: 杨波; 王晓腾
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2018-12-07

Abstract

本发明公开了一种结合评论中主题与情感信息的矩阵分解推荐算法。该算法包含特征提取算法与评分预测算法两个部分。特征提取为本发明提供的TST算法，该算法首先将商品评论按照商品编号进行聚合，然后采用LDA提取商品的主题特征，之后再将商品评论按照用户编号进行聚合，计算用户的情感并映射为用户偏好特征。评分预测为本发明提供的WMF算法，该算法首先以特征提取阶段提取到的特征来初始化特征向量，随后对特征向量进行加权矩阵分解，最后基于矩阵分解的结果对缺失评分进行预测。与现有的主题矩阵分解推荐算法相比，本发明提供的结合评论中主题与情感信息的矩阵分解推荐算法具有更好的用户偏好可解释性以及更高的预测精度。

Description

一种结合评论中主题与情感信息的矩阵分解推荐算法

技术领域

本发明是关于电子商务中的商品推荐技术领域，具体涉及一种结合评论中主题与情感信息的矩阵分解推荐算法。

背景技术

在电子商务中，为了更好地服务用户，同时获得更好的经济效益，通常会使用推荐系统，根据用户的历史行为(例如用户对商品的评分或者评论)，为用户推荐相应的商品，评分预测是推荐系统中常用的一种方法。若有m个用户和n个商品，r_u,i代表用户u(1≤u≤m)对商品i(1≤i≤n)的评分，其中r_u,i∈{1,2,3,4,5}，所有用户对所有商品的评分构成了一个评分矩阵，评分预测是根据评分矩阵中已有的评分，来预测评分矩阵中缺失的评分，然后根据预测值来对用户进行商品推荐。

对于评分预测来说，目前比较流行的方法之一是主题矩阵分解，其采用主题模型来处理评论，再与传统的矩阵分解相结合，来提高矩阵分解模型的可解释性和性能。但是现有主题矩阵分解方法没有利用评论中的情感信息，使得用户偏好缺乏可解释性，这是现有主题矩阵分解方法的一个不足。此外，现有的主题矩阵分解方法将主题模型与矩阵分解同时进行，增加了模型的复杂性，模型更容易过拟合，这是现有主题矩阵分解方法的另一个不足。

发明内容

针对现有主题矩阵分解方法存在的不足，本发明提供了一种结合评论中主题与情感信息的矩阵分解推荐算法。本算法包含特征提取与评分预测两个部分。其中特征提取采用本发明提供的TST算法，该算法首先将商品评论按照商品编号进行聚合，然后采用LDA提取商品的主题特征，随后在将商品评论按照用户编号进行聚合，计算用户的情感并映射为用户偏好特征。评分预测采用本发明提供的WMF算法，该算法首先以特征提取阶段提取到的特征初始化特征向量，随后对特征向量加权在进行矩阵分解，最后基于矩阵分解的结果对缺失评分进行预测。与现有的主题矩阵分解算法相比，本发明提供的结合评论中主题与情感信息的矩阵分解推荐算法具有更好的用户偏好可解释性以及更高的预测精度。

本发明包含以下内容：

1、一种结合评论中主题与情感信息的矩阵分解推荐算法

该算法包含特征提取算法(详见发明内容2)和加权矩阵分解算法(详见发明内容3)两个部分，见图1。

2、一种特征提取算法-TST算法

在本发明提供的特征提取部分，采用本发明提供的TST算法(即图1中的S2，详见S2.1、S2.2、S2.3)。该算法首先将商品评论按照商品编号进行聚合，然后采用LDA算法，根据公式(1)(2)计算商品的主题特征，随后再将商品评论按照用户编号进行聚合，根据公式(3)计算用户的情感分数，根据公式(4)修正用户的情感分数，根据公式(5)计算用户的偏好特征。

3、一种加权矩阵分解评分预测算法-WMF算法

在本发明提供的评分预测部分，采用本发明提供的WMF算法(即图1中的S2，详见图5)，该算法首先以特征提取阶段提取到的特征初始化特征向量，随后对特征向量加权在进行矩阵分解，最后基于矩阵分解的结果对缺失评分进行预测。优化目标函数的计算表达式见公式(6)(7)(8)，参数更新表达式见(9)(10)(11)(12),评分预测函数表达式见(7)。

附图说明

图1是本发明提供的一种结合评论中主题与情感信息的矩阵分解推荐算法的流程图。

图2是图1中S1的流程图。

图3是图1中S2的流程图。

图4是图1中S3的流程图。

图5是图1中S4的流程图

具体实施方式

本发明公开的一种结合评论中主题与情感信息的矩阵分解推荐算法包含特征提取算法和加权矩阵分解算法两个部分。

结合评论中主题与情感信息的矩阵分解推荐算法整体流程图如图1所示。下面结合附图和实施例，对本发明的具体实施方式做详细说明。

一、预处理

本部分对应图1中的S1，详细流程见图2

S1：预处理

S1.1：读取数据

S1.2：提取所需属性

提取所需属性，包括用户编号、商品编号、用户评分、评论这四个属性，构成一个四元组列表。

S1.3：删除重复项

遍历四元组列表，删除数据中的重复项。

S1.4：编码用户编号和商品编号

在四元组列表中分别提取出用户集合和商品集合，按照这两个集合对用户和商品进行编号。

二、计算商品特征

本部分对应图1中的S2，具体流程见图3。

S2：计算商品特征

S2.1：构建商品文档，将评论按照商品编号进行聚合，得到一个商品评论字典列表{商品编号：用户评论集}

S2.2：计算商品主题，对上面得到的商品文档，采用LDA主题提取算法，提取商品评论中的主题特征：

V＝θ #(2)

三、计算用户偏好

本部分对应图1中的S3，具体流程见图4。

S3：计算用户偏好

S3.1：构建用户文档，将用户评论按照用户编号进行聚合，得到一个用户评论列表{用户编号：用户评论集}

S3.2：计算用户情感，对上面得到的用户文档，采用基于词典的情感分析方法，计算用户情感得分：

S3.3：修正用户情感得分，对上述计算得到的用户情感得分，采用用户评分进行修正，使得其值更接近真实的用户情感得分，修正计算方式如下：

S3.4：提取用户偏好特征，在得到了用户情感特征特征向量后，将其映射到k维的用户偏好特征空间，其计算方式如下：

四、加权矩阵分解

本部分对应图1中的S4，具体流程见图5。

S4：加权矩阵分解

S4.1：构建新的目标函数

其中T为测试集，为评分预测函数，其定义如下：

其中μ为全局平均分，b_i为商品偏置项，b_u为用户偏置项，w_v为商品特征权重，V为商品特征向量，w_u为用户偏好权重，U为用户偏好向量。

Ω(θ)为正则项，其定义如下：

其中θ为参数集。

S4.2：初始化参数

其中μ初始化为全局平均分，商品偏置项b_i、用户偏置项b_u、商品特征权重w_v、用户特征权重w_u均初始化为(0,1)之间的随机数，收敛阈值ε初始化为0.1，最大迭代次数t初始化1000，商品特征向量V初始化为计算得到的商品特征向量，用户偏好向量U初始化为计算得到的用户偏好向量。学习率α初始化为0.5，正则项系数λ初始化为0.1，并根据实际情况对α和λ进行校正。

S4.3：更新参数集

需要更新的参数集为{bi,bu,wv,wu}，更新公式如下：

b′_u＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)+λb_u]#(9)

b′_i＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)+λb_i]#(10)

w′_v＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)V^T·w_uU+λw_v]#(11)

w′_u＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)w_vV^T·U+λw_u]#(12)

当目标函数满足收敛条件时，即目标函数的变化小于收敛阈值ε或达到最大的迭代次数t，转到S4.4.继续执行，否则迭代的执行步骤S4.3。

S4.4：预测

学习出参数集{b′_i,b′_u,w′_v,w′_u}以后，代入式(7)得到预测评分

S4.5：推荐

给定推荐商品的数量N，将按照降序排列，前N个对应的商品为最终推荐给用户u的商品。

Claims

1.一种结合评论中主题与情感信息的矩阵分解推荐算法，其特征在于：包含特征提取算法与评分预测算法，其中，特征提取算法为本发明提供的TST算法，评分预测算法为本发明提供的WMF算法。

2.根据权利要求1所述的一种结合评论中主题与情感信息的矩阵分解推荐算法，其特征在于，其中的情感主题特征提取算法——TST算法，具体步骤如下：

步骤一：预处理，提取出用户编号、商品编号、用户评分、评论构成一个四元组列表，随后对数据进行去重、编码等预处理操作；

步骤二：商品特征提取

1)构建商品文档，将评论按照商品编号进行聚合，得到一个商品评论字典列表{商品编号：用户评论集}，

2)计算商品主题，对上面得到的商品文档，采用隐狄利克雷LDA主题提取算法，提取商品评论中的主题特征：

并令

V＝θ (1)

其中T为商品评论构成的文档，θ为商品主题向量，Φ为主题词汇向量，z为隐变量，N_d为商品文档数量，V为物品特征向量；

步骤三：用户偏好特征提取

1)构建用户文档，将用户评论按照用户编号进行聚合，得到一个用户评论列表{用户编号：用户评论集}，

2)计算用户情感，对上面得到的用户文档，采用基于词典的情感分析方法，计算用户情感得分：

其中w_i为情感词的分数，d为情感词的数量，

3)修正用户情感得分，对上述计算得到的用户情感得分，采用用户评分进行修正，使得其值更接近真实的用户情感得分，修正公式如下：

其中r_u,i为用户u对商品i的评分，共有m个用户和n个商品，即1≤u≤m、1≤i≤n，r_u,i∈{1,2,3,4,5}；Score为步骤2)计算得到用户情感得分，Score′是修正后的用户得分，

4)提取用户偏好特征：在计算得到了Score′后，将其映射到k维的用户偏好特征空间，计算公式为：

其中S为修正后的用户情感集{Score′}，b为该集合的元素数目。

3.根据权利要求1所述的一种结合评论中主题与情感信息的矩阵分解推荐算法，其特征在于，其中的加权矩阵分解算法——WMF算法，具体步骤如下：

步骤一：构建目标函数

其中T为测试集，为评分预测函数，其定义如下：

其中μ为全局平均分，b_i为商品偏置项，b_u为用户偏置项，w_v为商品特征权重，

V为商品特征向量，w_u为用户偏好权重，U为用户偏好向量，

Ω(θ)为正则项，其定义如下：

其中θ为参数集；

步骤二：初始化参数

μ初始化为全局平均分，商品偏置项b_i、用户偏置项b_u、商品特征权重w_v、用户特征权重w_u均初始化为(0,1)之间的随机数，商品特征向量V初始化为θ，如式(1)所示，用户偏好向量U初始化为计算得到的用户偏好向，如式(2)所示；学习率α初始化为0.5，正则项系数λ初始化为0.1，并根据实际情况对α和λ进行校正；

步骤三：更新参数集

需要更新的参数集为{b_i,b_u,w_v,w_u}，更新公式如下：

b′_u＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)+λb_u]

b′_i＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)+λb_i]

w′_v＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)V^T·w_uU+λw_v]

w′_u＝-α[(r_u,i-μ-b_i-b_u-w_vV^T·w_uU)w_vV^T·U+λw_u]

其中α为学习速率，通常设置为0.5，可以根据实际情况进行调整；当目标函数收敛时，转到步骤四执行，否则迭代的执行步骤三；

步骤四：预测

学习出参数集{b′_i,b′_u,w′_v,w＇_u}以后，代入式(3)得到预测评分

步骤五：推荐