CN109902229B

CN109902229B - 一种基于评论的可解释推荐方法

Info

Publication number: CN109902229B
Application number: CN201910101823.6A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Current assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-12-24
Anticipated expiration: 2039-02-01
Also published as: CN109902229A

Abstract

本发明公开了一种基于评论的可解释推荐方法，针对推荐系统存在的解释性问题以及自动学习特征偏好和自动学习物品质量表达的问题，通过利用用户评论自动的挖掘用户的捕捉了时序信息的用户的特征偏好和捕捉了时序信息的物品的特征质量表示，可以极大的提高评分预测的可解释性和准确性。本发明利用LSTM捕捉评论中的时序信息，得到用户动态的特征偏好和物品动态的特征质量表示，同时生成一个用户的潜因子表达和物品的潜因子表达，可以在提供推荐解释的同时保证我们的预测精度。

Description

一种基于评论的可解释推荐方法

技术领域

本发明属于计算机技术个性化推荐方法领域，是一种可解释的个性化推荐方法。

背景技术

在互联网快速发展的这个时代，困扰我们的不再是信息匮乏，而是信息过载。推荐系统就是在大量的信息中，筛选出部分信息推荐给用户，类似于热门商品、热门信息推荐；而进行简单的热门推荐不能满足所有用户推荐需求，因为推荐热门商品会忽视用户的个人偏好，有些用户并不喜欢比较大众化的上面，因此个性化的推荐算法出现了。个性化推荐算法通过用户在推荐列表上的点击、购买等行为为系统创造经济效益，需要了解用户的推荐需求以及用户的偏好。随着各种互联网应用的迅速发展，推荐系统在各种网络应用中扮演着至关重要的角色，帮助用户找到感兴趣的物品。长期以来，个性化推荐的研究主要集中在如何为用户提供更准确的被推荐物品，而忽视了对推荐的解释。相关研究指出恰当的推荐理由可以提高用户对推荐结果的接受度。

个性化推荐系统成为网络应用中不可缺少的重要组成部分，而个性化推荐系统又分为几个类型，其中包括who、what、when、where以及why，我们可以把这五个类型对应为社交推荐、应用意识的推荐、有时间感知的推荐、基于位置的推荐以及可解释推荐，对于可解释推荐，指的是在给用户推荐商品的同时，还需要给出推荐该商品的解释；可解释推荐方法通过给出推荐的解释，而不是仅仅只是给出推荐的物品列表，来提示用户的信任度以及用户的满意度。

现在的推荐系统，很多是基于协同过滤的，这种方法主要的思想是根据用户历史的交互行为建模用户对物品的偏好。潜因子模型在学术界和工业界都很受欢迎，用户和物品的表达使用潜特征向量，在很多数据集上，潜因子模型都表现出了很好的预测精确度，但是，传统的潜因子模型在个性化推荐中还是存在一些问题，因为使用的是潜因子表达，因此在个性化推荐系统中缺少了推荐的解释，从而获得用户信任度和满意度的能力被减弱。为了能够在给出推荐的同时，给出推荐的解释，现有一些方法是获取用户显式的特性偏好以及显式的物品特征质量表示。近几年，为了改善推荐系统的精度和解释性，在推荐系统中除了使用用户和物品的评分信息，也尝试着使用用户评论作为新的附加信息加入推荐系统。一个典型的个性化推荐系统将用户在物品上的浏览、点击、购买、评论等行为信息作为输入数据，构建个性化推荐模型对用户进行偏好建模并给出个性化推荐列表。对于利用用户产生的评论主要有两种方式，一方面，利用用户产生的评论提取用户显式的特征偏好和物品显式的特征表示；另一方面，可以自动的挖掘用户在用户产生的评论中表达的情感，即便在用户与物品的评分很稀疏的情况下，这些挖掘的情感也可以补充用户的偏好和产品的特征，可以揭示影响顾客选择的隐藏的因素。经过研究发现，对于显式的用户特征偏好以及物品的特征质量表示，大多数文献中的方法是直接通过计数得到，因此希望能够通过结合显式的特征表达和隐式的特征表达，在利用隐式的特征表达保证推荐精度的同时，能够利用显式的特征表达给出推荐的解释，我们考虑通过学习的方式得到用户特征偏好和物品的特征质量表示。另外我们使用LSTM来处理用户评论的时序信息，以此捕获动态的用户特征偏好和物品的特征质量表示。对于个性化推荐的方法，潜因子模型在预测精度上表现得很好，但是很难根据潜因子对用户产生一个推荐的解释。针对潜因子模型很难提供推荐解释的问题，为了在给用户推荐用户或者是给用户推荐物品的同时，给出一个推荐的解释，首先需要捕捉用户的特征偏好表示以及物品的特征质量表示，基于这个用户的特征偏好表示和物品的特征质量表示，来产生推荐的解释。本发明的基于评论的可解释推荐方法，包括特征提取、捕获用户特征偏好、捕获物品特征质量表示、进行预测评分、产生top-k的推荐以及根据用户特征偏好和物品特征质量表示产生推荐的解释。其特征在于通过LSTM学习得到用户动态的特征偏好的隐因子表达和物品动态的特征质量表示的隐因子表达，然后将该隐因子表达通过一个全连接层进行解码得到显式的用户特征偏好和显式的物品特征质量表达，将该用户最终的特征偏好的隐因子表达与另一个潜因子表达拼接得到用户最终的表达，讲物品最终的特征质量表示的潜因子表达与用一个潜因子表达拼接得到物品最终的表达。

发明内容

本发明是基于传统的用户可解释推荐的显因子模型的一个改进方法，提出一个同时考虑时序信息和推荐解释的推荐方法，为了处理用户评论的时序信息，拟利用LSTM[19]来处理用户评论，用于捕捉随时间变化的用户偏好，以及随时间变化的物品的特征质量表示。为了能够在一定程度上保持推荐的精度，我们需要同时考虑用户隐式的特征偏好和物品隐式的特征表达，通过这两个部分来解决同时考虑时序信息和推荐解释的问题。我们通过LSTM来处理用户评论的时序信息，以此捕获动态的用户特征偏好和物品的特征质量表示，将LSTM最终的输出通过一个全连接层进行解码得到用户显示的特征偏好和物品显示的特征质量表示，最后将用户显示的特征偏好与用户隐式的特征表达进行拼接得到用户最终的表达，将物品显示的特征质量表示与物品隐式的特征表达进行拼接得到物品最终的表达。该发明包括以下步骤：

a.构造上下文情感词典L，情感词典中的每一个实体表示为(F，O，S)其中F表示的是特征词，O表示的是情感词，S是情感得分，S∈[-1，1]。

a1.进行特征提取：从训练集中所有的评论中提取特征词，将每一个特征词当一个方面，令F＝{F₁，F₂，...，F_p}为特征词集合，F₁表示的是第1个特征词，F_c表示的是第C个特征词，p表示特征词的个数。

a2.情感词提取：从训练集中所有的评论中提取情感词，并且与提取的特征词成对的组合。

a3.生成上下文情感词典：根据情感词的情感以及情感极性标签生成上下文情感词典。

b.获取用户特征偏好向量，具体方法为：

b1.令U＝{u₁，u₂，...，u_m}为用户集合，m为用户个数，其中u_i表示的是第i个用户，将每一个用户u_i的所有的历史评论，根据时间将所有的评论分为T段，其中t∈[1，2，…，T]，用X_i＝{X_i1，X_i2，...X_iT}表示用户u_i的评论向量的集合，其中X_it表示的是用户u_i在第t个时间段内产生的所有评论的一个表达，用Y_j＝{Y_j1，Y_j2，...Y_jT}表示物品v_j的评论向量的集合，其中Y_jt表示的是物品v_j在第t个时间段内被评论的所有评论的一个表达，对于每一个时间段内的评论，从中抽取特征词及考虑否定词之后，在指定特征词上的表达的最终感情为(F，S)，其中F表示的是特征词，S表示的是情感得分，假设特征词F_c被用户u_i在第t时间段以及之前提及次数为则用户u_i在第t时间段对特征词F_c的特征偏好可以表示为：

其中A表示最大评分，一般表示为5，表示数据集中的评分为(1，5]，用户u_i的显示特征偏好表示为p_i，是一个p维向量；

b2.通过类似的方法计数物品的特征质量表达，假设特征词F_c在物品p_j的第t个时间段以及之前被提及k次，以及提及的平均情感得分为则物品p_j在t时间段的特征质量表示为：

物品v_j的显示特征质量表示为q_j，是一个p维向量

b3.对于用户u_i，将其每一个时间段的所有的评论通过doc2vec转换为一个向量X_it，该向量X_it表示的就是在第t个时间段内用户u_i的所有的评论信息。将X_i＝{X_i1，X_i2，...X_iT}这一系列向量根据时间送入LSTM网络中，对于用户ui在第t时间段后LSTM的输出为最终的输出经过一个全连接层，从而得到用户u_i的偏好向量对于物品v_j，通过类似的方法得到LSTM的输出再经过一个全连接层，从而得到物品v_j的特征质量表达将物品v_j每一个时间内产生的评论，通过doc2vec转换为一个向量Y_jt，向量Y_jt表示的是在第t个时间段内，物品v_j的所有评论的信息。将Y_j＝{Y_j1，Y_j2，...Y_jT}这一系列向量根据时间送入LSTM网络中，对于物品v_j在第t时间段后LSTM的输出为最终的输出再经过一个全连接层，从而得到物品v_j的特征质量表达

c.使用显示特征词获取的用户偏好并非能够包裹用户所考虑的全部可能属性，因此在考虑用户显式的特征偏好p_i和物品显式的特征质量q_j之外再考虑r′个隐式变量和用户最终的表示为物品最终的表示为则第i个用户对第j个物品的评分预测为：

d.模型的参数可以通过如下的优化问题得到：

其中w*是权重参数，b*是偏倚，都是网络参数；λ和λ₁是两个超参数，用于控制目标函数两个部分的权重；

根据预测得分给用户u_i推荐Top-k个物品，同时根据和产生推荐解释，形如：您可能对[特征词][特征词][特征词]感兴趣，而该产品在[特征词][特征词]上表现不错。

附图说明

图1为本发明的模型示意图。

具体实施方式

下面结合附图，详细描述本发明的技术方案：

如图1所示，本发明的主要流程为：

a.收集用户评论数据，提取特征词，构建上下文特征词典。

b.获取用户特征偏好向量，具体方法为：

b1.令U＝{u₁，u₂，...，u_m}为用户集合，其中u_i表示的是第i个用户，将每一个用户u_i的所有的历史评论，根据时间将所有的评论分为T段，其中t∈[1，2，…，T]，用X_i＝{X_i1，X_i2，...X_iT}表示用户u_i的评论向量的集合，其中X_it表示的是用户u_i在第t个时间段内产生的所有评论的一个表达，用Y_j＝{Y_j1，Y_j2，...Y_jT}表示物品v_j的评论向量的集合，其中Y_jt表示的是物品v_j在第t个时间段内被评论的所有评论的一个表达，对于每一个时间段内的评论，从中抽取特征词及考虑否定词之后，在指定特征词上的表达的最终感情为(F，S)，其中F表示的是特征词，S表示的是情感得分，假设特征词F_c被用户u_i在第t时间段以及之前提及次数为则用户u_i在第t时间段对特征词F_c的特征偏好可以表示为：

其中A表示最大评分，一般表示为5，表示数据集中的评分为(1，5]。

b2.通过类似的方法计数物品的特征质量表达，假设特征词F_c在物品p_j的第t个时间段以及之前提及的情感得分总和为则物品p_j在t时间段对特征词F_c的特征质量表示为：

b3.对于用户u_i，将其每一个时间段的所有的评论通过doc2vec转换为一个向量X_it，该向量X_it表示的就是在第t个时间段内用户u_i的所有的评论信息。将X_i＝{X_i1，X_i2，...X_iT}这一系列向量根据时间送入LSTM网络中，对于用户u_i在第t时间段后LSTM的输出为最终的输出经过一个全连接层，从而得到用户u_i的偏好向量对于物品v_j，通过类似的方法得到LSTM的输出再经过一个全连接层，从而得到物品v_j的特征质量表达将物品v_j每一个时间内产生的评论，通过doc2vec转换为一个向量Y_jt，向量Y_jt表示的是在第t个时间段内，物品v_j的所有评论的信息。将Y_j＝{Y_j1，Y_j2，...Y_jT}这一系列向量根据时间送入LSTM网络中，对于物品v_j在第t时间段后LSTM的输出为最终的输出再经过一个全连接层，从而得到物品v_j的特征质量表达

c.使用显示特征词获取的用户偏好并非能够包裹用户所考虑的全部可能属性，因此在考虑p_i和q_j之外再考虑r′个隐式变量和用户最终的表示为物品最终的表示为则第i个用户对第j个物品的评分预测为：

d.模型的参数可以通过如下的优化问题得到：

Claims

1.一种基于评论的可解释推荐方法，其特征在于包括以下的步骤：

步骤1：从互联网中采集用户对物品的评分信息以及用户对物品的评论数据；

步骤2：将数据集划分为训练集、测试集和验证集；

步骤3：根据评论进行情感分析，通过学习的方式获取用户的特征偏好和物品的特征质量表示；

步骤4：根据用户的潜因子表达和用户显式的特征偏好生成用户最终的表达，根据物品的潜因子表达和物品显式的特征质量表示生成物品最终的表达；

步骤5：产生推荐列表并且给出推荐解释。

2.根据权利要求1所述的一种基于评论的可解释推荐方法，其特征在于：所述步骤3中通过学习的方式获取用户的特征偏好和物品的特征质量表示的具体方法为：

构造上下文情感词典L，情感词典中的每一个实体表示为(F,O,S)其中F表示的是特征词，O表示的是情感词，S是情感得分，S∈[-1,1]；

a1.特征提取：从训练集中所有的评论中提取特征词，将每一个特征词当一个方面，令F＝{F₁,F₂,…,F_p}为特征词集合,p表示特征词的个数；

a2.情感词提取：从训练集中所有的评论中提取情感词，并且与提取的特征词成对的组合；

a3.生成上下文情感词典：根据情感词的情感以及情感极性标签生成上下文情感词典；

获取用户特征偏好向量，具体方法为：

b1.令U＝{u₁,u₂,…,u_m}为用户集合，m表示用户的个数，其中u_i表示的是第i个用户，将每一个用户u_i的所有的历史评论，根据时间将所有的评论分为T段，其中t∈[1,2,…,T]，用X_i＝{X_i1,X_i2,…X_iT}表示用户u_i的评论向量的集合，其中X_it表示的是用户u_i在第t个时间段内产生的所有评论的一个表达，用Y_j＝{Y_j1,Y_j2,…Y_jT}表示物品v_j的评论向量的集合，其中Y_jt表示的是物品v_j在第t个时间段内被评论的所有评论的一个表达，对于每一个时间段内的评论，从中抽取特征词及考虑否定词之后，在指定特征词上的表达的最终感情为(F,S)，其中F表示的是特征词，S表示的是情感得分，假设特征词F_c被用户u_i在第t时间段以及之前提及次数为则用户u_i在第t时间段的特征偏好可以表示为：

其中A表示最大评分；

b3.对于用户u_i，将其每一个时间段的所有的评论通过doc2vec转换为一个向量X_it，该向量X_it表示的就是在第t个时间段内用户u_i的所有的评论信息；将X_i＝{X_i1,X_i2,…X_iT}这一系列向量根据时间送入LSTM网络中，对于用户u_i在第t时间段后LSTM的输出为最终的输出经过一个全连接层，从而得到用户u_i的偏好向量对于物品v_j，通过类似的方法得到LSTM的输出再经过一个全连接层,从而得到物品v_j的特征质量表达将物品v_j每一个时间内产生的评论，通过doc2vec转换为一个向量Y_jt，向量Y_jt表示的是在第t个时间段内，物品v_j的所有评论的信息；将Y_j＝{Y_j1,Y_j2,…Y_jT}这一系列向量根据时间送入LSTM网络中，对于物品v_j在第t时间段后LSTM的输出为最终的输出再经过一个全连接层,从而得到物品v_i的特征质量表达

3.根据权利要求1所述的一种基于评论的可解释推荐方法，其特征在于：步骤4中使用显示特征词获取的用户偏好并非能够包裹用户所考虑的全部可能属性，因此在考虑用户显示的特征偏好p_i和物品显示的特征质量q_j之外再考虑r′个隐式变量和用户最终的表示为物品最终的表示为

4.根据权利要求1所述的一种基于评论的可解释推荐方法，其特征在于：步骤5中根据用户的表示和物品的表达进行预测和产生推荐解释的方法为：

c1.第i个用户对第j个物品的评分预测为：

c2.模型的参数可以通过如下的优化问题得到：

根据预测得分给用户u_i推荐Top-k个物品，同时根据和产生推荐解释，形如：您可能对[特征词][特征词][特征词]感兴趣，而该物品在[特征词][特征词]上表现不错。