CN110083684A

CN110083684A - 面向细粒度情感的可解释推荐模型

Info

Publication number: CN110083684A
Application number: CN201910333302.3A
Authority: CN
Inventors: 王英; 孙玉东; 王鑫; 李畅; 于尤婧; 孙小婉; 凌云志; 马涪元
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02
Anticipated expiration: 2039-04-24
Also published as: CN110083684B

Abstract

本发明所要解决的技术问题是克服了现有基于矩阵分解原理进行推荐技术存在的解释性能不高、计算复杂、信息挖掘利用程度低等问题，提出一种面向细粒度情感的可解释推荐模型。该方法步骤为：1由原始评论文本的解析和预处理模块实现原始特征的提取；2由互信息矩阵构建模块实现多信息的高效融合；3由联合分解模块初始化因子矩阵进行多矩阵的约束优化求解；4由推荐及预测模块实现信息的高效重构进而生成最终的推荐结果以及解释信息。

Description

面向细粒度情感的可解释推荐模型

技术领域

本发明涉及一种可生成推荐解释的快速推荐模型，更确切地说，本发明涉及一种基于矩阵分解技术并构建共享因子矩阵优化求解推荐结果及解释的推荐方法。

背景技术

随着互联网技术和产业的快速发展，互联网中的信息交互数量剧增，交互频率也呈现指数级增长。因此，如何针对不同用户满足其个性化的需求显得尤为重要。例如，在线上购物网站中，个性化的推荐会直接引导用户参与消费，因而能够创造满足用户需求与扩大经济收益的双赢局面。

现有的大多数推荐系统着重于使用评估指标进行端对端的优化，例如使用均方根误差，归一化折损增益率等。这些指标关注预测用户对实体的打分与真实打分之间的差异或者预测用户喜好实体的排序与真实排序之间的差异。然而，用户决策显然是取决于一系列因素，端对端的模型方法不能具体解释具体哪些因素影响了指标性能，尽管已有诸多算法在指标性能上不断提升，但是当其推荐结果出现错误时，难以解释和修改，导致用户接受度下降。因此，在矩阵分解模型等推荐算法中，挖掘影响用户选择或影响实体质量的因素至关重要。也由此可以获得对推荐结果的解释能力。

目前推荐系统可解释能力的研究中主要考虑两个方向：用户导向的解释推荐形式和模型导向的推荐原理说明。其中用户导向的可解释推荐系统倾向于生成用户易于接受的直观的解释形式以增强可解释推荐模型的说服性和用户满意性。模型导向的可解释推荐系统倾向于阐述系统原理，分析结果构成，以严谨的逻辑解释系统的效用以及推荐解释能力的来源。

虽然，针对基于矩阵分解-重构原理的可解释的推荐问题已有一定的研究工作，但仍然存在一些不足，主要体现在：

1.解释性能不高

目前，矩阵分解-重构方法大多仅使用目标用户的打分信息，尽管采用加入提升预测精准度的偏置项，引入实体属性等方法增强了推荐模型的准确性和解释性，模型的解释性能仍然普遍较低。

2.计算复杂

为了增加解释性能需要分析更多的影响用户决策的因素，也因此需要增加额外的信息，这既直接使得计算量变大也可能产生大量的冗余处理使得计算复杂，浪费计算资源。

3.信息挖掘利用程度低

目前，基于矩阵分解-重构的推荐模型大多未考虑或难以扩展用户细粒度情感因素，对影响用户决策的各种因素挖掘和利用程度较低。

发明内容

本发明所要解决的技术问题是克服了现有技术存在的解释性能不高、计算复杂、信息挖掘利用程度低等问题，提出一种融合评论文本细粒度情感的快速可解释推荐模型。

为解决上述技术问题，本发明是采用如下技术方案实现的：

所述的融合评论文本细粒度情感的快速可解释推荐模型，包括如下步骤：

(1)由原始评论文本的解析和预处理模块实现原始特征的提取：

1)针对某一特定推荐环境，对任何由用户为实体打分同时产生评论文本的数据进行抽取、过滤等预处理；

2)对评论文本进行解析，抽取用户对实体的细粒度情感信息，构建(a,w,s)_ij三元组；

其中：(a,w,s)_ij表示用户i对实体j的细粒度情感的三元组，a表示实体j的特定方面，w表示用户i针对该特定方面的描述性词语，s表示该描述性词语的情感极性标签。

(2)由互信息矩阵构建模块实现多信息的高效融合：

1)构建用户-实体评分矩阵R；

2)筛选具有实际意义的(实体-属性)对；

3)构建用户-实体属性情感矩阵S；

4)构建实体属性-描述词词频矩阵O；

(3)由联合分解模块初始化因子矩阵进行多矩阵的约束优化求解：

1)初始化用户、实体、属性、描述词隐式因子矩阵；

2)构建共享因子矩阵A，A'，分别用以分解R，S和S，O；

3)计算用户、实体、属性、描述词隐式因子矩阵；

(4)由推荐及预测模块实现信息的高效重构进而生成最终的推荐结果以及解释信息：

1)计算用户对目标实体的预测评分；

2)计算用户对目标实体属性的预测情感值；

3)计算目标实体被目标描述词描述的预测频率；

4)依据1)所得到的预测评分给出对目标用户的推荐结果，依据2)

3)预测用户实体属性的情感以及实体被描述词描述的预测频率给出该推荐结果的解释。

技术方案中所述构建用户-实体评分矩阵R，步骤如下：

1)根据数据集D中的评分构建稀疏的用户-实体评分矩阵m表示用户数量，n表示实体数量。R_ij＝r_ij表示第i个用户对第j个实体的评分值，不存在评分时R_ij＝0。

技术方案中所述筛选具有实际意义的(实体-属性)对，步骤如下：

1)对于用户在对实体的评论文本中出现的属性，定义为该实体拥有的实际属性，对于其他在该实体中未曾被用户提及的属性不参与矩阵的构建和计算。

技术方案中所述构建用户-实体属性情感矩阵S，步骤如下：

1)利用从用户i的全部评论抽取的多个三元组(k,w,s)_ij，定义s_ijkw。

其中：s_ijkw表示用户i对实体j的属性k所使用的描述词w(Q表示不同的描述词数量)的情感，根据描述词的情感极性其值为+1或-1。

2)由1)中的定义计算用户i对实体j的属性k的总体情感s_ijk：

其中：s_ijkw如上1)所述。

3)最终构建用户-实体属性情感矩阵S如下：

其中：N为常量，取值一般为评分区间的最大值。S_i(jk)表示用户i存在对(实体j-属性k)的情感值(经平滑处理后得到的值)，S中的每一列表示筛选后的(实体-属性)，共p'列，且在大部分数据集中p'＜＜n*p(p表示不重复属性的数量)。

技术方案中所述构建实体属性-描述词词频矩阵O，步骤如下：

1)利用从实体j的全部评论抽取的多个三元组(k,w,s)_ij，得到实体j的属性k被描述词w描述的次数为n_w；

2)定义描述实体属性的描述词词频矩阵如下：

其中，(j，k，w，n_w)表示评论数据d_ij中实体j的属性k被描述词w描述的次数为n_w，Set为(j，k，w，n_w)构成的集合。β、n均为经验参数。

技术方案中所述构建用户、实体、属性、描述词隐式因子矩阵，步骤如下：

1)构建用户隐式特征矩阵其中m为用户数量，a为用户隐式特征向量维度。

2)构建实体的隐式特征矩阵其中n为实体数量，b为用户隐式特征向量维度。

3)构建属性的隐式特征矩阵其中p为不重复属性数量，c为用户隐式特征向量维度。

4)构建描述词的隐式特征矩阵其中q为不重复描述词数量，d为用户隐式特征向量维度。

技术方案中所述构建共享因子矩阵A，A'，步骤如下：

1)定义实体与评分相关的潜在固有属性所对应的隐式特征向量f*，其特征维度为c，所有实体中均有该属性不同于实体的独特属性；

2)构建隐式因子矩阵A由隐式特征矩阵I和f*两部分构成，A中每一行为I的每一行和向量f*的增广拼接得到f*为一行随机向量。

3)构建隐式因子矩阵A'由产品隐式特征矩阵I和属性隐式特征矩阵F两部分组成，A'_(jk)表示A'中一行，为产品特征向量I_j与属性特征向量F_k的增广拼接。

技术方案中所述计算用户、实体、属性、描述词隐式因子矩阵，步骤如下：

1)通过最小化评分矩阵R中真实评分与隐式特征矩阵相乘重构评分的平方差得到最优参数U,I,f*，公式如下：

其中各符号如上述；

2)通过最小化用户-实体属性情感矩阵S中由数据得到的情感值与隐式特征矩阵相乘重构情感值的平方差得到最优参数U,I,F，公式如下：

其中各符号如上述；

3)通过最小化实体属性-描述词词频矩阵O中由数据得到的真实词频与隐式特征矩阵相乘重构情感值的平方差得到最优参数I,F,W，公式如下：

其中各符号如上述；

4)以上1)2)3)步骤同时进行计算，使用共同的隐式特征矩阵进行优化计算，采用自适应的小批量梯度下降方法优化以上公式，能够在一定程度上避免陷入局部最优，自适应方法能够随迭代次数动态更新步长。

技术方案中所述计算用户对目标实体的预测评分，步骤如下：

1)R_ij表示目标用户i对实体j的预测评分，通过用户隐式特征向量U_i以及隐式因子A_j相乘得到该预测评分即R_ij＝U_i*A_j；

技术方案中所述计算用户对目标实体属性的预测情感值，步骤如下：

1)S_i(j,k)表示目标用户i对实体j的属性k的预测情感值，通过用户隐式特征向量U_i以及共享隐式因子A'_(j,k)相乘得到该预测情感值，即S_i(j,k)＝U_i*A'_(j,k)

技术方案中所述计算目标实体被目标描述词描述预测频率，步骤如下：

1)O_w(j,k)表示目标实体j的属性k被目标描述词w描述的预测频率，通过描述词隐式特征向量W_w以及共享隐式因子A'_(j,k)相乘得到该预测情感值，即O_w(j,k)＝W_w*A_'(j,k)

与现有技术相比本发明的有益效果是：

1.本发明所述的融合评论文本细粒度情感的快速可解释模型对评论文本中的细粒度数据进行提取和融合，并且以构建互信息矩阵的形式进行数据组织，增强其间的关联性，通过矩阵分解方法进行近似重构挖掘未知关联，最终在得到预测用户对实体的打分同时得到用户对该实体某些属性的情感倾向程度，以及该产品的某些属性的预测客观描述，使得对推荐结果的可信度增加，推荐的解释性能来源于大量评论自身，因而解释能力增强。

2.本发明所述的融合评论文本细粒度情感的快速可解释模型在增加从评论文本中提取的细粒度情感信息同时避免了因多元数据融入而导致计算量呈指数级增长的问题。传统方法在加入多元数据同时需要引入更高维度的空间存储多元数据的关系，例如三维张量甚至四维张量，其计算复杂度呈指数级增长。本发明在保留原始数据关系的基础上构建三个二维张量即矩阵描述其数据之间的关系，同时构建共享隐式因子矩阵对三个矩阵进行联合分解，有效挖掘期间关系的同时保持较低的计算量。另外本发明在数据处理及矩阵的构建阶段过滤大量无关联关系，减少了大量冗余计算，因此计算更加高效。

3.本发明所述的融合评论文本细粒度情感的快速可解释模型融合多元信息，包括评论数据中挖掘产品自身的属性，挖掘用户细粒度情感，同时挖掘用户可能的用词情况，增加了大量描述词，使得能够从评论文本中大量挖掘影响用户行为与决策的因素，多元信息的融合使得对用户的预测更为准确，同时使得解释的来源更加全面。

综上所述，本发明是针对现有方法中存在问题的改进，设计模型具有针对性的解决现有方法中计算复杂、多元信息利用程度低等问题，进一步提高了推荐结果的可解释能力和用户的可接受度。

附图说明

图1是实施本发明所述的融合评论文本细粒度情感的快速可解释模型的计算机程序的各组成模块的功能、连接关系示意图。

图2是本发明所述的融合评论文本细粒度情感的快速可解释模型的流程框图。

图3是本发明所述的融合评论文本细粒度情感的快速可解释模型中由联合分解模块初始化因子矩阵进行多矩阵的约束优化求解的流程框图。

具体实施方式

下面结合附图对本发明做详细的阐述：

本发明所要解决的技术问题是克服了现有基于矩阵分解原理进行推荐技术存在的解释性能不高、计算复杂、信息挖掘利用程度低等问题，提出一种融合评论文本细粒度情感的快速可解释推荐模型。参阅图1各模块，模型求解推荐结果及解释的步骤如图2所示：

1由原始评论文本的解析和预处理模块实现原始特征的提取

所述的原始评论文本的解析和预处理模块实现原始特征的提取，包含评论文本过滤，细粒度情感(a,w,s)_ij三元组的提取。首先对评论数据进行初步分析，人工进行筛选排除冗余信息或不完整信息，最终在过滤好的数据上应用情感分析工具，其包含使用斯坦福的自然语言分析工具，得到细粒度情感三元组用以进一步挖掘影响用户决策的因素。

(1)评论文本过滤

为了更加精确的挖掘影响用户决策的细粒度情感，在一个庞杂的数据集上需要进行筛选过滤的预处理，其主要为将非活跃用户(评论数据较少)，非活跃产品(被评论次数较少)进行筛除，以免其扰动对模型的影响，另外对一些非常见的描述词，属性词等进行整合或筛除，减少模型计算量，增加准确性。

(2)(a,w,s)_ij三元组的提取

作为细粒度情感，表示用户对某个产品的某个属性的关注情况，该用户可能对这个属性进行了描述，因此，细粒度情感主要来源于对用户描述词的分析，发现用户不但是对该产品的喜好更是发现用户对该产品的哪些属性更为偏好。

2由互信息矩阵构建模块实现多信息的高效融合；

获取评分构建用户-实体评分矩阵R、筛选具有意义的(实体-属性)对、构建用户-实体属性情感矩阵S和构建实体属性-描述词词频矩阵O共同组成了该互信息矩阵构建模块。其旨在挖掘用户与产品，属性，描述词之间的关系，并以关系进行建模，使得模型依据组织好的关系信息进行计算得到预测的关系。以现实中直观的关系作为建模依据具有真实性和说服力。

(1)获取评分构建用户-实体评分矩阵R

通过前一步的数据预处理，在得到评论文本的同时也得到了用户对评论过产品的真实打分，其最能显示用户的真实情感，因此将其作为最重要的依据进行构建常见的评分矩阵R，以此进行最基本的用户评分预测，通过模型中的矩阵分解重构方法，基本假设现实数据构建矩阵是低秩的，因此能够通过线性组合得到矩阵中位置元素的值即用户对其他产品的可能打分。

(2)筛选具有意义的(实体-属性)对

在构建细粒度情感相关矩阵之前，考虑用户对实体属性的细粒度情感预测所使用的矩阵重构填充会对一些不存在的实体属性进行预测，这显然是有违常识的，因此在矩阵的构建过程中，需要真正挖掘现实存在的关联信息。本文对用户从未提及的实体-属性采取不予构建的方式，默认其在现实世界中该实体并不具有该属性，这样的假设是合理的，因为即使现实世界中该实体存在该属性，但众多的评论中无人提及，也表明了该实体的这项属性并不重要即处于无关紧要的位置，因此考虑其反而会更多是会对细粒度情感挖掘造成影响。

(3)构建用户-实体属性情感矩阵S

根据选择后的实体-属性对的结果构建用户对实体属性的情感矩阵S，其具体矩阵如技术方案所述，矩阵中的每一个元素都代表着用户对某一个实体的某一个属性的情感偏好估计。用户的情感倾向与其评分是密不可分的，因此以细粒度情感的联合分解辅助上述评分矩阵的分解，考虑更多的关于评分的预测的影响因素，使得评分更加准确，同时配合下文所述的描述词预测产生对用户推荐产品的解释信息。

(4)构建实体属性-描述词词频矩阵O

描述词是用户针对某个实体的某个属性进而描述其特征，描述词中包含了情感的倾向，因此可以于情感矩阵S进行联合分解。同时预测描述词可以直观的为用户进行解释，推荐结果的解释一方面来源于对用户细粒度情感的挖掘，另一方面则是直观的由用户提供的描述词给出解释，使得用户易于接受。

3由联合分解模块初始化因子矩阵进行多矩阵的约束优化求解；

该部分即包含初始化用户、实体、属性、描述词的隐式特征矩阵、构建共享因子矩阵之后进行分解优化计算用户、实体、属性、描述词的隐式特征矩阵以求解特征矩阵中的元素，用以近似重构出构建互信息矩阵所述的相关矩阵，其求解过程参考图3，步骤如下：

①初始化用户、实体、属性、描述词的隐式特征矩阵，即随机的生成预设大小的矩阵，其大小符合数据中的用户、实体、属性、描述词数量和认为设定的需要的表示维度。②构建共享的隐式因子矩阵，其符合互信息矩阵的隐式因子矩阵有用户、实体、属性、描述词的隐式特征矩阵拼接构成，具体参考技术方案所述。③特征矩阵与共享隐式因子矩阵进行相乘重构一次用户-实体评分矩阵R、用户-实体属性情感矩阵S、实体属性-描述词词频矩阵O。④计算真实数据矩阵R、S、O与重构矩阵R、S、O之间的误差值，如果该误差较大则采用梯度优化返回③继续进行计算，误差可以接受则说明特征矩阵具有较好的表现了其隐式特征，同时重构矩阵具有一定预测能力进行下一步。⑤输出用户、实体、属性、描述词的隐式特征矩阵。

4由推荐及预测模块实现信息的高效重构进而生成最终的推荐结果以及解释信息。

该部分由计算用户对目标实体的预测评分、计算用户对目标实体属性的预测情感值和计算目标实体被描述词描述的预测频率组成，并最终利用该三部分给出用户的推荐结果及解释。

(1)计算用户对目标实体的预测评分

根据用户特征矩阵包含的用户特征以及共享因子矩阵A相乘得到的是对用户评分矩阵的填充，其中对原未知值进行预测，得到用户满意的预测结果，采用均方根误差，平均绝对误差等进行评估。

(2)计算用户对目标实体属性的预测情感值

根据用户特征矩阵包含的用户特征以及共享因子矩阵A’相乘得到的是对用户对目标实体属性情感矩阵的预测填充，得到用户细粒度的情感倾向用在解释方案中提供给用户。

(3)计算目标实体被描述词描述的预测频率组成

根据描述词特征矩阵包含的描述词特征以及共享因子矩阵A’相乘得到的是目标实体的属性被各描述词描述的词频估计预测，其作为该目标实体的口碑提供给用户，得到了合理且直观的解释。

(4)获得对目标用户的推荐结果及对结果的解释

根据上述(1)(2)(3)，得到用户对目标实体的预测评分及该评分结果的解释，将评分较高的k个(top@k)实体推荐给目标用户。

Claims

1.一种面向细粒度情感的可解释推荐模型，其特征在于：

(1)由互信息矩阵构建模块实现多信息的高效融合：

2)对评论文本进行解析，抽取用户对实体的细粒度情感信息，构建(k,w,s)_ij三元组；

其中：(k,w,s)_ij表示用户i对实体j的细粒度情感的三元组，k表示实体j的特定方面，w表示用户i针对该特定方面的描述性词语，s表示该描述性词语的情感极性标签；

3)构建用户-实体评分矩阵R；

①根据数据集D中的评分构建稀疏的用户-实体评分矩阵

其中：m表示用户数量，n表示实体数量，R_ij＝r_ij表示第i个用户对第j个实体的评分值，不存在评分时R_ij＝0；

4)筛选具有实际意义的(实体-属性)对；

①对于用户在对实体的评论文本中出现的属性，定义为该实体拥有的实际属性，对于其他在该实体中未曾被用户提及的属性不参与矩阵的构建和计算；

5)构建用户-实体属性情感矩阵S；

①利用从用户i的全部评论抽取的多个三元组(k,w,s)_ij，定义s_ijkw；其中：s_ijkw表示用户i对实体j的属性k所使用的描述词w(Q表示不同的描述词数量)的情感，根据描述词的情感极性其值为+1或-1；

②由1)中的定义计算用户i对实体j的属性k的总体情感s_ijk：

③最终构建用户-实体属性情感矩阵S如下：

其中：N为常量，取值一般为评分区间的最大值；S_i(jk)表示用户i存在对(实体j-属性k)的情感值(经平滑处理后得到的值)，S中的每一列表示筛选后的(实体-属性)，共p'列，且在大部分数据集中p'＜＜n*p(p表示不重复属性的数量)；

6)构建实体属性-描述词词频矩阵O；

①利用从实体j的全部评论抽取的多个三元组(k,w,s)_ij，得到实体j的属性k被描述词w描述的次数为n_w；

②定义描述实体属性的描述词词频矩阵如下：

其中：(j，k，w，n_w)表示评论数据d_ij中实体j的属性k被描述词w描述的次数为n_w，Set为(j，k，w，n_w)构成的集合，β、n均为经验参数，exp()表示自然数为底数的幂次运算；

(2)由联合分解模块初始化因子矩阵进行多矩阵的约束优化求解：

1)初始化用户、实体、属性、描述词隐式因子矩阵；

①构建用户隐式特征矩阵其中m为用户数量，a为用户隐式特征向量维度；

②构建实体的隐式特征矩阵其中n为实体数量，b为用户隐式特征向量维度；

③构建属性的隐式特征矩阵其中p为不重复属性数量，c为用户隐式特征向量维度；

④构建描述词的隐式特征矩阵其中q为不重复描述词数量，d为用户隐式特征向量维度；

2)构建共享因子矩阵A，A'，分别用以分解R，S和S，O；

①定义实体与评分相关的潜在固有属性所对应的隐式特征向量f*，其特征维度为c，所有实体中均有该属性不同于实体的独特属性；

②构建隐式因子矩阵A由隐式特征矩阵I和f*两部分构成，A中每一行为I的每一行和向量f*的增广拼接得到

③构建隐式因子矩阵A'由产品隐式特征矩阵I和属性隐式特征矩阵F两部分组成，A′_(jk)表示A'中一行，为产品特征向量I_j与属性特征向量F_k的增广拼接；

3)计算用户、实体、属性、描述词隐式因子矩阵；

①通过最小化评分矩阵R中真实评分与隐式特征矩阵相乘重构评分的平方差得到最优参数U,I,f*，公式如下：

其中各符号如上述；

②通过最小化用户-实体属性情感矩阵S中由数据得到的情感值与隐式特征矩阵相乘重构情感值的平方差得到最优参数U,I,F，公式如下：

其中各符号如上述；

③通过最小化实体属性-描述词词频矩阵O中由数据得到的真实词频与隐式特征矩阵相乘重构情感值的平方差得到最优参数I,F,W，公式如下：

其中各符号如上述；

④以上1)2)3)步骤同时进行计算，使用共同的隐式特征矩阵进行优化计算，采用自适应的小批量梯度下降方法优化以上公式，能够在一定程度上避免陷入局部最优，自适应方法能够随迭代次数动态更新步长；

(3)由推荐及预测模块实现信息的高效重构进而生成最终的推荐结果以及解释信息：

1)计算用户对目标实体的预测评分；

①R_ij表示目标用户i对实体j的预测评分，通过用户隐式特征向量U_i以及隐式因子A_j相乘得到该预测评分即R_ij＝U_i*A_j；

2)计算用户对目标实体属性的预测情感值；

①S_i(j,k)表示目标用户i对实体j的属性k的预测情感值，通过用户隐式特征向量U_i以及共享隐式因子A′_(j,k)相乘得到该预测情感值，即S_i(j,k)＝U_i*A′_(j,k)

3)计算目标实体被目标描述词描述的预测频率；

①O_w(j,k)表示目标实体j的属性k被目标描述词w描述的预测频率，通过描述词隐式特征向量W_w以及共享隐式因子A′_(j,k)相乘得到该预测情感值，即O_w(j,k)＝W_w*A′_(j,k)

4)依据1)所得到的预测评分给出对目标用户的推荐结果，依据2)3)预测用户实体属性的情感以及实体被描述词描述的预测频率给出该推荐结果的解释。