CN111966888A

CN111966888A - 融合外部数据的基于方面类别的可解释性推荐方法及系统

Info

Publication number: CN111966888A
Application number: CN201910420367.1A
Authority: CN
Inventors: 戴新宇; 宁天昊; 何亮; 黄书剑; 张建兵; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-20
Anticipated expiration: 2039-05-20
Also published as: CN111966888B

Abstract

本发明公开了一种融合外部数据的基于方面类别的可解释性推荐方法和系统，该方法包括：S1：利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器；S2：利用所述方面类别分类器和情感极性分类器对评论数据进行分类，得到每条评论的方面类别向量[a₁,a₂,…,a_n]和对应每个方面的情感向量[p₁,p₂,…,p_n]，其中n为方面的数量；S3：将所述方面类别向量与情感向量进行融合，得到待推荐的商品的预测打分和推荐理由。本发明引入了外部数据，提高了aspect和情感极性判断的准确性，使得对于评论的建模更加准确，也更加标准化，并具有更强的可解释性；利用外部标准标注数据的信息辅助监督评论的建模，降低了需要额外标注评论信息的成本。

Description

融合外部数据的基于方面类别的可解释性推荐方法及系统

技术领域

本发明涉及一种数据处理技术领域，具体地说，是一种融合外部数据的基于方面类别的可解释性推荐方法及系统。

背景技术

目前主流的推荐系统分为协同过滤方法、基于内容的推荐方法和结合两者的混合模型。其中协同过滤是当前的主流做法，其可以分为基于邻域的推荐方法和基于模型的推荐方法。基于邻域的推荐方法包括用户和商品的协同过滤，其主要是利用已有购买历史中的相似用户和商品进行推荐。基于模型的推荐方法有基于神经网络、矩阵分解、排序模型等，利用用户的历史行为记录进行建模，得到用户和商品的表示然后进行推荐。总体来看，由于协同过滤的方法没有把用户的评论、某些对象(如新闻、文章等)的内容考虑进去，因此可解释性不足，或者说比较粗糙，推荐理由基本上是相似用户或者大部分人感兴趣。

而基于内容的推荐方法一般会利用一些如主题模型对于内容进行建模，用内容的表示去增强商品和用户的表示中，从而更好地计算匹配程度进行推荐。由于其需要特定的场景，而且许多方法需要人为进行手工标注，所以应用面比较窄。

最后是结合上述两种方法的混合模型，对于商品的内容(评论)和历史行为分别进行建模，然后进行融合得到一个综合的用户表示和商品表示，从而进行更准确的推荐。

例如公开号为CN109087130A的中国发明专利申请公开了一种基于注意力机制的推荐系统及推荐方法，该方法属于基于神经网络的推荐方法，其首先通过特征嵌入层将用户历史行为记录中的商品以及待预测评分的商品映射为向量，通过注意力层利用自注意力机制来学习用户的表达得到用户的表示，最后通过融合输出层结合用户表示和待预测商品表示预测评分。

公开号为CN109471980A的中国发明专利申请公开了一种基于文本匹配的搜索推荐相关度计算方法，其首先对于数据进行清洗，去除停用词、标点等，然后构造多种特征去表示文本，如LDA的主题特征、词向量特征、统计特征等等，然后拼接得到句子的多维特征，并且利用LSTM等模型，将用户行为(浏览为正样本，未浏览为负样本)作为标签进行相关度学习，利用这个该模型去预测用户浏览待推荐文本的概率，然后进行排序推荐。

公开号为CN108959409A的中国发明专利申请公开了一种结合评论中主题与情感信息的矩阵分解推荐算法，该算法包含特征提取算法与评分预测算法两个部分。特征提取首先采用LDA在商品评论中提取商品的主题特征，之后再将商品评论按照用户编号进行聚合得到用户的主题特征表示，接着计算用户的情感并映射为用户偏好特征，两者结合得到用户的表示。评分预测首先以特征提取阶段提取到的特征来初始化特征向量，随后对特征向量进行加权矩阵分解，最后基于矩阵分解的结果对候选商品进行推荐。

现有的技术方案中，首先没有考虑评论的推荐方法天然缺乏用户的主观观点，更缺少用户的情感信息。另外，对于目前结合用户评论的推荐方法：第一，对于评论的处理比较粗糙，不明确，没有外部的标准信息来进行监督，而进行额外的评论标注又需要大量的人力物力来支撑，因此从评论中提取的用户偏好和商品属性是抽象的、粗糙的，评论中丰富的信息并没有得到充分利用；第二，现有的推荐方法中的可解释性都较为粗糙，目前对于推荐商品的可解释性仍停留在多数人喜欢什么，相似的用户喜欢什么或者用户历史行为记录中出现过很多次的相似物品，这种推荐仍然比较笼统，并且缺乏一些用户的情感、观点反馈，而这对于推荐的可解释性同样重要。

发明内容

本发明要解决的技术问题是提供一种融合外部数据的基于方面类别的可解释性推荐方法及系统，可以充分考虑用户的主观观点和情感信息，同时可以引入外部信息进行监督，从而实现更为准确地推荐，并具有更强的可解释性。

为了解决上述技术问题，本发明提供了一种融合外部数据的基于方面类别的可解释性推荐方法，包括：

S1：利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器；

S2：利用所述方面类别分类器和情感极性分类器对评论数据进行分类，得到每条评论的方面类别向量[a₁,a₂,…,a_n]和对应每个方面的情感向量[p₁,p₂,…,p_n]，其中n为方面的数量；

S3：将所述方面类别向量与情感向量进行融合，得到待推荐的商品的预测打分和推荐理由。

进一步地，所述步骤S3中，将所述方面类别向量与情感向量进行融合的方法包括：

S3.1：构建用户文档，将用户评论分别按照用户编号和商品编号进行聚合，得到用户评论列表[R₁,R₂,…,R_u]和商品评论列表[R₁,R₂,…,R_p]；

S3.2：参照步骤S1所得到的方面类别分类器和情感极性分类器，分别得到每条评论的低维稠密表示，每个用户对应一个二维列表[V₁,V₂,…,V_u]，其中V_i表示用户的第i个评论的向量表示，u为用户的评论数量；每个商品对应一个二维列表[C₁,C₂,…,C_p]，其中C_i表示商品的第i个评论的向量表示，p为商品的评论数量；

S3.3：利用注意力机制，分别计算用户评论列表中每个评论的表示对于待预测商品的相关权重，并进行加权求和得到用户表示U；分别计算商品评论列表中每个评论的表示与用户的相关度，并进行加权求和得到商品表示P；

S3.4：将所述用户表示U和商品表示P，结合用户id和商品id进行拼接得到综合信息h，再将综合信息h输入预测层中，计算得到待推荐的商品的预测打分。

进一步地，所述步骤S3.2中，利用卷积神经网络或者长短期记忆网络分别得到每条评论的低维稠密表示。

进一步地，所述步骤S3.3中，用户表示U通过如下公式得到：

其中，权重a_i由如下公式得到：

其中的

由以下公式得到：

式中，T表示矩阵的转置，W_v为和用户相关的文本表示的权重矩阵，W_p为商品表示的权重矩阵，b₁，b₂为偏差矩阵；

商品表示P通过如下公式得到：

其中，权重β_i由如下公式得到：

其中的

由以下公式得到：

式中，T表示矩阵的转置，W_c为和商品相关的文本表示的权重矩阵，W_u为用户表示的权重矩阵，b₁，b₂为偏差矩阵。

进一步地，所述步骤S3.4中，所述综合信息h由以下公式得到：

h＝[U:ID_u:P:ID_p]

其中，ID_u为用户id，ID_p为商品id；

所述待推荐的商品的预测打分Score_u,p通过以下公式得到：

Score_u,p＝W_hh+b_u+b_p+b_g

式中，W_h为用户和商品联合表示的权重矩阵，b_u为用户的偏差，b_p为商品的偏差，b_g为全局的偏差。

进一步地，所述步骤S3还具体包括：

S3.5：设置方面分类任务和情感向量任务作为辅助任务监督文本表示V_i的生成，通过方面分类任务和情感向量任务训练得到辅助方面类别分类器和辅助情感极性分类器，将步骤S32生成的评论的方面类别向量表示和情感向量表示输入到所述辅助方面类别分类器和辅助情感极性分类器中，用S2生成的方面类别向量和情感向量作为标准计算方面分类任务的损失Loss_a和情感向量任务的损失Loss_p；

然后计算整个模型的损失Loss为：

Loss＝Loss_s+λ₁Loss_a+λ₂Loss_p

其中，λ₁和λ₂为权重，代表方面分类任务和情感向量任务所占比例，为超参；Loss_s由以下公式得到：

式中，Gold_Score_u,p为用户u对于商品p实际预测打分。

进一步地，所述步骤S3中，得到待推荐的商品的推荐理由的方法为：

若对用户u推荐商品p，分别统计用户u的所有评论对应的方面类别向量进行累加，得到用户u的方面偏好向量A_u，分别统计商品p的所有评论对应的情感向量进行累加，得到商品p的情感向量，即商品的属性向量P_p，计算：

R_u,p＝A_u⊙P_p

其中⊙为按位乘，则R_u,p代表u和p每个方面维度上的匹配程度；

按照R_u,p每个维度的值的大小，降序给出其位置对应的方面及其P_p对应位置上的值，代表推荐的理由，即输出用户可能喜欢商品p的对应方面，及其对应的用户情感评价信息。

本发明还提供了一种融合外部数据的基于方面类别的可解释性推荐系统，包括：

训练模块，用于利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器；

方面类别分类器，用于对评论数据进行分类，得到每条评论的方面类别向量[a₁,a₂,…,a_n]，其中n为方面的数量；

情感极性分类器，用于对评论数据进行分类，得到对应每个方面的情感向量[p₁,p₂,…,p_n]；

融合模块，用于将所述方面类别向量与情感向量进行融合，得到待推荐的商品的预测打分和推荐理由。

本发明的融合外部数据的基于方面类别的可解释性推荐方法及系统，引入了外部数据，提高了aspect和情感极性判断的准确性，使得对于评论的建模更加准确，也更加标准化，并具有更强的可解释性；利用外部标准标注数据的信息辅助监督评论的建模，降低了需要额外标注评论信息的成本。

附图说明

图1是本发明的融合外部数据的基于方面类别的可解释性推荐方法的一实施例的示意图。

图2是图1所示实施例中步骤S3的具体方法原理图。

图3是本发明的融合外部数据的基于方面类别的可解释性推荐系统的一实施例的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，本发明的融合外部数据的基于方面类别的可解释性推荐方法一实施例包括如下步骤：

步骤S1：利用外部标准标注数据训练方面(aspect)分类器和方面类别的情感极性分类器；

其中，外部标准数据可以采用例如SemEval(国际语义评测)的ABSA(Aspect-BasedSentiment Analysis，基于方面类别的情感分析)数据集，而分类器可以采用例如CNN(Convolutional Neural Networks，卷积神经网络)分类器或LSTM(Long Short-TermMemory，长短期记忆网络)分类器。

步骤S2：利用所述方面类别分类器和情感极性分类器对评论数据进行分类，得到每条评论的方面类别向量[a₁,a₂,…,a_n]和对应每个方面的情感向量[p₁,p₂,…,p_n]，其中n为方面的数量；

在步骤S2中，可以作如下设定：如果一条评论中具备第i个方面，则对应该条评论的方面类别向量中的a_i＝1，否则a_i＝0；如果一条评论中对第i个方面的评论为正向情感，则p_i＝1，如果为负向情感，则p_i＝-1，如果没有该第i个方面，而p_i＝0。

以对某家餐厅的评价为例，可以利用外部标准数据将评价数据分为“食物”、“环境”、“服务”三个方面(为便于表述和理解，本实施例仅例举三个方面，实际可以分类更多方面)，基于每个方面，都有正向情感、负向情感、无情感表达三个分类，则：如果一条评价中对三个方面均进行了评价，且对应三个方面的情感分别为正向、正向、负向(即对食物和环境都满意，对服务不满意)，则其方面类别向量为[1,1,1]，而其对应的情感向量为[1,1,-1]；另一个评价中只对“食物”和“服务”进行了评价，未对“环境”进行评价，且对食物的评价为不满意，对服务的评价为满意，则该条评价的方面类别向量为[1,0,1]，其对应的情感向量为[-1,0,1]。

步骤S3：将所述方面类别向量与情感向量进行结合，得到待推荐的商品的预测打分和推荐理由。

具体地，如图2所示，所述步骤S3中，将所述方面类别向量与情感向量进行融合的方法包括：

在所述步骤S3.2中，利用卷积神经网络或者长短期记忆网络分别得到每条评论的低维稠密表示。

所述步骤S3.3中，用户表示U通过如下公式得到：

其中，权重a_i由如下公式得到：

其中的

由以下公式得到：

式中，T表示矩阵的转置，W_v为和用户相关的文本表示的权重矩阵，W_p为商品表示的权重矩阵，W_v和W_p均为是神经网络的参数，随机初始化，随着网络更新训练；b₁、b₂为偏差矩阵，b₁和b₂均是神经网络的参数，随机初始化，随着网络更新训练；P是商品表示，第一次计算用户表示U时所使用的商品表示P通过随机初始化得到，后面再计算用户表示U时使用上一次计算得到的商品表示P。

商品表示P通过如下公式得到：

其中，权重β_i由如下公式得到：

其中的

由以下公式得到：

式中，T表示矩阵的转置，W_c为和商品相关的文本表示的权重矩阵，W_u为用户表示的权重矩阵，W_c和W_u均为是神经网络的参数，随机初始化，随着网络更新训练；b₁，b₂为偏差矩阵，b₁和b₂均是神经网络的参数，随机初始化，随着网络更新训练；U是用户表示，第一次计算商品表示P时所使用的用户表示U通过随机初始化得到，后面再计算商品表示P时使用上一次计算得到的用户表示U。

所述步骤S3.4中，所述综合信息h由以下公式得到：

h＝[U:ID_u:P:ID_p]

其中，ID_u为用户id，ID_p为商品id；

所述待推荐的商品的预测打分Score_u,p通过以下公式得到：

Score_u,p＝W_hh+b_u+b_p+b_g

式中，W_h为用户和商品联合表示的权重矩阵，为神经网络参数，随机初始化，随网络更新训练，b_u为用户的偏差，b_p为商品的偏差，b_g为全局的偏差。

另外，在所述步骤S3中还包括：

步骤S3.5：设置方面分类任务和情感向量任务作为辅助任务监督文本表示V_i的生成，通过方面分类任务和情感向量任务训练得到辅助方面类别分类器和辅助情感极性分类器，将步骤S32生成的评论的方面类别向量表示和情感向量表示输入到所述辅助方面类别分类器和辅助情感极性分类器中，用S2生成的方面类别向量和情感向量作为标准计算方面分类任务的损失Loss_a和情感向量任务的损失Loss_p；

然后计算整个模型的损失Loss为：

Loss＝Loss_s+λ₁Loss_a+λ₂Loss_p

其中，λ₁和λ₂为权重，代表方面分类任务和情感向量任务所占比例，为超参数，是在机器学习开始学习过程之前设置值的参数，一般称为超参，可以手动调节；Loss_s由以下公式得到：

式中，Gold_Score_u,p为用户u对于商品p实际预测打分。

在所述步骤S3中，得到待推荐的商品的推荐理由的方法为：

R_u,p＝A_u⊙P_p

其中⊙为按位乘，则R_u,p代表u和p每个方面维度上的匹配程度，该匹配程度有正和负，分别对应正向相关，反向相关，某一位的值越大，表明匹配程度越高，可能满意的程度越高；

然后按照R_u,p每个维度的值的大小，降序给出其位置对应的方面及其P_p对应位置上的值，代表推荐的理由，即输出用户可能喜欢商品p的对应方面，及其对应的用户情感评价信息。

如图3所示，本发明的融合外部数据的基于方面类别的可解释性推荐系统的一实施例，包括：

在技术层面，本发明引入外部数据提高aspect和情感极性判断的准确性，使得对于评论的建模更加准确，也更加标准化。本发明提出的融合aspect信息的新型推荐算法将aspect分类和情感向量作为辅助监督任务，能够更好地结合aspect、情感信息和推荐系统，提高推荐的准确率，同时这两个辅助任务还可以提供更加细粒度的推荐理由，满足细节的可解释性的要求。

在应用层面，本发明引入外部数据，利用外部标准标注数据的信息辅助监督评论的建模，降低了需要额外标注评论信息的成本。此外本发明提出的融合aspect和情感信息的推荐算法可以提供更准确的推荐效果，还可以提供可解释性，即在给出推荐商品的同时，反馈给用户这个商品各个方面的属性信息和其余用户对该商品的情感信息，让用户对推荐的商品有更全面的认识，提升用户体验；而对于商家来说，也可以反馈给商家某件商品各个方面的属性好坏，用户对于各个方面的喜好可以帮助商家改进商品和销售策略，提升销售额。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。