CN113268667A

CN113268667A - 一种基于中文评论情感引导的序列推荐方法及系统

Info

Publication number: CN113268667A
Application number: CN202110588218.3A
Authority: CN
Inventors: 郑麟; 周东霖; 张志宏; 郑仰鑫; 邹振庭; 张燕波
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-17
Anticipated expiration: 2041-05-28
Also published as: CN113268667B

Abstract

本发明涉及智能推荐、深度学习技术领域，具体涉及一种基于中文评论情感引导的序列推荐方法及系统，所述方法包括：获取中文评论信息，基于所述中文评论信息确定评论文本集；基于所述评论文本集生成情感矩阵，所述情感矩阵包括：积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵；获取用户行为序列元组，基于所述用户行为序列元组和情感矩阵确定序列化推荐模型；所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型；基于所述序列化推荐模型生成用户最终偏好；基于所述用户最终偏好得到物品相关性高低的得分，将所述评分作为预测推荐物品的依据，本发明以中文文本的情感为导向，在推荐性能上有较好地提升、具有较强的实时性。

Description

一种基于中文评论情感引导的序列推荐方法及系统

技术领域

本发明涉及智能推荐、深度学习技术领域，具体涉及一种基于中文评论情感引导的序列推荐方法及系统。

背景技术

目前，推荐系统被广泛运用于电商、短视频，音乐和电影等平台网站。序列推荐系统从用户个性化的历史行为与最近行为中捕获有用的信息，通过这些信息来预测用户下一步的行为并为用户做出推荐。

现有技术中，基于注意力机制的推荐模型展现了优异的表现。例如，在文献“W.Kang and J.McAuley,"Self-Attentive Sequential Recommendation,"2018IEEEInternati onal Conference on Data Mining(ICDM),Singapore,2018,pp.197-206,doi:10.1109/ICDM.2018.00035.”中提供的SASRec模型从稀疏和密集数据中捕捉用户的长期偏好，取得了显著的预测效果。

然而，SASRec模型是基于自注意力机制的推荐系统，该模型充分发挥了注意力机制的优点，可以捕捉用户的连续购买行为之间的注意力关系。但是没有考虑到人类的主观情感因素，忽略了人的连续情感变化对物品的影响。

在文献“Lin Zheng,Naicheng Guo,Weihao Chen,Jin Yu,and DazhiJiang.2020.Sentiment-guided Sequential Recommendation.In Proceedings of the43rd Interna tional ACM SIGIR Conference on Research and Development inInformation Retrieva l(SIGIR'20).Association for Computing Machinery,NewYork,NY,USA,1957–1960.DOI:https://doi.org/10.1145/3397271.3401330”中提出了一种双通道机制对用户的行为-情感序列进行建模的方法，并且在英文数据集上取得了良好的效果。

然而，目前还缺失以中文文本的情感为导向的序列推荐方法。因此，有必要对现有的推荐方式进行改进，使其能够在中文语境中，建立一种基于用户基于中文评论的个性化情感的提取和挖掘的序列化推荐方法，以提升推荐性能。

发明内容

本发明目的在于提供一种基于中文评论情感引导的序列推荐方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为了实现上述目的，本发明提供以下技术方案：

一种基于中文评论情感引导的序列推荐方法，所述方法包括以下步骤：

步骤S100、获取中文评论信息，基于所述中文评论信息确定评论文本集；

步骤S200、基于所述评论文本集生成情感矩阵，其中，所述情感矩阵S_M包括：积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵；

步骤S300、获取用户行为序列元组，基于所述用户行为序列元组和情感矩阵确定序列化推荐模型；其中，所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型；

步骤S400、基于所述序列化推荐模型生成用户最终偏好；基于所述用户最终偏好P_F得到物品相关性高低的得分，将所述评分作为预测推荐物品的依据。

进一步，所述步骤S100包括：

步骤S110、爬取中文评论信息，对所述中文评论信息进行数据清洗和关键字提取，得到结构化评论文本；

步骤S120、对所述结构化评论文本的长度进行筛选，选取文本长度在设定范围内的评论文本，形成评论文本集；其中，所述评论文本中，每个用户与物品的交互次数均不少于设定次数。

进一步，所述步骤S200包括：

步骤S210、对评论文本集进行中文情感个性化挖掘，得到每个评论文本的情感数值；所述评论文本的情感数值包括：情感概率、情感类别、以及置信度；

步骤S220、采用等频率均分方式将所有情感数值按个数均分成n份，使得每一份中情感数值的数量相等；

步骤S230、基于数据分箱方法将所述情感数值生成情感矩阵S_M；其中，所述情感矩阵S_M包括：积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵，M表示情感矩阵的项数，M＝4；S_M＝{S_p，S_n，S_s，S_c}，S_p表示积极情感矩阵，S_n表示消极情感矩阵，S_s表示情感类别矩阵，S_c表示置信度矩阵，S_p，S_n，S_s，S_c∈R^|s|×d，R^|s|×d表示矩阵的形状，d表示数据的潜在维度。

进一步，所述步骤S300包括：

步骤S310、获取用户行为序列元组((i₁,S₁),(i₂,S₂),…,(i_q,S_q))，其中，i_q表示第q个消费物品，S_q表示第q个物品所对应的情感矩阵；

步骤S320、以固定长度将所述用户行为序列元组划分物品矩阵E，将所述物品矩阵和情感矩阵构造为嵌入矩阵；其中，E∈R^|I|×d，R^|I|×d表示矩阵的形状；

步骤S330、采用情感矩阵S_M作为注意力机制的查询Q，定义所述情感矩阵S_M其中一个情感因素引导的自注意力模型为

的计算公式为：

其中，Q代表注意力机制中的查询，K代表注意力机制中的键，V代表注意力机制中的值，S_m为S_p，S_n，S_s，S_c其中一个；W^Q,W^K,W^V∈R^d×d，W^Q表示Q的投影矩阵，W^K表示K的投影矩阵，W^V表示V的投影矩阵，R^d×d表示矩阵的形状，d表示数据的潜在维度；

步骤S340、对基于情感引导的注意力

和基于物品的自注意力A_E进行拼接，得到自注意力机制模型的拼接结果，所述自注意力机制模型拼接的计算公式如下：

其中，

表示基于置信度矩阵引导的注意力，

表示基于消极情感矩阵引导的注意力，

表示基于积极情感矩阵引导的注意力；

o是注意力层输出的维度，

表示自注意力机制模型的拼接结果；

步骤S350、同时采用稀疏注意力模型对情感产生的偏好进行独立性建模，将积极情感矩阵、消极情感矩阵、情感类型矩阵以及置信度矩阵聚合得到聚合矩阵，基于所述聚合矩阵得到稀疏注意力模型，计算公式为：

其中，||运算符表示仅使用距离小于或者等于r的两个行为来计算注意力，S₄为聚合矩阵，r为稀疏率。

进一步，所述步骤S400包括：

步骤S410、基于所述自注意力机制模型的拼接结果

得到第一用户偏好P_Gu，基于所述稀疏注意力模型

得到第二用户偏好P_Ge；所述第一用户偏好的计算公式为：

其中，P_Gu表示第一用户偏好；所述第二用户偏好的计算公式为：

其中，W^P∈R^o×o,o是注意力层输出的维度，P_Ge表示第二用户偏好；

步骤S420、将所述第一用户偏好P_Gu和第二用户偏好P_Ge聚合生成用户最终偏好；所述用户最终偏好的计算公式为：P_F＝W^FLayerNorm(ConCat([P_Gu,P_Ge]))+B^F，其中，W^F和B^F为训练参数；

步骤S430、通过所述用户最终偏好P_F得到物品相关性高低的得分，基于所述得分预测推荐物品。

一种计算机可读存储介质，所述计算机可读存储介质上存储有基于中文评论情感引导的序列推荐程序，所述基于中文评论情感引导的序列推荐程序被处理器执行时实现如上述任意一项所述的基于中文评论情感引导的序列推荐方法的步骤。

一种基于中文评论情感引导的序列推荐系统，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一项所述的基于中文评论情感引导的序列推荐方法。

本发明的有益效果是：本发明公开一种基于中文评论情感引导的序列推荐方法及系统，本发明通过建立一种基于中文评论文本情感变化的抽取、挖掘与个性化表征方法，进而完成基于情感的序列化推荐方法。以中文文本的情感为导向，应用于序列化推荐方法中；面向电商或娱乐平台中的连续中文评论进行情感的提取和挖掘，重视评论情感的个性化挖掘与表征，在稀疏的大型数据集中表现良好，在推荐性能上有较好地提升、具有较强的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于中文评论情感引导的序列推荐方法的流程示意图；

图2是本发明实施例中采用等值数据分箱结果的示意图；

图3是本发明实施例中采用等频率数据分箱结果的示意图；

图4是本发明实施例中序列化推荐模型的框图。

具体实施方式

以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本申请的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参考图1，如图1所示为本申请实施例提供的一种基于中文评论情感引导的序列推荐方法，所述方法包括以下步骤：

本实施例中，采用情感矩阵对中文情感元素进行个性化表征；

步骤S300、获取用户行为序列元组，基于所述用户行为序列元组和情感矩阵确定序列化推荐模型；

其中，所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型；所述用户行为序列元组包括：用户名称、物品名称、评论时间；

本发明公开的序列推荐方法通过对连续变化的中文评论中的情感因素进行抽取、挖掘与表征,对现有的推荐方式进行了改进，使其能够在中文语境中具有较好的推荐性能。

在一个优选的实施例中，所述步骤S100包括：

本实施例中，采用网络爬虫爬取中文评论信息，网络爬虫(又称网页蜘蛛，网络机器人)是一种按照一定规则进行自动抓取万维网信息的程序。

首先，进入网页定位目标数据，爬取html的源码，解析并筛选数据；使用python模拟浏览器客户端，对服务器发出请求；服务器接收并返回资源，获取数据；对获取到的数据进行解析查找，得到所需要的数据。

下面，以具体实施例说明中文评论信息的选择与爬取：

以网易云音乐和BiliBili网站(以下简称B站)为例作为中文评论信息的数据源。网易云音乐的音乐评论和B站的视频评论数量众多，全部爬取的时间成本较高，可行性不大。为了使数据集能够覆盖到数量更多的用户，同时评论内容要具有时效性(其评论时间发布不到一年)，针对两个网站采取了不同的爬取方法。

(1)网易云音乐的中文评论信息的爬取方法：

不同的音乐听众拥有不同的音乐风格爱好。粉丝们往往会因为喜欢某一个歌手而喜欢该歌手的歌曲，针对这些歌曲发表评论的可能性也就越高。网易云音乐评论的爬取流程如下：

第一步：进入网页定位数据，获取对应歌手的id；

第二步：根据歌手id获取该歌手的热门歌曲的id；

第三步：根据歌曲的id爬取听众的评论内容，个人昵称，ID以及评论时间等；

第四步：解析得到中文评论信息，每条中文评论信息的保存格式如表1：

表1：网易云音乐的爬取内容：

(2)B站评论的中文评论信息的爬取方法：

B站评论的爬取流程如下：

第一步：进入网页定位数据，查找到视频ID号；

第二步：构造视频评论链接，获取到评论的页数；

第三步：获取JSON格式的评论数据；

第四步：解析JSON评论数据，根据关键字提取得到中文评论信息，每条中文评论信息的保存格式如表2：

表2：B站的爬取内容：

标识

UserId

Username

Time

View

Item

Link

描述

用户标识

用户名称

评论时间

文本评论

视频名称

视频链接

数据清洗，也称为数据清理，用于检测和纠正(或删除)记录集，表或数据库中的不准确或损坏的记录。数据清洗是深度学习建模十分重要的一步，没有经过数据清洗的数据集往往无法训练或者无法得到良好的训练效果。数据清洗包括去除残缺数据，去除错误的数据，以及去除重复的数据。之后，经过第一轮清洗的数据需要再进行评论文本长度的清洗。过长或者过短的评论都会使得数据集具有“噪声”，影响到后续模型的训练效果，因此，对评论数据的长度进行筛选是十分必要的一项工作。

传统的深度学习数据集往往经过筛选和调优，而本实施例所采集的数据集直接来自于娱乐平台(如B站、网易云音乐)最近一年产生的最热门娱乐产品(歌曲和视频)评论，因此本实施使用的数据集具有良好的时效性。

本发明提供的实施例中，在数据预处理阶段，对评论文本的长度进行筛选(去除过短和过长的评论)，避免极端情感对模型的训练产生影响。为了提高推荐性能，在筛选出的数据中，每个用户与物品的交互次数均不少于20次(即每个用户至少需要有20次的物品消费记录)。作为输入的子序列(用户行为-情感序列)最大长度设置为20。相比于SGS的数据集，本实施例收集的数据集直接面向工业界，覆盖的产品和用户数量众多，具有很强的时效性和可信度。

表3：B站数据集特征：

在一个优选的实施例中，所述步骤S200包括：

其中，情感概率的取值范围均为[0，1]，情感概率的取值越接近0表明情感越消极，越接近于1表明情感越积极。

需要说明的是，在中文情感个性化挖掘中，我们考虑对每一个用户进行个性化的评论情感挖掘。在一些实施例中，使用技术较为成熟的百度人工智能的自然语言处理API工具对评论文本进行中文情感个性化挖掘。

调用百度API提取中文文本情感的流程包括以下步骤：

1.安装百度智能云SDK，并获取用于标识用户的APPID,AK,SK；

2.导入B站和网易云音乐的评论；

3.调用API接口，对评论文本进行情感分析，将提取的情感结果解析成标准JSON格式数据，保持结果；

4.如果提取情感数据失败则记录序号，执行步骤2；

5.遍历所有文本评论，直到提取全部的文本情感。

对于英文评论文本数据集，SGS模型采用的方法是使用Stanford-NLP工具包提取文本情感，每个评论存在五个维度的情感值：非常积极(very positive)，积极(positive)，中性(neutral)，消极(negative)，非常消极(very negative)。

而中文文本语言词汇更加丰富，内涵更加丰富，且往往更加难以量化。并且Stanford-NLP工具包只支持中文分词，并不支持中文情感提取。而基于深度学习技术和百度大数据技术，百度人工智能可以对带有主观描述的中文文本自动判断出该文本的情感极性类别(积极、消极)并给出相应的情感类别与置信度。

表4：情感提取后的数据集特征：

数据集名称	情感数据维度	评论数量(条)
			B站视频数据集	4	858960
网易云音乐数据集	4	81798

本实施例通过调用百度API提取中文文本情感。这种方法支持并发，时效性更快，并且提取的成功率相对较高。得到的情感维度只有四个维度(积极情感概率、消极情感概率、情感类别、以及置信度)。情感维度的减少，有助于缩短模型训练的时间，避免维度灾难。

表5：百度文本情感倾向分析的调用数据示例：

调用量(次)	调用失败量(次)	失败率
			156467	8012	5.12％

需要说明的是，获取到的情感数值属于分布连续的数值，直接运用原始数据可能导致在模型在训练时不稳定，甚至会出现过拟合的情况。本实施例中，使用数据分箱(也称为离散分箱)作为情感元素的表征技术，用于减少次要观察误差的影响，数据分箱是一种将多个连续值分组为较少数量的“分箱”的方法。

数据分箱技术可以增强模型的鲁棒性，降低模型过拟合的风险，同时离散化的数值易于模型的快速迭代。数据分箱方法可以包括有监督分箱和无监督分箱两种。无监督分箱包括等距分箱和等频分箱，有监督分箱包括卡方分箱等。

参考图2，如果使用值均分将所有的情感值根据取值范围均分成n份，使得每一份的取值长度都相等，由图2可知，观察情感数据的分布情况可知：数据情感值大部分都集中分布在0和1附近，这意味着如果采用值均分时会使得大部分的值都分配到几个接近0或1的‘箱子’中，这将导致模型性能大大降低。因此，我们采用等频率均分，将所有情感数值按个数均分成n份，使得每一份中情感数值的数量相等。等频率数据分箱效果如图3所示。

参考图4，在一个优选的实施例中，所述步骤S300包括：

本实施例中，所述固定长度为n＝20，在物品矩阵使用零补充与截断，使每个物品矩阵具有相同的长度；

的计算公式为：

步骤S340、对基于情感引导的注意力

其中，

表示基于置信度矩阵引导的注意力，

表示基于消极情感矩阵引导的注意力，

表示基于积极情感矩阵引导的注意力；

o是注意力层输出的维度，

表示自注意力机制模型的拼接结果；

本实施例中，考虑到存在情感因素的影响，在每个数据表示的最后一个维度对基于情感引导的注意力

和基于物品的自注意力A_E进行拼接。

本实施例中的序列化推荐模型采用稀疏注意力模型机制对情感产生的偏好进行独立建模。在B站情感数据集上，经过实验证明r＝10的时候表现最优。

在一个优选的实施例中，所述步骤S400包括：

步骤S410、基于所述自注意力机制模型的拼接结果

得到第一用户偏好P_Gu，基于所述稀疏注意力模型

得到第二用户偏好P_Ge；所述第一用户偏好的计算公式为：

本步骤中，基于自注意力机制模型的拼接结果得到第一用户偏好，基于稀疏注意力模型得到第二用户偏好；

本实施例中，对所述自注意力机制模型的拼接结果

进行规范化操作，再使用RNN模型对行为序列上的注意力进行建模，获得情感引导的用户偏好，作为第一用户偏好；同时，使用规范化操作和RNN模型计算纯粹情感变化所产生的偏好，作为第二用户偏好；通过将两个通道所产生的两种类型的偏好聚合生成用户最终的偏好，该双通道模型统称为CSAS模型：采用二进制交叉熵损失和Adam优化器来训练CSAS模型，最后通过P_F得到物品相关性高低的得分来预测下一个物品。

实验发现，B站中文数据集在SASRec模型下的表现不佳；而使用本序列化推荐模型(CSAS模型)对B站中文数据集进行调参实验，得到的效果良好。这说明了序列化推荐模型在中文语境下的运用是可行和高效的。

表6：性能对照表：

数据集	方法	Hit@10	Hit@20	Hit@30	Hit@40
						B站	SASRec	0.04464	0.06022	0.07192	0.08403
B站	CSAS模型	0.67068	0.78250	0.85607	0.89716
						数据集	方法	NDCG@10	NDCG@20	NDCG@30	NDCG@40
B站	SASRec	0.03774	0.04283	0.04704	0.05006
						B站	CSAS模型	0.59830	0.63938	0.66236	0.67483

与图1的方法相对应，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于中文评论情感引导的序列推荐程序，所述基于中文评论情感引导的序列推荐程序被处理器执行时实现如上述任意一实施例所述的基于中文评论情感引导的序列推荐方法的步骤。

与图1的方法相对应，本发明实施例还提供一种基于中文评论情感引导的序列推荐系统，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一实施例所述的基于中文评论情感引导的序列推荐方法。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

所述处理器可以是中央处理单元(Central-Processing-Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor，DSP)、专用集成电路(Application-Specific-Integrated-Circuit，ASIC)、现场可编程门阵列(Field-Programmable-Gate-Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于中文评论情感引导的序列推荐系统的控制中心，利用各种接口和线路连接整个基于中文评论情感引导的序列推荐系统可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于中文评论情感引导的序列推荐系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart-Media-Card，SMC)，安全数字(Secure-Digital，SD)卡，闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本申请的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求，考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本申请的预定范围。此外，上文以发明人可预见的实施例对本申请进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本申请的非实质性改动仍可代表本申请的等效改动。