CN111061951A

CN111061951A - 一种基于双层自注意力评论建模的推荐模型

Info

Publication number: CN111061951A
Application number: CN201911266072.XA
Authority: CN
Inventors: 吴雯; 郭望; 施力业; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-24

Abstract

本发明公开了一种基于双层自注意力评论建模的推荐模型。该模型包括用户画像模块、物品画像模块和交互模块。用户画像模块和物品画像模块结构相同，首先在短语抽取层通过引入自注意力将句子内相隔任意距离的相关单词灵活组合，构成物品特征短语和情感短语。然后在短语关联层使用自注意力将物品特征短语和情感短语关联起来，得到用户对每个物品特征的情感极性，用于构建用户‑物品画像，最后将该模型在来自Amazon 5‑core的六个数据集上进行实验验证。本发明通过将自注意力网络引入到推荐系统的评论建模中，在深度学习框架下考虑了用户对“物品特征”的情感极性，并缓解了CNN抽取短语引入噪声和上下文丢失的问题，细粒度地建模用户‑物品画像，提升推荐性能。

Description

一种基于双层自注意力评论建模的推荐模型

技术领域

本发明属于推荐系统领域，尤其涉及一种基于双层自注意力评论建模的推荐模型。

背景技术

在推荐系统中，传统的协同过滤方法从评分数据中推断出用户和物品的行为模式，至今仍是有竞争力的技术。但是当遇到数据稀疏和冷启动问题时，协同过滤方法的表现却大幅下降，因此许多研究者尝试引入评论文本作为补充，挖掘评论中的多种元素来建模用户-物品画像。评论中常见的七种元素是“高频词”、“评论主题”、“对于物品特征的情感”、“上下文情感”、“对比情感”和“情绪”，这些元素在传统机器学习时代得到了深入的研究。

然而现有深度学习方法只用物品特征代表用户兴趣，忽略了物品特征对应的情感(第三种评论元素)。这是因为CNN固定大小的卷积窗缺少建模单词变长范围内上下文的能力，难以将“物品特征”与“情感”直接关联。相对地，尽管传统方法利用了这一评论元素，却局限于将问题划分为“独立的三个阶段”(找物品特征、找情感、建模交互关系)，每个阶段产生的模型偏差都传递到下一阶段形成噪声，影响了模型整体的性能。因此目前亟需一种在深度学习的框架下“端到端、层次化地”抽取第三种评论元素(对于物品特征的情感)的方法。

此外，对变长短语完整准确的抽取是进一步细粒度地建模用户-物品画像的基础。现有方法使用的CNN不能灵活地将相关单词组合为有意义的短语，卷积窗过大会引入噪声，卷积窗过小则会丢失信息，对于建模变长短语不利。即使将多个尺寸的卷积窗结合，模型也不容易明确地将窗口尺寸和某一类短语相关联，而且窗口尺寸的组合作为一个超参数需要调优。因此目前亟需一种灵活捕捉单词上下文的方法，以构成变长的情感短语和物品特征短语，为后续确定用户“对于物品特征的情感”建立基础。

发明内容

本发明的目的是针对现有技术的不足而提出了一种基于双层自注意力评论建模的推荐模型。本模型通过自注意力网络挖掘用户对物品不同方面特征的情感，构建细粒度的用户-物品画像；并解决变长短语的抽取问题，缓解CNN固定窗口引入噪声和上下文丢失的问题。

为达到上述目的，本发明提供如下技术方案：

一种基于双层自注意力评论建模的推荐模型，其特征在于，该模型包括：用户画像模块、物品画像模块、用户-物品交互模块。

用户画像模块从用户评论集合中抽取用户对每个物品特征的情感极性，构建用户画像；物品画像模块从物品评论集合中抽取用户对每个物品特征的情感极性，构建物品画像；用户画像模块和物品画像模块的结构相同；用户-物品交互模块基于用户画像和物品画像，使用分解机(FM)进行匹配，预测评分。

所述用户画像模块和物品画像模块结构相同，包含五个层：词嵌入层、短语抽取层、短语关联层、池化层及评论层；以用户画像模块为例，其中各个层次具体为：

①词嵌入层

该层将评论集合中的每个评论文本映射为词向量序列

接受一个评论集合，包含多个评论{r₁,r₂…,r_L}，其中代表评论的最大数量；每个评论r_i都是一个长度为的单词序列，其中每个单词是用独热编码表示的向量；每个单词都通过词嵌入矩阵W^d×|C|将独热编码映射到一个d维稠密向量，其中C是词汇表的大小；

②短语抽取层

该层使用“自注意力网络”编码评论中每个单词的上下文构成短语表示；这体现在两个方面：(1)只将语义相关的单词编码为一个短语；(2)远距离的单词也能建立关联；“自注意力网络”的输入是长度为l个词的词向量序列

将X分别线性投影到三个不同的语义空间，形成三个序列

输入到注意力函数中计算每个单词的上下文表示H：

Q＝XW_Q

K＝XW_K

V＝XW_V

H＝attention(Q,K,V)＝softmax(QK^T)V

其中

为参数，

编码了评论中每个单词的上下文单词；

将单词本身V和上下文H相加，并通过一个全连接层转换语义空间，最后得到短语的表示X_phrase-1：

X_phrase-1＝tanh((H+V)W_p+b_p)

其中

中每个词的语义不再是单个单词，而是以该单词为中心的短语；

为参数，

为偏置；

③短语关联层

该层使用“自注意力网络”将“情感短语”和“物品特征短语”相关联，得到用户对物品每个方面的情感极性，表示为

其中每个物品特征短语中都编码了与之关联的情感极性；“自注意力网络”的结构与②中所述“自注意力网络”相同；

④池化层

该层基于注意力机制从整个评论的短语序列

中选择有意义的短语聚合为单个评论的表示；注意力机制为序列中每个短语分配权重，然后根据权重大小将所有短语加权求和，

计算了评论中每个短语的权重，通过softmax函数归一化后得到注意力权重分布

对所有短语加权求和得到评论的最终表示

e＝v^Ttanh(W_uX_phrase-2)

α＝softmax(e)

其中

和

为参数；

⑤评论层

该层基于注意力机制将评论集合中的L个评论的表示U＝{u₁,u₂,…u_L}聚合为d维向量p作为用户画像：

β＝softmax(v^Ttanh(W_uU))

其中β表示{u₁,u₂,…u_L}中每个评论对应的权重，

为参数。

所述用户-物品交互模块具体为：

用户-物品交互模块将从评论集合中抽取得到用户画像

和物品画像

输入到分解机(FM)中将二者进行匹配，计算预测评分

分解机接受一个特征向量

并建模用户和物品之间的一阶和二阶关系：

其中w₀是全局偏置，

用于捕捉用户和物品之间的一阶交互强度，w_i用于捕捉用户和物品之间的二阶交互强度；

最后用均方误差作为损失函数：

其中

和r_ui为用户u对物品i的预测评分和真实评分，D为训练集。

本发明的有益效果在于：

本发明通过将自注意力网络引入到推荐系统的评论建模中，在深度学习框架下考虑了用户对“物品特征”的情感极性，并缓解了CNN抽取短语引入噪声和上下文丢失的问题，细粒度地建模用户-物品画像，提升推荐性能。

附图说明

图1是本发明的模型整体架构图；

图2是本发明的模型分层结构图。

具体实施方式

下面结合附图对本发明的具体实施方法做进一步阐释，图1为模型整体架构图，共分为三部分：

(1)用户画像模块：从用户评论集合中抽取用户对每个物品特征的情感极性，构建用户画像；

(2)物品画像模块：从物品评论集合中抽取用户对每个物品特征的情感极性，构建物品画像；

(3)交互模块：基于用户画像和物品画像的特征向量，使用分解机(FM)进行匹配，预测评分。

图2是本发明的模型分层结构图，以下是对本发明中的预处理流程、三个模块的结构、实验验证的数据集和模型训练设定进行详细叙述：

1、预处理流程

将单词全部转化为小写，去除所有标点符号，词汇表中只保留出现超过5次的单词，未登录词用“[UNK]”代替。将单个评论文本的最大长度设置为30个单词，评论集合中最多包含20个评论，不足20个评论的使用内容全是“[PAD]”的评论补全。对于数据集，随机将数据集划分为训练集、测试集、验证集，其中使用“留一法”构造测试集和验证集，即保证集合中每个用户有且只有一个样本。为了避免数据泄漏，将测试集和验证集中出现过的评论文本从训练集中删除。同时，在计算用户u对物品i的预测评分

时把用户撰写的真实评论文本review_ui从用户评论集合和物品评论集合中动态地删除，避免从一个推荐任务退化为一个带噪声的情感分类任务。

2、用户画像模块和物品画像模块

用户画像模块和物品画像模块结构相同，都包含五个层次：词嵌入层、短语抽取层、短语关联层、池化层、评论层。下面以用户画像模块为例，其中各个层次具体为：

①词嵌入层

该层将评论集合中的每个评论文本映射为词向量序列

接受一个评论集合，包含多个评论{r₁,r₂…,r_L}，其中L代表评论的最大数量。每个评论r_i都是一个长度为的单词序列，其中每个单词是用独热编码表示的向量。每个单词都通过词嵌入矩阵W^d×|C|将独热编码映射到一个d维稠密向量，其中C是词汇表的大小。

②短语抽取层

该层使用“自注意力网络”编码评论中每个单词的上下文构成短语表示。这体现在两个方面：(1)只将语义相关的单词编码为一个短语(2)远距离的单词也能建立关联。“自注意力网络”的输入是长度为l个词的词向量序列

将X分别线性投影到三个不同的语义空间，形成三个序列

输入到注意力函数中计算每个单词的上下文表示H：

Q＝XW_Q

K＝XW_K

V＝XW_V

H＝attention(Q,K,V)＝softmax(QK^T)V

其中

为参数，

编码了评论中每个单词的上下文单词。

X_phrase-1＝tanh((H+V)W_p+b_p)

其中

中每个词的语义不再是单个单词，而是以该单词为中心的短语。

③短语关联层。

该层使用“自注意力网络”将“情感短语”和“物品特征短语”相关联，得到用户对物品特定方面的情感极性，表示为

其中每个物品特征短语中都编码了与之关联的情感极性。“自注意力网络”的结构与②中所述“自注意力网络”相同。

④池化层。

该层基于注意力机制从整个评论的短语序列

中选择有意义的短语聚合为单个评论的表示。注意力机制为序列中每个短语分配权重，然后根据权重大小将所有短语加权求和，

对所有短语加权求和得到评论的最终表示

e＝v^Ttanh(W_uX_phrase-2)

α＝softmax(e)

其中

和

为参数。

⑤评论层；

β＝softmax(v^Ttanh(W_uU))

3、交互层模块

用户-物品交互模块将从评论集合中抽取得到用户画像

和物品画像

输入到分解机(FM)中将二者进行匹配，计算预测评分

分解机接受一个特征向量

并建模用户和物品之间的一阶和二阶关系：

其中w₀是全局偏置，

用于捕捉用户和物品之间的一阶交互强度，w_i用于捕捉用户和物品之间的二阶交互强度。

最后用均方误差作为损失函数：

其中

和r_ui为用户u对物品i的预测评分和真实评分，D为训练集。

4、实验验证的数据集

在实验中，本发明使用了来自不同领域的六个公开数据集来评估本模型。这些数据集来自Amazon 5-core的Digital Music，Toys and Games，Cell Phones andAccessories，Office Products，Clothing Shoes and Jewelry，Musical Instruments。

5、模型训练设定

使用均方误差计算预测评分和真实评分之间的训练误差，使用Adam进行优化，初始学习率设定为0.002。将所有模型训练至连续5轮验证集性能都不再提升，使用“早停”(early stopping)选择验证集上表现最佳的模型参数。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于双层自注意力评论建模的推荐模型，其特征在于，该模型包括：用户画像模块、物品画像模块及用户-物品交互模块，所述用户画像模块从用户评论集合中抽取用户对每个物品特征的情感极性，构建用户画像；物品画像模块从物品评论集合中抽取用户对每个物品特征的情感极性，构建物品画像；用户画像模块和物品画像模块的结构相同；用户-物品交互模块基于用户画像和物品画像，使用分解机进行匹配，预测评分。

2.如权利要求1所述的基于双层自注意力评论建模的推荐模型，其特征在于，所述用户画像模块和物品画像模块结构相同，包含五个层：词嵌入层、短语抽取层、短语关联层、池化层及评论层；用户画像模块各个层具体为：

①词嵌入层

该层将评论集合中的每个评论文本映射为词向量序列