CN112084407A

CN112084407A - 一种融合图神经网络和注意力机制的协同过滤推荐方法

Info

Publication number: CN112084407A
Application number: CN202010934802.5A
Authority: CN
Inventors: 张全贵; 任思楠; 李鑫
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-15
Anticipated expiration: 2040-09-08
Also published as: CN112084407B

Abstract

本发明公开了一种融合图神经网络和注意力机制的协同过滤推荐方法(AGCF)，该方法包括以下步骤：S1、数据采集及处理；S2、划分数据集；S3、构建融合模型；S4、模型的训练及项目推荐。本发明考虑在图结构中学习嵌入表示，通过嵌入传播在用户项目交互图上建模高阶连通性，让模型可以表达高维特征，显式地将协同过滤信号映射到嵌入过程中，获得更有效的嵌入；在得到的特征矩阵上引入CNN(Convolutional Neural Network)学习特征中每一维度之间的高阶相互关系，CNN尤其能抓住矩阵的局部和全局信息特征，而且具有较少的参数，因此更容易训练和泛化，另外，分层的塔式结构也使得高层集成了更丰富的信息，多层的神经网络结构也赋予模型高水平的灵活性和非线性建模能力。

Description

一种融合图神经网络和注意力机制的协同过滤推荐方法

技术领域

本发明属于计算机人工智能的技术领域，尤其涉及一种融合图神经网络和注意力机制的协同过滤推荐方法。

背景技术

推荐系统在我们的生活、学习、工作和娱乐中扮演着越来越重要的的角色，但很多时候我们收到的推荐都是不相关的、重复的、不感兴趣的产品和服务。所以在合适的时间给合适的人群推荐最相关的产品尤为重要。近年来，由于图结构的强大表现力，利用机器学习方法对图的研究越来越受到重视，其具有较好的性能和可解释性。因此，本发明将图神经网络与注意力机制相融合，通过在用户项目交互图结构上加入嵌入传播层来建模用户项目图的高阶连通性，以一种显式的方式将协同过滤信号注入到嵌入过程中，更好的学习用户和项目的嵌入表示，同时引入注意力机制捕获用户对不同项目的不同方面的注意力情况，学习嵌入传播过程中邻居的可变权重和不同阶的连接性，这将有利于模型的泛化和可解释性。

发明内容

基于以上现有技术的不足，本发明所解决的技术问题在于提供一种融合图神经网络和注意力机制的协同过滤推荐方法，具有良好的推荐精度和可解释性。

为了解决上述技术问题，本发明通过以下技术方案来实现：

本发明提供的融合图神经网络和注意力机制的协同过滤推荐方法，包括以下步骤：

S1、数据采集及处理；

S2、划分数据集：将处理好的数据集随机选取80％的历史交互作为训练集，用于训练模型；其余作为测试集，用于评估模型的泛化能力；从训练集中随机选取10％的交互作为验证集，用于调整超参数；对每一个可以观察到的用户项目交互，将其视为正例，然后执行负采样策略为用户没有交互过的项目配对负例；

S3、构建融合模型：通过神经网络学习嵌入传播过程中的高阶连通性；注意力机制学习嵌入传播过程中邻居的可变权重和不同阶的连接性；

S4、模型的训练及项目推荐：将步骤S2中得到的训练集和测试集分别用于训练和评估步骤S3中构建的融合模型，根据最终的预测概率判断是否将项目推荐给用户。

优选的，所述步骤S1的数据采集及处理的具体步骤如下：

S101、将下载的MovieLens 1M数据集进行数据预处理；

S102、将五级评分矩阵

转化为二值化偏好矩阵；

S103、使用10-core设置，即保留至少有10次交互的用户和项目。

所述步骤S3中构建融合模型的具体步骤如下：

S301、构建输入层：输入层包括四个输入内容，用户项目id和用户项目的邻居向量；

S302、构建融合图神经网络和注意力机制的协同过滤推荐模型(AGCF)：构建基于GNN的消息传递体系结构，沿图结构捕获CF信号，并细化用户和项目的嵌入；构建用户显式特征和项目显式特征的学习框架，在此基础上引入注意力机制，以学习嵌入传播过程中邻居的可变权重和不同阶的连接性；

S303、构建输出层：预测用户对项目的评分，判断是否将该项目推荐给用户。

进一步的，所述步骤S302中构建基于GNN的消息传递体系结构和融合注意力机制框架的具体步骤如下：

S302-1、构建基于GNN的消息传递体系结构：将用户和项目id通过嵌入层映射为稠密向量，得到初始的用户和项目的嵌入

和

表示用户和项目的潜在特征；

S302-2、通过注入高阶连通性来细化嵌入；

S302-3、为用户和项目构建邻域信息，将用户项目的邻居向量通过嵌入层映射为稠密向量，交互网络本质上就是一个二部图，其中顶点代表用户和项目，边代表用户和项目的交互，仅当用户和项目之间有边时才表示是用户的邻域信息，项目的邻域信息也如此构建，引入注意力机制来学习嵌入传播过程中邻居的可变权重和不同阶的连接性，得到用户和项目的显式特征；

S302-4、将通过嵌入传播层得到的用户项目mid向量与通过注意力机制学习的用户项目显式向量通过连接得到用户和项目的最终嵌入表示向量e_u和e_v；

S302-5、将上一步得到的用户和项目的最终嵌入表示向量用外积作为交互函数，得到用户项目特征矩阵，在此应用卷积神经网络对用户项目特征矩阵进行更深一步的学习，最后通过一层全连接层输入用户对项目的最终预测评分。

可选的，所述步骤S4中模型的训练及项目推荐的具体步骤如下：

S401、构建损失函数：使用推荐系统中常用的pairwise BPR loss损失函数，能对正样本和负样本加上不同的权重，使正样本能特别体现用户的口味，负样本能少量体现用户的口味；

S402、构建优化函数：采用小批次的Adam来优化模型并更新模型参数；

S403、项目推荐：将用户信息和项目信息送入融合模型，输出用户对项目的评分，判断是否将项目推荐给用户。

由上，本发明的融合图神经网络和注意力机制的协同过滤推荐方法至少具有如下有益效果：

(1)、本发明考虑在图结构中学习嵌入表示，通过嵌入传播在用户项目交互图上建模高阶连通性，让模型可以表达高维特征，显式地将协同过滤信号映射到嵌入过程中，获得更有效的嵌入，提高了推荐的质量。

(2)、本发明运用了Attention机制捕获用户对不同项目的不同方面的注意力情况，学习嵌入传播过程中邻居的可变权重和不同阶的连接性，有利于模型的泛化，使推荐系统具有更好的推荐效果和可解释性。

(3)、本发明使用外积作为最后得到的用户嵌入和项目嵌入的交互函数，考虑特征向量不同维度之间的成对相关性，从而提高推荐质量和准确度。

(4)、本发明是协同过滤与图结构的推荐的结合，可以很好的解决数据稀疏性和冷启动问题。

(5)、本发明使用卷积神经网络(CNN)学习特征中每一维度之间的高阶相互关系，CNN尤其能抓住矩阵的局部和全局信息特征，而且具有较少的参数，因此更容易训练和泛化，另外，分层的塔式结构也使得高层集成了更丰富的信息，多层的神经网络结构也赋予模型高水平的灵活性和非线性建模能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的融合图神经网络和注意力机制的协同过滤推荐方法的流程框图；

图2为本发明的数据采集和处理流程图；

图3为本发明的构建融合模型流程图；

图4为本发明为构建融合图神经网络和注意力机制的协同过滤推荐模型(AGCF)的学习框架流程图；

图5为本发明的模型的训练及项目推荐流程图；

图6为本发明的融合图神经网络和注意力机制的协同过滤推荐方法的结构框图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1至图6所示，本发明的融合图神经网络和注意力机制的协同过滤推荐方法，包括：

数据采集及处理模块，从Grouplens网站下载MovieLens 1M数据集并进行数据预处理，将五级评分矩阵

转化为二值化偏好矩阵R∈{0,1}，其中1表示用户与项目存在交互，否则为0，使用10-core设置，即保留至少有10次交互的用户和项目。

划分数据集模块，将处理好的数据集随机选取80％的历史交互作为训练集，用于训练模型；其余作为测试集，用于评估模型的泛化能力；从训练集中随机选取10％的交互作为验证集，用于调整超参数。对每一个可以观察到的用户项目交互，将其视为正例，然后执行负采样策略为用户没有交互过的项目配对负例。

构建融合模型模块，通过神经网络(GNN)学习嵌入传播过程中的高阶连通性；注意力机制(Attention Mechanism)学习嵌入传播过程中邻居的可变权重和不同阶的连接性。

模型的训练及项目推荐模块，用于将所述划分数据集模块得到的训练数据集和测试数据集分别用于训练和评估所述融合模型模块构建的融合模型，根据最终的预测概率判断是否将项目推荐给用户。

如图1所示，本发明的融合图神经网络和注意力机制的协同过滤推荐方法，该方法包括如下步骤：

S1、数据采集及处理：从Grouplens网站下载MovieLens 1M数据集并进行数据预处理，将五级评分矩阵

S2、划分数据集：将处理好的数据集随机选取80％的历史交互作为训练集，用于训练模型；其余作为测试集，用于评估模型的泛化能力；从训练集中随机选取10％的交互作为验证集，用于调整超参数。对每一个可以观察到的用户项目交互，将其视为正例，然后执行负采样策略为用户没有交互过的项目配对负例。

S3、构建融合模型：通过神经网络学习嵌入传播过程中的高阶连通性；注意力机制学习嵌入传播过程中邻居的可变权重和不同阶的连接性。

如图2所示，步骤S1中的数据采集及处理的具体步骤如下：

S101、将下载的MovieLens 1M数据集进行数据预处理：在Grouplens网站下载MovieLens 1M数据集，，将其转化为可操作的格式存储。

S102、将五级评分矩阵

转化为二值化偏好矩阵：将原来的评分矩阵转化为二值化偏好矩阵，其中每个元素表示为0或1，表示用户-物品对之间是否存在交互。

转化之后的评分矩阵中的"UserID"，"MovieID"，"Rating"，"Timestamp"数据集，如下所示：

UserID	MovieID	Rating	Timestamp
				1	1993	1	978300760

项目的特征数据包括"MovieID"，"Title"，"Genres"，如下所示：

MovieID	Title	Genres
			1	Toy Story(1995)	Animation\|Children's\|Comedy

S103、使用10-core设置，即保留至少有10次交互的用户和项目：删除掉交互10次之内的用户和项目，确保数据有效性。

如图3所示，步骤S3中构建耦合模型的具体步骤如下：

S301、构建输入层：输入层包括四个输入内容，用户项目id和用户项目邻居id。输入层的形式为(userid，itemid，user_neibor_id，item_neibor_id)。

在Keras中，输入层可用如下代码实现：

user_id＝Input(shape＝(1，)，dtype＝'string'，name＝'user_id')

item_id＝Input(shape＝(1，)，dtype＝'string'，name＝'item_id')

user_neibor_id＝Input(shape＝(1，)，dtype＝'string'，name＝'user_neibor_id')

item_neibor_id＝Input(shape＝(k，)，dtype＝'string'，name＝'item_neibor_id')

S302、构建融合图神经网络和注意力机制的协同过滤推荐模型(AGCF)：构建基于GNN的消息传递体系结构，沿图结构捕获CF信号，并细化用户和项目的嵌入；构建用户显式特征和项目显式特征的学习框架，在此基础上引入注意力机制，以学习嵌入传播过程中邻居的可变权重和不同阶的连接性。

在Keras中，输出层实现代码如下所示：

prediction＝Dense(1，kernel_initializer＝'glorot_normal'，name＝'prediction')(prediction)

如图4所示，步骤S302中构建构建基于GNN的消息传递体系结构和融合注意力机制框架(AGCF)的具体步骤如下所示：

S302-1、构建基于GNN的消息传递体系结构：将用户和项目id通过神经网络全连接层转化为指定维度embedding_dim的稠密向量，得到初始的用户和项目的嵌入

和

表示用户和项目的潜在特征。

例如：指定embedding_dim＝20

userid＝2通过神经网络全连接层转化成向量如下所示：

[-0.00749762 -0.02151975 0.00523305 -0.02227279 -0.02132436-0.01079273 0.01727066-0.01092268 0.00999936 0.0233566-0.00560872 -0.021453140.02113025 0.0178023 -0.02133563-0.02135003 -0.00111125 -0.01905928 -0.01002887 0.00150579]

在Keras中，向量映射层实现代码如下所示：

MF_Embedding_User＝Embedding(embeddings_initializer＝init_normal，name＝'user_embedding'，output_dim＝latent_dim，embeddings_regularizer＝l2(regs[0])，input_dim＝num_users，input_length＝1)

MF_Embedding_Item＝Embedding(embeddings_initializer＝init_normal，name＝'item_embedding'，utput_dim＝latent_dim，embeddings_regularizer＝l2(regs[0])，input_dim＝num_items，input_length＝1)

S302-2、通过注入高阶连通性来细化嵌入：一阶连通性可以增强表示，所以通过叠加更多嵌入传播层来探索高阶连通性信息，一个节点的embedding是一个向量，那么一个图的embedding就是将所有节点的embedding放在一起形成一个矩阵，是一个图的原始特征。经过L层传播之后，可以得到L个关于用户u的向量表示

由于在不同层中获得的向量表示是通过不同连接传递的消息，在反应用户偏好方面有不同的贡献，所以将这些向量表示串联起来得到用户u的mid表示。同理得到项目i的mid表示。

S302-3、为用户和项目构建邻域信息，将用户项目的邻居id通过神经网络全连接层映射为稠密向量，交互网络本质上就是一个二部图，其中顶点V代表用户和项目，边E代表用户和项目的交互，仅当用户和项目之间有双向边，即y_u，_i＝1时才表示是用户的邻域信息，用I(u)表示，项目的邻域信息也如此构建，用I(i)表示。引入注意力机制，将I(u)和I(i)作为Attention层的输入，来学习嵌入传播过程中邻居的可变权重和不同阶的连接性，得到用户和项目的显式特征向量

和

S302-4、将通过嵌入传播层得到的用户项目mid表示向量

和

与通过注意力机制学习的用户项目显式向量

和

通过连接得到用户和项目的最终嵌入表示向量e_u和e_v；

S302-5、将上一步得到的用户和项目的最终嵌入表示向量e_u和e_v采用外积作为交互函数，考虑到了向量不同维度之间的成对相关性，得到用户项目特征矩阵X_m，在此应用卷积神经网络对用户项目特征矩阵进行更深一步的学习，将用户项目特征矩阵X_m作为卷积层的输入，卷积层将输入特征与卷积核做卷积学习输入的特征表示，最大池化层对特征进行降维，学习更加抽象的耦合向量，最后通过一层全连接层输入用户对项目的最终预测评分。

交互函数g的计算公式如下所示：

g＝e_ui×e_vi

其中，e_{ui(i＝1,2,,,,k)}∈u表示用户的第i个特征；e_{vi(i＝1,2,,,,k)}∈v表示项目的第i个特征。

权重计算公式如下所示：

其中，

表示用户对于项目不同特征喜好的权重向量，

为用户/项目第k个特征的权重值，

为用户/项目第j个特征的权重值，K为特征个数，v^t为隐藏层到注意力层的权重向量，W和b分别为权重矩阵和偏差向量，exp为指数函数，Relu为激活函数，Relu激活函数的计算公式如下所示：

在Keras中，求用户/项目特征矩阵X_m实现代码如下所示：

merge_user_fea＝Lambda(lambda x:K.batch_dot(x[0]，x[1]，axes＝[1，2]))([user_latent_CF，user_fea_CB])

merge_item_fea＝Lambda(lambda x:K.batch_dot(x[0]，x[1]，axes＝[1，2]))([item_latent_CF，item_fea_CB])

CNN学习用户项目特征耦合关系实现代码如下所示：

user_fusion_latent＝Reshape((latent_dim，latent_dim，1))(merge_user_fea)

user_fusion_latent＝Conv2D(latent_dim，(3，3))(user_fusion_latent)

user_fusion_latent＝BatchNormalization(axis＝3)(user_fusion_latent)

user_fusion_latent＝Activation('relu')(user_fusion_latent)

user_fusion_latent＝MaxPooling1D()(user_fusion_latent)

item_fusion_latent＝Reshape((latent_dim，latent_dim，1))(merge_item_fea)

item_fusion_latent＝Conv2D(latent_dim，(3，3))(item_fusion_latent)

item_fusion_latent＝BatchNormalization(axis＝3)(item_fusion_latent)

item_fusion_latent＝Activation('relu')(item_fusion_latent)

item_latent_fusion＝MaxPooling1D()(item_latent_fusion)

交互函数g实现代码如下所示：

vec＝keras.layers.Multiply()([user_latent，item_latent])

Attention层求权重实现代码如下所示：

att＝Dense(32，kernel_initializer＝'random_uniform'，activation＝'softmax')(user_item_concat)

如图5所示，步骤S4模型的训练及项目推荐的具体步骤为：

S401、构建损失函数：使用推荐系统中常用的pairwise BPR loss损失函数，能对正样本和负样本加上不同的权重，使正样本能特别体现用户的口味，负样本能少量体现用户的口味。

其中，

表示成对的训练数据，

表示观察到的交互，

表示没有观察到的交互，

表示所有训练的模型参数，λ控制L2正则化强度防止过拟合。

S402、构建优化函数：采用小批次的Adam来优化模型并更新模型参数。其中，学习率参数设置为0.001，其他参数使用keras的默认值即可，其他参数包括如下：

beta1＝0.9：一阶矩估计的指数衰减率。

beta2＝0.999：二阶矩估计的指数衰减率。

epsilon＝10E-8：该参数是非常小的数，其为了防止在实现中除零。

在Keras中，优化函数实现代码如下所示：

model.compile(optimizer＝Adam(lr＝learning_rate)，loss＝'mean_squared_error')

本发明公开了一种融合图神经网络和注意力机制的协同过滤推荐方法(AGCF)，该方法包括如下步骤：S1、数据采集及处理；S2、划分数据集；S3、构建融合模型：(1)构建基于GNN的消息传递体系结构，在图结构中学习嵌入表示，通过嵌入传播在用户项目交互图上建模高阶连通性，让模型可以表达高维特征，显式地将协同过滤信号映射到嵌入过程中，获得更有效的嵌入；(2)注意力机制(Attention Mechanism)来捕获用户对不同项目的不同方面的注意力情况，学习嵌入传播过程中邻居的可变权重和不同阶的连接性，使用外积作为最后得到的用户嵌入和项目嵌入的交互函数，考虑特征向量不同维度之间的成对相关性，从而提高推荐质量；此外，在得到的特征矩阵上引入CNN(Convolutional Neural Network)学习特征中每一维度之间的高阶相互关系，CNN尤其能抓住矩阵的局部和全局信息特征，而且具有较少的参数，因此更容易训练和泛化，另外，分层的塔式结构也使得高层集成了更丰富的信息，多层的神经网络结构也赋予模型高水平的灵活性和非线性建模能力。本发明的方法还包括：S4、模型的训练及项目推荐：利用用户项目评分信息和用户项目的邻居信息作为模型的输入，模型在训练过程中不断更新参数，从而更好的学习嵌入传播过程中邻居的可变权重和不同阶的连接性以及用户/项目显式-隐式耦合关系。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种融合图神经网络和注意力机制的协同过滤推荐方法，其特征在于，包括以下步骤：

S1、数据采集及处理；

2.如权利要求1所述的融合图神经网络和注意力机制的协同过滤推荐方法，其特征在于，所述步骤S1的数据采集及处理的具体步骤如下：

S101、将下载的MovieLens 1M数据集进行数据预处理；

S102、将五级评分矩阵

转化为二值化偏好矩阵；

S103、使用10-core设置，即保留至少有10次交互的用户和项目。

3.如权利要求1所述的融合图神经网络和注意力机制的协同过滤推荐方法，其特征在于，所述步骤S3中构建融合模型的具体步骤如下：

4.如权利要求3所述的融合图神经网络和注意力机制的协同过滤推荐方法，其特征在于，所述步骤S302中构建基于GNN的消息传递体系结构和融合注意力机制框架的具体步骤如下：

和

表示用户和项目的潜在特征；

S302-2、通过注入高阶连通性来细化嵌入；

5.如权利要求1所述的融合图神经网络和注意力机制的协同过滤推荐方法，其特征在于，所述步骤S4中模型的训练及项目推荐的具体步骤如下：