CN112529415A

CN112529415A - 基于组合多感受野图神经网络的物品评分方法

Info

Publication number: CN112529415A
Application number: CN202011458878.1A
Authority: CN
Inventors: 慕彩红; 刘逸; 黄天欢; 陈璞花; 刘若辰; 李阳阳; 田小林
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-19
Anticipated expiration: 2040-12-11
Also published as: CN112529415B

Abstract

本发明公开了一种基于组合多感受野图神经网络的物品评分方法，其实现步骤为：(1)构建属性特征提取模块；(2)构建结构特征提取模块；(3)构建图解码器模块；(4)生成组合多感受野图神经网络；(5)构建属性特征矩阵和用户‑物品评分矩阵；(6)生成用户‑物品二部有权图；(7)生成训练集；(8)训练组合多感受野图神经网络；(9)评分。本发明提出的方法能够提取用户和物品的属性特征和结构特征，充分挖掘用户和物品信息，具有评分准确度高的优点。

Description

基于组合多感受野图神经网络的物品评分方法

技术领域

本发明属于信息技术领域，更进一步涉及物品评分技术领域中的一种基于组合多感受野图神经网络的物品评分方法。本发明可根据用户属性信息、物品属性信息和用户的历史行为数据，对构建的组合多感受野图神经网络模型进行训练，得到用户对物品的评分。

背景技术

随着互联网的快速发展，用户规模爆炸增长，物品种类越来越多，带来了严重的信息过载问题，推荐系统是缓解信息过载问题的有效技术手段，物品评分技术是推荐系统中的一个重要任务，评分的准确性对提高推荐系统的性能有着重要意义。物品评分技术首先通过对客观数据和主观数据进行分析和建模，其中用户的性别、年龄、籍贯和物品的生产厂商、类别等客观数据主要用于提取其内容特征和属性特征。用户历史行为数据等主观数据主要用于提取其偏好特征和结构特征，最后使用提取到的特征来得到用户对没有评分过的物品的评分。目前已存在的物品评分方法有很多，其中应用最广泛的是基于矩阵分解的方法。近几年，随着图神经网络的快速发展和广泛应用，也为解决物品评分问题提供了新的思路。

陕西科技大学在其申请的专利文献“基于矩阵分解协同过滤算法的图书推荐方法及系统”(申请号：201810260195.1，申请公开号：CN 108509573 A)中公开了一种基于矩阵分解协同过滤算法的物品评分方法。该方法的实施步骤是：步骤1，预处理用户历史评分行为数据的训练集为用户-物品评分矩阵；步骤2，对评分矩阵进行均值归一化处理；步骤3，对归一化处理后的用户-物品评分矩阵进行矩阵分解，分解成两个低维矩阵的乘积，分别表示用户的特征矩阵以及物品的特征矩阵乘积。步骤4，构造改进的代价函数；步骤5，初始化特征矩阵；步骤6，通过改进的梯度下降法求解目标函数；步骤7，确定目标函数最优解之后，计算用户对候选物品的评分；步骤8，取评分较高的前k个物品推荐给用户。该方法存在的不足之处是，该方法只能够对用户行为数据进行挖掘，导致客观信息挖掘不充分，用户和物品属性特征提取不充分，评分准确性差的问题。

重庆邮电大学在其申请的专利文献“一种基于改进的图卷积神经网络的物品评分预测方法”(申请号：202010738044.X，申请公开号：CN 111859166 A)中公开了一种基于改进的图卷积神经网络的物品评分方法。该方法的实施步骤是：步骤1，获取用户对物品的历史评分、用户的个人信息，以及物品的属性信息；步骤2，构造用户-物品，用户-用户，物品-物品关系图；步骤3，利用改进的图卷积神经网络提取多种关系图中节点的结构和属性特征；步骤4，选择神经网络模型融合节点的多种特征信息；步骤5，根据用户和物品的特征表示，预测用户对物品感兴趣的概率；步骤6，利用训练集和验证集训练模型；步骤7，利用训练好的模型得到用户对物品的评分。该方法存在的不足之处是，该方法的图卷积网络中仅使用单一的图卷积层，导致用户和物品的结构特征提取不充分，评分准确性差的问题。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于组合多感受野图神经网络的物品评分方法，用于解决现有物品评分方法中由于对用户和物品属性特征和结构特征提取不充分，导致评分准确性差的问题。

实现本发明目的的思路是：针对现有技术中用户和物品属性特征提取不充分的问题，通过构建属性特征提取模块提取用户和物品的属性特征，针对现有技术中用户和物品结构特征提取不充分的问题，通过构建结构特征提取模块提取用户和物品的结构特征；生成组合多感受野图神经网络用于对物品评分；构建属性特征矩阵、用户-物品评分矩阵和用户-物品二部有权图，组成训练集对组合多感受野图神经网络进行训练；最后使用训练好的组合多感受野图神经网络得到用户对待评分物品的评分。

为实现上述目的，本发明的具体实现步骤如下：

(1)构建属性特征提取模块。

分别搭建两个结构相同的分支，将两个分支结构并联组成属性特征提取模块，每个分支的结构包括输入层和全连接层；将两个输入层的神经元个数均设置为4，激活函数为RELU；将两个全连接层的神经元个数均设置为64，激活函数为RELU。

(2)构建结构特征提取模块。

(2a)分别搭建三个结构相同的分支，每个分支的结构均包括输入层和图卷积层；将三个输入层的神经元个数均设置为用户-物品评分矩阵的行数和列数之和，激活函数为RELU；将三个图卷积层的神经元个数均设置为40，激活函数为RELU。

(2b)将三个分支与一个拼接层连接，再与一个全连接层相连，组成结构特征提取模块，将全连接层的神经元个数设置为240，激活函数为RELU。

(3)构建图解码器模块。

(3a)分别搭建两个分支，每个分支的结构均为一个全连接层；将两个全连接层的神经元个数分别设置为64、240，激活函数均为RELU。

(3b)将两个分支与一个拼接层连接，再与一个softmax层相连，组成图编码器模块。

(4)生成组合多感受野图神经网络。

将属性特征模块和结构特征模块并联后再与图解码器模块进行相连，生成组合多感受野图神经网络。

(5)构建属性特征矩阵和用户-物品评分矩阵。

(5a)从待推荐用户数据集中提取至少500个用户的属性信息生成一个用户属性特征矩阵，其中矩阵的列依次为年龄、性别、籍贯和职业，矩阵的行为用户编号。

(5b)从待推荐物品数据集中提取至少1000个物品的属性信息生成一个物品属性特征矩阵，其中矩阵的列依次为品牌、类别、产地和生产日期，矩阵的行为物品编号。

(5c)从用户历史行为数据集中提取至少10万条待推荐用户对待推荐物品的评分信息生成一个用户-物品评分矩阵，其中矩阵的行为用户编号，矩阵的列为物品编号。

(6)生成用户-物品二部有权图。

将用户-物品评分矩阵中的行序号和列序号作为顶点，用户对物品的评分作为边，评分数值为边上的权重，得到用户-物品二部有权图。

(7)生成训练集。

将用户属性特征矩阵、物品属性特征矩阵和用户-物品二部有权图组成训练集。

(8)训练组合多感受野图神经网络。

(8a)设置组合多感受野图神经网络的损失函数为交叉熵损失函数，学习率为0.01，dropout保留概率为0.7，滑动平均衰减速率为0.995，优化器为Adam。

(8b)将训练集输入到组合多感受野图神经网络中对网络迭代训练，在每次迭代的过程中，结构特征提取模块的三个分支，对经由属性特征提取模块提取的属性特征分别进行三个分支设定的不同次数的消息传递后输出一个结构特征，再将属性特征和结构特征输入到图解码器模块中输出评分；使用组合多感受野图神经网络的损失函数计算当前迭代时该网络的损失，用该损失更新当前迭代时网络中每个神经元的权重值，直至组合多感受野图神经网络的损失收敛，得到训练好的组合多感受野图神经网络。

(9)评分。

(9a)从待评分用户属性数据中提取用户的年龄、性别、籍贯与职业组成待评分用户特征；从待评分物品属性数据中提取商品的品牌、类别、产地和生产日期组成待评分物品特征。

(9b)将待评分用户特征与待评分物品特征同时输入到训练好的组合多感受野图神经网络中，输出用户对物品的评分。

本发明与现有技术相比有以下优点：

第1，由于本发明构建了一个包含两个结构相同的特征提取分支的属性特征提取模块，用于从属性特征矩阵中充分提取用户属性特征和物品属性特征，克服了现有技术中存在的只能够对用户行为数据进行挖掘，导致客观信息挖掘不充分，用户属性特征和物品属性特征提取不充分的问题，使得本发明具有能够充分挖掘客观信息，提取用户属性特征和物品属性特征的优点，使得本发明提高了对物品评分的准确性。

第2，由于本发明构建了一个包含三个消息传递次数不同的图卷积层的结构特征提取模块，用于充分提取用户结构特征和物品结构特征，克服了现有技术中图卷积网络中仅使用单一的图卷积层，导致用户结构特征和物品结构特征提取不充分，评分准确性差的问题，使得本发明具有能够充分提取用户结构特征和物品结构特征的优点，使得本发明提高了对物品评分的准确性。

附图说明

图1是本发明的流程图；

图2是本发明的仿真图。

具体实施方式

下面结合附图对本发明作进一步的详细描述。

参照图1，对本发明的具体实施作进一步的详细描述。

步骤1，构建属性特征提取模块。

步骤2，构建结构特征提取模块。

分别搭建三个结构相同的分支，每个分支的结构均包括输入层和图卷积层；将三个输入层的神经元个数均设置为用户-物品评分矩阵的行数和列数之和，激活函数为RELU；将三个图卷积层的神经元个数均设置为40，激活函数为RELU。

将三个分支与一个拼接层连接，再与一个全连接层相连，组成结构特征提取模块，将全连接层的神经元个数设置为240，激活函数为RELU。

步骤3，构建图解码器模块。

分别搭建两个分支，每个分支的结构均为一个全连接层；将两个全连接层的神经元个数分别设置为64、240，激活函数均为RELU。

将两个分支与一个拼接层连接，再与一个softmax层相连，组成图编码器模块。

步骤4，生成组合多感受野图神经网络。

步骤5，构建属性特征矩阵和用户-物品评分矩阵。

从待推荐用户数据集中提取至少500个用户的属性信息生成一个用户属性特征矩阵，其中矩阵的列依次为年龄、性别、籍贯和职业，矩阵的行为用户编号。

从待推荐物品数据集中提取至少1000个物品的属性信息生成一个物品属性特征矩阵，其中矩阵的列依次为品牌、类别、产地和生产日期，矩阵的行为物品编号。

从用户历史行为数据集中提取至少10万条待推荐用户对待推荐物品的评分信息生成一个用户-物品评分矩阵，其中矩阵的行为用户编号，矩阵的列为物品编号。

步骤6，生成用户-物品二部有权图。

步骤7，生成训练集。

步骤8，训练组合多感受野图神经网络。

设置组合多感受野图神经网络的损失函数为交叉熵损失函数，学习率为0.01，dropout保留概率为0.7，滑动平均衰减速率为0.995，优化器为Adam。

将训练集输入到组合多感受野图神经网络中对网络迭代训练，在每次迭代的过程中，结构特征提取模块的三个分支，对经由属性特征提取模块提取的属性特征分别进行三个分支设定的不同次数的消息传递后输出一个结构特征，再将属性特征和结构特征输入到图解码器模块中输出评分；使用组合多感受野图神经网络的损失函数计算当前迭代时该网络的损失，用该损失更新当前迭代时网络中每个神经元的权重值，直至组合多感受野图神经网络的损失收敛，得到训练好的组合多感受野图神经网络。

所述的三个分支设定的不同次数分别为1、2、3。

所述的消息传递的具体步骤如下。

第一步：对每个顶点进行独热编码，得到该顶点的嵌入向量。

第二步：按照下式，计算每两个顶点间传输的消息值。

其中u_ij表示从第j个顶点传向第i个顶点的消息值，R表示对用户-物品评分矩阵中所有元素去重后组成的集合，|N_r(i)|表示由第i个顶点评分为r的顶点组成的集合N_r(i)中元素的总数，W表示消息传递所在分支的图卷积层的权重，x_j表示第j个顶点的嵌入向量。

第三步：按照下式，更新每个顶点的嵌入向量。

其中，h_i表示第i个顶点更新后的嵌入向量，concat(·)表示拼接操作，g_i表示第i个顶点更新前的嵌入向量，σ(·)表示激活函数RELU,

表示对集合N_r(i)中的所有元素值求和。

步骤9，评分。

从待评分用户属性数据中提取用户的年龄、性别、籍贯与职业组成待评分用户特征；从待评分物品属性数据中提取商品的品牌、类别、产地和生产日期组成待评分物品特征。

将待评分用户特征与待评分物品特征同时输入到训练好的组合多感受野图神经网络中，输出用户对物品的评分。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Core(TM)i7-7700HQ CPU，主频2.8GHz，内存16G，显卡GEFORCE GTX 1060；

本发明的仿真实验的软件平台为：Ubuntu16.04操作系统、python3.5和tensorflow11.1。

本发明的仿真实验所使用的数据集采用推荐系统领域中五个真实世界的数据集：GroupLens实验室于2003年从MovieLens电影网站收集的用户对电影的评分记录组成的MovieLens-100K数据集和MovieLens-1M数据集、豆瓣网于2016年从豆瓣电影网站收集的用户对电影的评分记录组成的Douban数据集、Flixster网于2004年从Flixster社交电影网站收集的用户对电影的评分记录组成的Flixster数据集以及雅虎网于2014年从雅虎音乐社区收集的用户对音乐的评分记录组成的YahooMusic数据集，五个数据集的统计信息见如下表1。

表1本发明仿真实验数据集的统计信息表

数据集	用户数量	物品数量	评分数量	稀疏度	评分等级
						MovieLens-100K	943	1682	100000	6.30％	1,2,…,5
MovieLens-1M	6040	3706	1000209	4.47％	1,2,…,5
						Douban	3000	3000	136891	1.52％	1,2,…,5
Flixster	3000	3000	26173	0.29％	0.5,1,…,5
						YahooMusic	3000	3000	5335	0.06％	1,2,…,100

2.仿真实验内容与结果分析：

仿真实验1：

本发明的仿真实验1是分别从MovieLens-100K和MovieLens-1M两个数据集随机选取80％的用户对物品的评分记录生成包含80000条评分的MovieLens-100K训练集和包含800167条评分的MovieLens-1M训练集，剩余20％的评分记录分别生成包含20000条评分的MovieLens-100K测试集和包含800167条评分的MovieLens-1M测试集，采用本发明和三个现有技术(矩阵分解协同过滤MF评分方法、递归多图神经网络sRGCNN评分方法、图卷积矩阵补全GC-MC评分方法)分别对MovieLens-100K测试集和MovieLens-1M测试集进行评分。分别计算四种方法在MovieLens-100K测试集上得到的20000条评分结果与其对应的真实评分的平均绝对误差MAE和均方根误差RMSE，将四种方法计算所得的MAE绘成图2(a)中圆形标识的折线，将四种方法计算所得的RMSE绘成图2(b)中圆形标识的折线；分别计算四种方法在MovieLens-1M测试集上得到的200041条评分结果与其对应的真实评分的平均绝对误差MAE和均方根误差RMSE，将不同方法计算所得的MAE绘成图2(a)中倒三角形标识的折线，将不同方法计算所得的RMSE绘成图2(b)中倒三角形标识的折线。

所述分别计算四种方法在MovieLens-100K测试集上得到的20000条评分结果与其对应的真实评分的平均绝对误差MAE和均方根误差RMSE的公式如下：

其中，MAE表示在测试集中用户对物品的真实评分与预测评分之间的平均绝对平均误差，u表示在测试集中的第u个用户，i表示在测试集中的第i个物品，|Test|表示测试集Test中的评分数量，r_ui表示测试集中第u个用户对第i个物品的真实评分，r_ui表示测试集中第u个用户对第i个物品的预测评分，RMSE表示在测试集中预测评分与真实评分的均方根误差。

在仿真实验中，采用的三个现有技术是指：

现有技术矩阵分解协同过滤MF评分方法是指陕西科技大学在其申请的专利文献“基于矩阵分解协同过滤算法的图书推荐方法及系统”(申请号：201810260195.1，申请公布号：CN108509573A)中公开的物品评分方法，简称矩阵分解协同过滤的评分方法MF。

现有技术递归多图神经网络sRGCNN评分方法是指Monti等人在“Geometricmatrix completion with recurrent multi-graph neural networks,Conference andWorkshop on Neural Information Processing Systems,2017”中提出的物品评分方法,简称递归多图神经网络的评分方法sRGCNN。

现有技术图卷积矩阵补全GC-MC评分方法是指Berg等人在“Graph ConvolutionalMatrix Completion，ACM Knowledge Discovery and Data Mining Workshop，2018”中提出的物品评分方法，简称图卷积矩阵补全GC-MC评分方法。

下面结合图2的仿真图对本发明的效果做进一步的描述。

图2(a)为四种方法在MovieLens-100K数据集和MovieLens-1M数据集上的平均绝对误差MAE的对比结果，图2(b)为四种方法在MovieLens-100K数据集和MovieLens-1M数据集上的均方根误差RMSE的对比结果。

图2(a)和图2(b)中均以圆形标识的折线表示四种方法在MovieLens-100K数据集上的评分结果，以倒三角形标识的折线表示四种方法在MovieLens-1M数据集上的评分结果，从图2(a)和图2(b)中可以看出，本发明在MovieLens-100K和MovieLens-1M两个数据集上得到的评分结果的平均绝对误差MAE和均方根误差RMSE比已有的矩阵分解协同过滤MF评分方法、递归多图神经网络sRGCNN评分方法和图卷积矩阵补全GC-MC评分方法得到的评分结果的平均绝对误差MAE和均方根误差RMSE小，这表明本发明的评分结果和真实评分之间的差距更小，评分结果的准确度更高。

仿真实验2：

本发明的仿真实验2是分别从Douban、Flixster和YahooMusic三个数据集随机选取80％用户对物品的评分记录生成包含2400条评分的Douban训练集、包含2400条评分的Flixster训练集和包含2400条评分的YahooMusic训练集，剩余的20％分别生成包含600条评分的Douban测试集、包含600条评分的Flixster测试集和包含600条评分的YahooMusic测试集，采用本发明和两个现有技术(递归多图神经网络sRGCNN评分方法、图卷积矩阵补全GC-MC评分方法)分别对Douban测试集、Flixster测试集和YahooMusic测试集进行评分。分别计算三种方法在Douban测试集、Flixster测试集和YahooMusic测试集上得到评分结果与其对应的真实评分的平均绝对误差MAE和均方根误差RMSE，将计算所得的平均绝对误差MAE和均方根误差RMSE绘成表2：

表2本发明与两种现有技术评分结果对比表

综合表2可以看出，本发明在Douban、Flixster和YahooMusic三个数据集上的得到的评分结果的平均绝对误差MAE和均方根误差RMSE上比已有的递归多图神经网络sRGCNN评分方法和图卷积矩阵补全GC-MC评分方法得到的评分结果的平均绝对误差MAE和均方根误差RMSE小，这表明本发明的预测评分和真实评分之间的差距更小，评分结果的准确度更高。

以上仿真实验表明：本发明方法利用搭建的属性特征提取模块，能够充分提取用户和物品的属性特征，利用搭建的结构特征提取模块，能够充分提取用户和物品的结构特征，利用训练好的组合多感受野图神经网络，能够得到更加准确的用户对待评价物品的评分，解决了现有技术方法中存在的对用户和物品属性特征挖掘不充分以及不能够充分提取用户和物品的结构特征，导致评分准确度不高的问题，是一种非常实用的物品评分方法。

Claims

1.一种基于组合多感受野图神经网络的物品评分方法，其特征在于，生成一个由属性特征提取模块、结构特征提取模块和图解码器模块组成的组合多感受野图神经网络，由用户属性特征矩阵、物品属性特征矩阵和用户-物品二部有权图组成训练集训练网络，该方法的步骤包括如下：

(1)构建属性特征提取模块：

分别搭建两个结构相同的分支，将两个分支结构并联组成属性特征提取模块，每个分支的结构包括输入层和全连接层；将两个输入层的神经元个数均设置为4，激活函数为RELU；将两个全连接层的神经元个数均设置为64，激活函数为RELU；

(2)构建结构特征提取模块：

(2a)分别搭建三个结构相同的分支，每个分支的结构均包括输入层和图卷积层；将三个输入层的神经元个数均设置为用户-物品评分矩阵的行数和列数之和，激活函数为RELU；将三个图卷积层的神经元个数均设置为40，激活函数为RELU；

(2b)将三个分支与一个拼接层连接，再与一个全连接层相连，组成结构特征提取模块，将全连接层的神经元个数设置为240，激活函数为RELU；

(3)构建图解码器模块：

(3a)分别搭建两个分支，每个分支的结构均为一个全连接层；将两个全连接层的神经元个数分别设置为64、240，激活函数均为RELU；

(3b)将两个分支与一个拼接层连接，再与一个softmax层相连，组成图编码器模块；

(4)生成组合多感受野图神经网络：

将属性特征模块和结构特征模块并联后再与图解码器模块进行相连，生成组合多感受野图神经网络；

(5)构建属性特征矩阵和用户-物品评分矩阵：

(5a)从待推荐用户数据集中提取至少500个用户的属性信息生成一个用户属性特征矩阵，其中矩阵的列依次为年龄、性别、籍贯和职业，矩阵的行为用户编号；

(5b)从待推荐物品数据集中提取至少1000个物品的属性信息生成一个物品属性特征矩阵，其中矩阵的列依次为品牌、类别、产地和生产日期，矩阵的行为物品编号；

(5c)从用户历史行为数据集中提取至少10万条待推荐用户对待推荐物品的评分信息生成一个用户-物品评分矩阵，其中矩阵的行为用户编号，矩阵的列为物品编号；

(6)生成用户-物品二部有权图：

将用户-物品评分矩阵中的行序号和列序号作为顶点，用户对物品的评分作为边，评分数值为边上的权重，得到用户-物品二部有权图；

(7)生成训练集：

将用户属性特征矩阵、物品属性特征矩阵和用户-物品二部有权图组成训练集；

(8)训练组合多感受野图神经网络：

(8a)设置组合多感受野图神经网络的损失函数为交叉熵损失函数，学习率为0.01，dropout保留概率为0.7，滑动平均衰减速率为0.995，优化器为Adam；

(8b)将训练集输入到组合多感受野图神经网络中对网络迭代训练，在每次迭代的过程中，结构特征提取模块的三个分支，对经由属性特征提取模块提取的属性特征分别进行三个分支设定的不同次数的消息传递后输出一个结构特征，再将属性特征和结构特征输入到图解码器模块中输出评分；使用组合多感受野图神经网络的损失函数计算当前迭代时该网络的损失，用该损失更新当前迭代时网络中每个神经元的权重值，直至组合多感受野图神经网络的损失收敛，得到训练好的组合多感受野图神经网络；

(9)评分：

(9a)从待评分用户属性数据中提取用户的年龄、性别、籍贯与职业组成待评分用户特征；从待评分物品属性数据中提取商品的品牌、类别、产地和生产日期组成待评分物品特征；

2.根据权利要求1中所述的基于组合多感受野图神经网络的物品评分方法，其特征在于，步骤(8b)中所述的三个分支设定的不同次数分别为1、2、3。

3.根据权利要求1中所述的基于组合多感受野图神经网络的物品评分方法，其特征在于，步骤(8b)中所述消息传递的具体步骤如下：

第一步：对每个顶点进行独热编码，得到该顶点的嵌入向量；

第二步：按照下式，计算每两个顶点间传输的消息值：

其中u_ij表示从第j个顶点传向第i个顶点的消息值，R表示对用户-物品评分矩阵中所有元素去重后组成的集合，|N_r(i)|表示由第i个顶点评分为r的顶点组成的集合N_r(i)中元素的总数，W表示消息传递所在分支的图卷积层的权重，x_j表示第j个顶点的嵌入向量；

第三步：按照下式，更新每个顶点的嵌入向量：

表示对集合N_r(i)中的所有元素值求和。