CN111859160A

CN111859160A - 一种基于图神经网络会话序列推荐方法及系统

Info

Publication number: CN111859160A
Application number: CN202010789843.XA
Authority: CN
Inventors: 李冬芬; 王惠明; 刘明哲; 钟豪; 王林平; 唐小川
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-10-30
Anticipated expiration: 2040-08-07
Also published as: CN111859160B

Abstract

本发明公开了一种基于图神经网络会话序列推荐方法及系统，方法包括：从第三方新闻库爬取新闻源数据，进行清洗和深度分析，输出结构化数据；从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过计算得出与该用户属性最相近的新闻推荐；为用户提供个性化的标签选项，并且实时监测用户行为并反馈数据回传至模型；获取用户行为数据，对获取数据进行分析和筛选，并将筛选后的数据构建为会话序列数据；利用用户会话序列数据来训练GNN模型，预测用户下一时刻行为，实现新闻推荐。本发明还提供一种基于图神经网络会话序列推荐系统。本方案采用基于内容的推荐策略，并将协同过滤算法作为补充，更敏捷地捕捉用户的兴趣点并实时进行新闻推荐。

Description

一种基于图神经网络会话序列推荐方法及系统

技术领域

本发明涉及领域，尤其涉及一种基于图神经网络会话序列推荐方法及系统。

背景技术

21世纪是信息爆炸增长的时代，人们面对互联网上良莠不齐的信息往往束手无策，很难获取到符合自己兴趣和期望的内容。例如在新闻领域，每天有数以万计的新闻出现在我们面前，如何为用户提供及时、准确、符合用户期望的新闻内容成为当下的一个研究热题。个性化推荐算法是解决上述问题的一个利器。

传统的推荐算法在新闻推荐领域的应用主要有以下三个方法：1）基于协同过滤的推荐；2）基于相似内容的推荐；3）基于新闻热点的推荐。在构建召回模型的时候，通常假定用户属性和用户历史行为是被持续记录的，即模型是基于用户属性和历史行为进行构建的。然而在某些服务或应用场景下，用户身份或属性是未知的，且用户历史行为数据的获取也是困难。现有的推荐系统对用户特征表示不够准确，忽略了item中复杂的转换特性，因此不能实现实时捕捉用户的兴趣点并进行实时新闻推荐。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图神经网络会话序列推荐方法及系统，采用基于内容的推荐策略，并将协同过滤算法作为补充，更敏捷地捕捉用户的兴趣点并实时进行新闻推荐。

本发明的目的是通过以下技术方案来实现的：

一种基于图神经网络会话序列推荐方法，方法包括以下步骤：

S1，新闻预处理，从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据；

S2，基于标签推荐，从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过余弦相似度的计算得出与该用户属性最相近的新闻推荐；

S3，用户体验反馈，为用户提供一系列个性化的标签选项，并且实时监测用户行为作为反馈数据回传至模型；

S4，会话序列分析，获取用户行为数据，同时对获取的数据进行分析和筛选，并将筛选后的行为数据构建为会话序列数据；

S5，会话训练推荐，利用用户会话序列数据来训练GNN模型，达到预测用户下一时刻行为的目标，从而实现新闻推荐。

具体的，所述步骤S1中新闻预处理过程具体包括以下子步骤：

S101，基于scrapy框架利用爬虫软件从新闻源数据库中并发爬取半结构化或纯文本的新闻源数据，并进行数据清洗和组织，生成结构化数据；

S102，采用TF-IDF算法进行关键字提取，从而为每篇新闻打上标签，并分析该新闻的热度情况，最终生成预处理后的新闻数据，存入数据库。

具体的，所述步骤S2中基于标签推荐具体过程包括以下子步骤：

S201，从数据库中获取新闻数据，并提取出每个新闻的标签，采用词袋模型生成对应新闻的标签向量；

S202，获取用户体验反馈部分在用户属性表中生成的用户属性，并生成对应用户的属性向量；

S203，基于相似度计算模型，经过余弦相似度的计算得出与该用户属性最相近的新闻作为推荐候选集；

S204，采用新闻热度排序的方式选出热度最高的N个新闻作为最终候选集，并写入推荐候选表。

具体的，所述步骤S3中用户体验反馈过程基体包括以下子步骤：

S301，为用户提供一系列新闻类型标签以供选择，并根据用户选择的标签向用户推荐新闻，同时将用户选择的标签作为用户属性；

S302，实时监测用户的行为，采集用户浏览新闻过程生成的个性化行为数据，并实时的存入用户的行为数据表中。

具体的，所述步骤S4中会话序列分析过程具体包括以下子步骤：

S401，从用户行为数据表中获取行为数据，根据用户对新闻的行为程度进行行为筛选，将数据库中新闻划分为感兴趣或不感兴趣两部分；

S402，根据用户感兴趣的新闻数据构建会话序列，基于时间序列生成一系列会话，每个会话包含多个行为，然后存入会话序列数据表中，以供模型使用。

具体的，所述步骤S5中会话训练推荐过程具体包括以下子步骤：

S501，从会话序列数据表中获取会话数据，经过一定的加工处理，生成可供模型训练使用和测试的数据集；

S502，搭建图神经网络模型，初始模型会进行参数初始化，将初始化的参数保存到模型参数表中；

S503，初始化完成后便将会话数据导入模型进行模型训练，当损失降到一定阈值输出模型参数并更新模型参数表；

S504，进行预测并将预测结果传入排序部分进行推荐排序，最终生成推荐新闻ID存入推荐候选表中，以供用户体验部分推荐使用。

具体的，所述子步骤S503中还包括：基于每个用户的Session记录去构建一个子图，其中每个用户的历史行为都会被构建为一个子图，最终得到一个完整的有向图；为每个有向图都创建一个出度矩阵和一个入度矩阵，采用邻接矩阵的方式来存储上述建模出来的图，将每个有向图经过归一化处理输入进神经网络模型进行训练。

基于图神经网络会话序列推荐系统，包括新闻预处理模块、基于标签推荐模块、用户体验反馈模块、会话序列分析模块和会话训练推荐模块，其中，

新闻预处理模块，用于从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据；

基于标签推荐模块，用于从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过余弦相似度的计算得出与该用户属性最相近的新闻推荐；

用户体验反馈模块，用于为用户提供一系列个性化的标签选项，并且实时监测用户行为作为反馈数据回传至模型；

会话序列分析模块，用于获取用户行为数据，同时对获取的数据进行分析和筛选，并将筛选后的行为数据构建为会话序列数据；

会话训练推荐模块，用于利用用户会话序列数据来训练GNN模型，达到预测用户下一时刻行为的目标，从而实现新闻推荐。

具体的，所述会话序列分析模块具体包括用户行为筛选子模块和会话序列构建子模块；用户行为筛选子模块用于根据判定标准对用户浏览的新闻进行筛选；会话序列构建子模块用于根据筛选出的用户感兴趣的数据构建会话序列。

具体的，所述会话训练推荐模块具体包括会话子图建模子模块、门控神经网络子模块、注意力分配子模块和item预测子模块；会话子图建模子模块用于根据用户行为数据构建有向图；门控神经网络子模块用于使用GNN网络对图进行信息的抽取挖掘，得到会话图中新闻item向量；注意力分配子模块用于根据物品与点击的相似度，来进行注意力权值的附加，将信息附加权重后加在一起成为向量sg；item预测子模块用于对s1和sg进行横向拼接，并进行线性变换，得到结果sh，最后将sh于每个新闻的向量进行内积运算，最终得到每个新闻的预测概率。

本发明的有益效果：本方案通过将用户会话序列数据进行有向图建模，并利用GNN和Attention Network进行学习，可以很好地捕获item之间丰富的转换特性，最终生成高准确率的item隐向量，根据隐向量进行内积计算从生产推荐结果。

附图说明

图1是本发明的方法流程图。

图2是本发明的用户体验功能数据流动图。

图3是本发明的行为会话分析功能数据流动图。

图4是本发明的基于会话推荐功能数据流动图。

图5是本发明的基于图神经网络的会话推荐流程图。

图6是本发明基于会话的新闻推荐系统总体模块图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，一种基于图神经网络会话序列推荐方法，方法主要包括以下步骤：

步骤1，新闻预处理，从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据。

步骤2，基于标签推荐，从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过余弦相似度的计算得出与该用户属性最相近的新闻推荐。

步骤3，用户体验反馈，为用户提供一系列个性化的标签选项，并且实时监测用户行为作为反馈数据回传至模型。

步骤4，会话序列分析，获取用户行为数据，同时对获取的数据进行分析和筛选，并将筛选后的行为数据构建为会话序列数据。

步骤5，会话训练推荐，利用用户会话序列数据来训练GNN模型，达到预测用户下一时刻行为的目标，从而实现新闻推荐。

其中，新闻预处理功能主要包括爬虫、关键字提取、标签化和热度分析四个子功能。从慧科、各大媒体、头条等新闻源数据库中爬取半结构化或纯文本的新闻源数据，采用scrapy框架进行并发爬取，并进行数据清洗和组织，生成结构化数据；然后采用TF-IDF算法进行关键字提取，从而为每篇新闻打上标签，并分析该新闻的热度情况，最终生成预处理后的新闻数据，存入数据库中以供后续使用。

基于标签推荐功能主要包括新闻标签向量化、用户属性向量化、相似度计算和热度排序四个子功能。这里采用基于标签的推荐是为了解决冷启动问题，为初始用户提供基于初始化标签的推荐。从数据库中获取新闻数据，并提取出每个新闻的标签，采用词袋模型生成对应新闻的标签向量；同样从用户属性表（在用户体验功能部分生成）中获取用户属性，并生成对应用户的属性向量；然后经过相似度计算模型，得到与每个用户的属性最相近的若干个新闻作为推荐候选集；这里为了避免生成过多推荐候选集，采用新闻热度排序的方式选出热度最高的N个新闻作为最终候选集，并写入推荐候选表。

用户体验功能主要包括自定义标签、个性化阅读选项和推荐新闻内容获取三个子功能。这里采用匿名用户表示的原因在于本系统是基于会话的推荐系统，其中一个优势便是可以对匿名会话中的用户进行行为预测和推荐。用户体验功能数据流动如图2所示，用户体验功能数据流图初始访问系统时，为了解决冷启动问题，采取为用户提供一系列标签的方式以供选择，因为用户选择的标签可以在一定程度上表示用户初始属性。之后用户可以进行浏览新闻，这里有一系列个性化阅读选项可供选择，比如阅读、点赞、评论和分享。生成的行为数据将会实时的存入行为数据表中。系统会根据用户的属性和用户的行为来提供新闻的推荐，这里将推荐候选表中的新闻ID在数据库中进行匹配，得到对应的新闻内容数据，反馈给用户。

行为会话分析功能主要包括行为筛选和构建会话序列两个子功能。这部分为会话推荐引擎提供会话数据。行为会话分析功能数据流动如图3所示，从用户行为数据表中获取行为数据，进行行为筛选，即根据用户对新闻的行为程度，划分为感兴趣或不感兴趣两部分，而我们需要的是用户感兴趣的这部分行为；然后便构建会话序列，基于时间序列生成一系列会话，每个会话包含多个行为，然后存入会话序列数据表中，以供模型使用。

其中在会话序列的构建过程中，对收集到的行为数据进行会话分配。每一段会话代表一个用户的行为序列，根据行为所属的会话，将其分配到对应会话中。在每一段会话中依据时间序列构建出用户行为序列。用户阅读新闻的行为记录，即一段会话；基于每个Session去构建一个子图，即每个用户的行为记录都会被构建成一个图，最终得到一个完整的有向图，为每个有向图都创建一个出度矩阵和一个入度矩阵，采用邻接矩阵的方式来存储上述建模出来的图，将每个有向图经过归一化处理输入进神经网络模型进行训练。

基于会话推荐功能主要包括生成训练集/测试集数据、图神经网络模型、模型初始化和推荐排序四个子功能。本功能是推荐系统的核心，即依据用户的会话行为建模，采用图神经网络将序列数据抽象为图数据，然后网络搭建、模型训练，最后生成预测值。基于会话推荐功能数据流动如图4所示，首先从会话序列数据表中获取会话数据，经过一定的加工处理，生成可供模型训练使用和测试的数据集；然后搭建图神经网络模型，初始模型会进行参数初始化，将初始化的参数保存到模型参数表中；经过初始化后便将数据喂给模型进行训练，当损失降到一定阈值我们输出参数并更新模型参数表；然后进行预测并将预测结果传入排序部分进行推荐排序；最终生成推荐新闻ID存入推荐候选表中，以供用户体验部分推荐使用。

其中，基于图神经网络的会话推荐流程如图5所示，首先基于每个用户Session去构建一个子图，其中每个用户的历史行为都会被构建为一个子图，最终得到一个完整的有向图。

然后，使用GNN网络对图进行信息的抽取挖掘，训练好GNN后，我们可以得到会话图中每个浏览新闻item的向量化表示[v1,v2,...,vn]，其中每个vi都是一个向量表示。

其次，对于获得的每个物品的向量化表示，实际上只有最后一个时刻物品是比较重要的，因为最后一次最能体现当前时刻用户的兴趣，我们单独将其取出为s1，而其他信息，我们也会加以利用，但是使用一种注意力分配的机制，添加了Attention策略。根据前面几个物品跟最后一次点击的相似度，来进行注意力权值的附加，然后将这些最后一次之间的信息附加权重后加在一起，成为向量sg。

最后首先对s1和sg进行横向拼接，并进行线性变换，得到结果sh，最后将sh于每个新闻的向量进行内积运算，最终得到每个新闻的预测概率，根据概率的大小来决定最后的推荐候选

本实施例中，如图6所示，基于图神经网络会话序列推荐系统，包括新闻预处理模块、基于标签推荐模块、用户体验反馈模块、会话序列分析模块和会话训练推荐模块，其中，

新闻预处理模块，用于从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据。

基于标签推荐模块，用于从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过余弦相似度的计算得出与该用户属性最相近的新闻推荐。

用户体验反馈模块，用于为用户提供一系列个性化的标签选项，并且实时监测用户行为作为反馈数据回传至模型。

会话序列分析模块，用于获取用户行为数据，同时对获取的数据进行分析和筛选，并将筛选后的行为数据构建为会话序列数据。

会话序列分析模块具体包括用户行为筛选子模块和会话序列构建子模块；用户行为筛选子模块用于根据判定标准对用户浏览的新闻进行筛选；会话序列构建子模块用于根据筛选出的用户感兴趣的数据构建会话序列。

会话训练推荐模块具体包括会话子图建模子模块、门控神经网络子模块、注意力分配子模块和item预测子模块；会话子图建模子模块用于根据用户行为数据构建有向图；门控神经网络子模块用于使用GNN网络对图进行信息的抽取挖掘，得到会话图中新闻item向量；注意力分配子模块用于根据物品与点击的相似度，来进行注意力权值的附加，将信息附加权重后加在一起成为向量sg；item预测子模块用于对s1和sg进行横向拼接，并进行线性变换，得到结果sh，最后将sh于每个新闻的向量进行内积运算，最终得到每个新闻的预测概率。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1. 一种基于图神经网络会话序列推荐方法，其特征在于，方法包括以下步骤： S1，新闻预处理，从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据；

2.根据权利要求1所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述步骤S1中新闻预处理过程具体包括以下子步骤：

3.根据权利要求1所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述步骤S2中基于标签推荐具体过程包括以下子步骤：

4.根据权利要求1所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述步骤S3中用户体验反馈过程基体包括以下子步骤：

5.根据权利要求1所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述步骤S4中会话序列分析过程具体包括以下子步骤：

6.根据权利要求1所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述步骤S5中会话训练推荐过程具体包括以下子步骤：

7. 根据权利要求6所述的一种基于图神经网络会话序列推荐方法，其特征在于，所述子步骤S503中还包括：基于每个用户的Session记录去构建一个子图，其中每个用户的历史行为都会被构建为一个子图，最终得到一个完整的有向图；为每个有向图都创建一个出度矩阵和一个入度矩阵，采用邻接矩阵的方式来存储上述建模出来的图，将每个有向图经过归一化处理输入进神经网络模型进行训练。

8.基于图神经网络会话序列推荐系统，其特征在于，包括

新闻预处理模块，从第三方新闻库爬取新闻源数据，并进行新闻内容的清洗和深度分析，最终输出为经过预处理的结构化新闻数据；

基于标签推荐模块，从数据库和用户属性表中提取新闻标签和用户属性，并将其向量化，经过余弦相似度的计算得出与该用户属性最相近的新闻推荐；

用户体验反馈模块，为用户提供一系列个性化的标签选项，并且实时监测用户行为作为反馈数据回传至模型；

会话序列分析模块，获取用户行为数据，同时对获取的数据进行分析和筛选，并将筛选后的行为数据构建为会话序列数据；

会话训练推荐模块，利用用户会话序列数据来训练GNN模型，达到预测用户下一时刻行为的目标，从而实现新闻推荐。

9.根据权利要求8所述的基于图神经网络会话序列推荐系统，其特征在于，所述会话序列分析模块具体包括用户行为筛选子模块和会话序列构建子模块；用户行为筛选子模块用于根据判定标准对用户浏览的新闻进行筛选；会话序列构建子模块用于根据筛选出的用户感兴趣的数据构建会话序列。

10.根据权利要求8所述的基于图神经网络会话序列推荐系统，其特征在于，所述会话训练推荐模块具体包括会话子图建模子模块、门控神经网络子模块、注意力分配子模块和item预测子模块；会话子图建模子模块用于根据用户行为数据构建有向图；门控神经网络子模块用于使用GNN网络对图进行信息的抽取挖掘，得到会话图中新闻item向量；注意力分配子模块用于根据物品与点击的相似度，来进行注意力权值的附加，将信息附加权重后加在一起成为向量sg；item预测子模块用于对s1和sg进行横向拼接，并进行线性变换，得到结果sh，最后将sh于每个新闻的向量进行内积运算，最终得到每个新闻的预测概率。