CN112948710A

CN112948710A - 基于图神经网络的朋辈教育推荐方法、系统和存储介质

Info

Publication number: CN112948710A
Application number: CN202110300095.9A
Authority: CN
Inventors: 王洪江; 刘东鑫; 刘雪纯; 蒋天霖
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-11

Abstract

本发明公开了一种基于图神经网络的朋辈教育推荐方法、系统和存储介质，方法包括下述步骤：对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据；从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配；为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至用户行为数据表；获取用户行为数据，对数据进行用户行为序列分析，并将有价值的数据构建为用户行为序列数据；使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐。本发明不仅能够解决平台冷启动中难以获取种子用户及用户兴趣表征的问题，还有利于后续的用户双向匹配。

Description

基于图神经网络的朋辈教育推荐方法、系统和存储介质

技术领域

本发明属于算法推荐的技术领域，具体涉及一种基于图神经网络的朋辈教育推荐方法、系统和存储介质。

背景技术

在多方因素的成功推动下，研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想，定义和设计了用于处理图数据的神经网络结构，由此一个新的研究热点——“图神经网络(Graph Neural Networks，GNN)”应运而生。图是一种结构化数据，它由一系列的对象(nodes)和关系类型(edges)组成。作为一种非欧几里得形数据，图分析被应用到节点分类、链路预测和聚类等方向。图网络是一种基于图域分析的深度学习方法。推理是高级人工智能的一个非常重要的研究课题，人脑中的推理过程几乎都是基于从日常经验中提取的图形。标准神经网络已经显示出通过学习数据分布来生成合成图像和文档的能力，同时它们仍然无法从大型实验数据中学习推理图。然而，GNN探索从场景图片和故事文档等非结构性数据生成图形，这可以成为进一步高级AI的强大神经模型。最近，已经证明，具有简单架构的未经训练的GNN也表现良好。

现有技术中，公开了一种基于时序属性的图神经网络的短视频推荐方法及装置，该方法付采用基于图结构的循环神经网络将用户点击过的短视频按照时间顺序进行建模，获得用户的兴趣表征；采用多层感知机将用户点赞的短视频和关注了作者的短视频进行建模，获得用户的增强兴趣表征；采用基于图结构的循环神经网络将用户未点击过的短视频按照时间顺序进行建模，获得用户的非兴趣表征；接收新的短视频，获得新短视频特征，将其与用户的兴趣表征、增强兴趣表征和非兴趣表征输入预测网络，得到短视频的预测概率；根据不同短视频的预测概率数值的降序进行短视频推荐。但是该方法存在下述缺陷：

1.缺乏对种子用户兴趣点的建模。基于时序属性的图神经网络的短视频推荐方法，仅支持收集用户在深度使用短视频社区后的行为，在平台冷启动的条件下，只是简单地抓取种子用户的基本数据进行匹配。

2.现有技术没有解决朋辈教育平台用户双向匹配的需求问题。目前可见的基于图神经网络的推荐方法多为单向输出，几乎没有涉及到两种用户需要进行需求表征互相匹配的内容。

3.现有技术没有解决推荐候选集过多且获取兴趣表征不准确的问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于图神经网络的朋辈教育推荐方法、系统和存储介质，不仅能够解决平台冷启动中难以获取种子用户及用户兴趣表征的问题，还有利于后续的用户双向匹配。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于图神经网络的朋辈教育推荐方法，包括下述步骤：

对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据；

从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配；

为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至用户行为数据表；

获取用户行为数据，对数据进行用户行为序列分析，并将有价值的数据构建为用户行为序列数据；

使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐。

优先的，所述对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据，具体为：

将用户划分为“学习用户”和“分享用户”，所述“学习用户”需要提供个人信息，所述“分享用户”在提供其个人信息外，还需要提供要分享的课程信息；

采用TF-IDF算法对“学习用户”和“分享用户”的个人信息进行关键字提取，从而为每一位用户打上标签，最终生成预处理后的用户数据，各自存入“学习用户数据库”与“分享用户数据库”中以供后续使用；同理，对于预处理后的课程数据，生成“朋辈教育课程数据库”。

优先的，所述从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配，具体为：

从“朋辈教育课程数据库”中获取课程数据，并提取出每个课程的标签，采用词袋模型生成对应课程的标签向量；同样从“学习用户数据库”与“分享用户数据库”中获取用户数据，并各自提取出用户的标签，采用词袋模型生成对应用户的属性向量；

然后将学习用户的属性向量与课程的标签向量通过相似度计算模型进行相似度计算，得到与每个“学习用户”的属性最相近的若干个课程作为推荐候选集；同时，采用双向匹配度排序的方式对“学习用户”的属性向量与推荐候选集内课程的“分享用户”的属性向量进行相似度计算，经过排序最终选出匹配度最高的N个课程作为最终候选集，并写入推荐候选表。

优先的，所述双向匹配度排序具体为：

首先，用A、B来分别表示学习用户的属性向量与推荐候选集内课程的分享用户的属性向量，A＝(A1，A2，A3，…，An)，B＝(B1，B2，B3，…，Bn)；

其次，用夹角余弦方法来衡量两个向量之间的量相似程度的大小，即两向量之间夹角越小时，两向量相似程度越高；通过分别计算由向量A到向量B的相似度SimAB和由向量B到向量A的相似度SimBA，然后，通过下式计算学习用户属性与分享用户属性双向匹配相似程度值：Sim(AB,BA)＝α×SimAB+β×SimBA，式中的α,β代表权重系数，满足α+β＝1；

最后根据Sim(AB,BA)的大小，输出满足要求的课程候选集。

优先的，所述反馈数据包括个性化课程浏览和推荐课程内容获取两个子功能，在朋辈教育平台上，“学习用户”可进行浏览课程的相关信息，还包括个性化的选项，包括接受、点赞、评论和分享，生成的行为数据将会实时的存入“学习用户行为数据表”中。

优先的，所述用户行为序列具体为：

用户行为序列分析包括行为筛选和构建用户行为序列两个子功能，这部分为课程推荐引擎提供用户行为数据；

所述筛选具体为：从“学习用户行为数据表”中获取行为数据，进行行为筛选，即根据学习用户对课程的行为程度，划分为感兴趣或不感兴趣两部分，并获取“学习用户”感兴趣的这部分行为；

所述构建用户行为序列具体为：基于时间序列生成一系列行为，每个行为序列包含多个行为，然后存入用户行为序列数据表中，供GNN模型使用。

优先的，所述使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐，具体为：

从用户行为序列数据表中获取用户的会话行为数据，基于会话行为数据构建一个子图，其中每个“学习用户”的行为都会被构建为一个子图，生成一个可供GNN模型训练使用和测试的数据集；

搭建图神经网络模型，经过初始化后将数据集内的数据输入GNN模型进行训练，当损失降到设定阈值时输出参数并更新模型参数表，训练好GNN模型后，得到行为图中每个行为变量的向量化表示；

引入了Attention机制，来进行注意力权值的附加，进行预测并最终得到每个课程的预测概率，根据概率的大小得到一个推荐候选集；

将预测结果传入排序部分进行推荐排序和双向匹配度排序，最终根据候选集内课程对应分享用户的属性向量与将要接受推荐的学习用户的属性向量进行相似度计算，生成最终的推荐候选表，以供用户体验部分推荐使用。

优先的，在基于GNN模型和Attention机制的用户行为数据训练推荐中，设用户行为序列C＝[v1，v2，v3，…,vn]，其中的vi∈V，1≤i≤n，C是按时间排序的用户行为列表，V为所有行为序列中涉及的项目总空间；然后构建GNN模型，通过模型能够得到输出y，y＝{y1,y2,…,yn}，即在基于用户行为的GNN模型下，对于用户行为序列C，模型输出所有可能的概率，因此y也可被看作是一个在Attention机制下的排序列表，其中排名最高的前x个项目纳入推荐候选集。

本发明的另一方面提供了一种基于图神经网络的朋辈教育推荐系统，应用于所述的基于图神经网络的朋辈教育推荐方法，包括数据预处理模块、标签推荐模块、用户体验反馈模块、用户行为序列分析模块、用户行为训练与推荐模块；

所述数据预处理模块，对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据；

所述标签推荐模块，从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配；

所述用户体验反馈模块，为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至用户行为数据表；

所述用户行为序列分析模块，获取用户行为数据，对数据进行用户行为序列分析，并将有价值的数据构建为用户行为序列数据；

所述用户行为训练与推荐模块，使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐。

本发明的又一方面提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于图神经网络的朋辈教育推荐方法。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明将用户分为“学习用户”与“分享用户”两大类别，采用TF-IDF算法进行关键字提取和标签化，打造出“学习用户数据库”与“分享用户数据库”，不仅能够解决平台冷启动中难以获取种子用户及用户兴趣表征的问题，还有利于后续的用户双向匹配。

2.本发明采用双向匹配度排序的方式，各自提取用户标签，并对学习用户的属性向量与推荐候选集内课程的分享用户的属性向量进行相似度计算，从而解决了朋辈教育双方应尽可能有更多共同语言的问题。

3.在浏览过程中，最后一个时刻或某一特殊时刻的物品是比较重要的，因此，训练好GNN后，本发明单独将用户最后一次浏览或在某一特定时间内浏览的课程提取出来，使用注意力分配机制加以利用，最终得到最大程度简化且精准的推荐候选表，从而解决生成数据冗杂且不够精确的问题。

附图说明

图1是本发明基于图神经网络的朋辈教育推荐方法的总流程图；

图2是本发明步骤一的流程图；

图3是本发明步骤二的流程图；

图4是本发明步骤三、步骤四的流程图；

图5是本发明步骤五的流程图；

图6是本发明基于图神经网络的朋辈教育推荐系统的结构示意图；

图7是本发明存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

朋辈教育(peer education)是一种利用朋辈开展分享活动的教育形式，多被用在健康教育、社交和学生管理、课堂教学和大学新生的适应性教育中。

图神经网络：图神经网络(GNN)是一个很宽泛的概念，顾名思义，就是一种直接在图结构上运行的神经网络，其应用场景非常丰富，在自然语言处理，图像/视频、推荐的很多方面都有落地场景。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

Attention机制是模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。

在如今的朋辈教育平台中，由于缺少一定的技术支持，学习用户与分享用户之间不能结合朋辈教育的特性进行精准地标签匹配，从而降低平台上的成功交易量。本发明针对这个问题设计了一款基于图神经网络的标签预测及信息反馈系统，本发明采用TF-IDF算法、GNN网络等，将学习用户与分享用户进行合理匹配，同时不断更新用户行为序列数据，更准确地预测用户行为

如图1所示，本实施例基于图神经网络的朋辈教育推荐方法，包括下述步骤：

步骤一、对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据；

更进一步的，如图2所示，步骤一实际是数据预处理的过程，具体为：

数据预处理功能主要包括关键字提取和标签化两个子功能，步骤一主要是为了解决平台冷启动的问题，考虑到“朋辈教育”具有双向互动性的特点，本实施例将用户分为“学习用户”与“分享用户”，“学习用户”需要提供其个人信息，而“分享用户”在提供其个人信息外，还需要提供其要分享的课程信息。

更进一步的，本实施例采用TF-IDF算法对“朋辈教育”用户的个人信息进行关键字提取，从而为每一位用户打上标签，最终生成预处理后的用户数据，各自存入“学习用户数据库”与“分享用户数据库”中以供后续使用；与之同理，也可以得到预处理后的课程数据，生成“朋辈教育课程数据库”。

步骤二、从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配；

如图3所述，步骤二实现的是基于标签进行推荐的技术方案，基于标签推荐功能主要包括课程标签向量化、用户属性向量化、相似度计算和匹配度排序三个子功能，具体为：

从“朋辈教育课程数据库”中获取课程数据，并提取出每个课程的标签，采用词袋模型生成对应课程的标签向量；同样从两类用户的用户数据库中获取用户数据，并各自提取出用户的标签，采用词袋模型生成对应用户的属性向量。

然后将学习用户的属性向量与课程的标签向量通过相似度计算模型进行相似度计算，得到与每个学习用户的属性最相近的若干个课程作为推荐候选集；同时，为了避免生成过多推荐候选集并考虑到“朋辈教育”侧重于双方具有相同背景或共同语言，因而本实施例还采用双向匹配度排序的方式对学习用户的属性向量与推荐候选集内课程的分享用户的属性向量进行相似度计算，经过排序最终选出匹配度最高的N个课程作为最终候选集，并写入推荐候选表。

其中，双向匹配度排序的流程主要基于模糊数学中的模糊相似度理论，主要步骤如下：

首先用A、B来分别表示学习用户的属性向量与推荐候选集内课程的分享用户的属性向量，A＝(A1，A2，A3，…，An)，B＝(B1，B2，B3，…，Bn)；

其次用夹角余弦方法来衡量两个向量之间的量相似程度的大小，即两向量之间夹角越小时，两向量相似程度越高；通过分别计算由向量A到向量B的相似度SimAB和由向量B到向量A的相似度SimBA，

然后，通过下式计算学习用户属性与分享用户属性双向匹配相似程度值：Sim(AB,BA)＝α×SimAB+β×SimBA，式中的α,β代表权重系数，满足α+β＝1；最后根据Sim(AB,BA)的大小，输出满足要求的课程候选集。

步骤三、为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至用户行为数据表；

如图4所示，步骤三主要是实现用户体验的反馈，用户体验反馈功能主要包括个性化课程浏览和推荐课程内容获取两个子功能。在朋辈教育平台上，“学习用户”可以进行浏览课程的相关信息，这里有一系列的个性化选项可供选择，比如接受、点赞、评论和分享等，生成的行为数据将会实时的存入“学习用户行为数据表”中。

步骤四、获取用户行为数据，对数据进行用户行为序列分析，并将有价值的数据构建为用户行为序列数据；用户行为序列分析功能主要包括行为筛选和构建用户行为序列两个子功能，这部分为课程推荐引擎提供用户行为数据。从“学习用户行为数据表”中获取行为数据，进行行为筛选，即根据学习用户对课程的行为程度，划分为感兴趣或不感兴趣两部分，而我们需要的是学习用户感兴趣的这部分行为；然后构建用户行为序列，基于时间序列生成一系列行为，每个行为序列包含多个行为，然后存入用户行为序列数据表中，以供模型使用。

步骤五、使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐。

如图5所示，步骤五中，用户行为训练推荐功能主要包括生成训练集/测试集数据、图神经网络模型、模型初始化和推荐排序四个子功能，本功能是推荐系统的核心，即依据学习用户的行为进行建模，采用图神经网络将序列数据抽象为图数据，然后进行网络搭建、模型训练，最后生成预测值，具体为：

首先从用户行为序列数据表中获取用户的会话行为数据，用这些会话行为数据去构建一个子图，其中每个学习用户的行为都会被构建为一个子图，生成一个可供GNN模型训练使用和测试的数据集；

然后搭建图神经网络模型，经过初始化后便将数据集内的数据输入GNN模型进行训练，当损失降到一定阈值时我们输出参数并更新模型参数表，训练好GNN后，我们可以得到行为图中每个行为变量的向量化表示；

接下来引入了Attention机制，来进行注意力权值的附加；然后进行预测并最终得到每个课程的预测概率，根据概率的大小得到一个推荐候选集；

最终将预测结果传入排序部分进行推荐排序和双向匹配度排序，最终根据候选集内课程对应分享用户的属性向量与将要接受推荐的学习用户的属性向量进行相似度计算，生成最终的推荐候选表，以供用户体验部分推荐使用。

更进一步的，在基于GNN模型和Attention机制的用户行为数据训练推荐中，设用户行为序列C＝[v1，v2，v3，…,vn]，其中的vi∈V(1≤i≤n)，C是按时间排序的用户行为列表，V为所有行为序列中涉及的项目总空间；然后构建GNN模型，通过模型能够得到输出y，y＝{y1,y2,…,yn}，即在基于用户行为的GNN模型下，对于用户行为序列C，模型输出所有可能的概率，因此y也可以被看作是一个在Attention机制下的排序列表，其中排名最高的前x个项目纳入推荐候选集。

本发明的将用户分为“学习用户”与“分享用户”，通过将学习用户会话行为数据进行建模，并利用GNN模型和Attention机制进行学习，并辅之以双向匹配机制对所得到的推荐结果进行再筛选排序，充分体现出朋辈教育的特点。

本发明的的技术方案中，首先在于对学习用户的行为数据进行向量化处理，并且通过GNN模型与Attention机制进行学习，最终得到面向学习用户的朋辈教育课程推荐；其次在于贴合朋辈教育的实际需要，创造性地引入了双向匹配机制，对模型学习后的结果再结合分享用户的属性向量与将要接受推荐的学习用户的属性向量进行相似度计算，真正实现了“朋辈化”的推荐；最后是对种子用户的课程推荐，为了解决平台冷启动的问题，平台采用数据预处理的方法进行关键字提取和标签化，智能选择数据库进行贴合实际情况的匹配。

如图6所示，在另一个实施例中，提供了一种基于图神经网络的朋辈教育推荐系统，该系统包括包括数据预处理模块、标签推荐模块、用户体验反馈模块、用户行为序列分析模块、用户行为训练与推荐模块；

所述用户体验反馈模块，为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至模型；

如图7所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于图神经网络的朋辈教育推荐方法，具体为：

为用户提供个性化的功能使用与课程推荐，并且实时监测用户行为作为反馈数据回传至模型；

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于图神经网络的朋辈教育推荐方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述对用户信息与课程数据进行提取和分析，得出结构化的用户与课程数据，具体为：

3.根据权利要求1所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述从数据库中提取课程与用户数据，并将其向量化，经过计算为新用户提供推荐与匹配，具体为：

4.根据权利要求3所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述双向匹配度排序具体为：

最后根据Sim(AB,BA)的大小，输出满足要求的课程候选集。

5.根据权利要求1所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述反馈数据包括个性化课程浏览和推荐课程内容获取两个子功能，在朋辈教育平台上，“学习用户”可进行浏览课程的相关信息，还包括个性化的选项，包括接受、点赞、评论和分享，生成的行为数据将会实时的存入“学习用户行为数据表”中。

6.根据权利要求1所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述用户行为序列具体为：

7.根据权利要求1所述基于图神经网络的朋辈教育推荐方法，其特征在于，所述使用用户行为序列数据来训练GNN模型，预测用户下一时刻行为，实现课程推荐，具体为：

8.根据权利要求7所述基于图神经网络的朋辈教育推荐方法，其特征在于，在基于GNN模型和Attention机制的用户行为数据训练推荐中，设用户行为序列C＝[v1，v2，v3，…,vn]，其中的vi∈V，1≤i≤n，C是按时间排序的用户行为列表，V为所有行为序列中涉及的项目总空间；然后构建GNN模型，通过模型能够得到输出y，y＝{y1,y2,…,yn}，即在基于用户行为的GNN模型下，对于用户行为序列C，模型输出所有可能的概率，因此y也可被看作是一个在Attention机制下的排序列表，其中排名最高的前x个项目纳入推荐候选集。

9.基于图神经网络的朋辈教育推荐系统，其特征在于，应用于权利要求1-8中任一项所述的基于图神经网络的朋辈教育推荐方法，包括数据预处理模块、标签推荐模块、用户体验反馈模块、用户行为序列分析模块、用户行为训练与推荐模块；

10.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-8任一项所述的基于图神经网络的朋辈教育推荐方法。