CN115687760A

CN115687760A - 一种基于图神经网络的用户学习兴趣标签预测方法

Info

Publication number: CN115687760A
Application number: CN202211340978.3A
Authority: CN
Inventors: 李美子; 张馨艺; 张波
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2022-10-30
Filing date: 2022-10-30
Publication date: 2023-02-03

Abstract

本发明涉及一种基于图神经网络的用户学习兴趣标签预测方法，包括：获取在设定时间范围内用户平台上的用户历史学习行为数据；将用户平台映射为图结构，预先构建并训练基于亲密度和学习行为相似的学习行为兴趣特征提取模型，该模型为双层图神经网络，其第一层基于用户间亲密关系提取用户学习行为兴趣特征，第二层基于用户的历史学习行为相似提取用户学习行为兴趣特征；将用户平台的结构和获取的用户历史学习行为数据作为训练好的学习行为兴趣特征提取模型的输入，提取用户长短期学习行为兴趣特征；并输入到预先构建并训练好的预测模型中，获得用户准确学习兴趣标签。与现有技术相比，本发明具有提高了学习兴趣标签预测准确率、实用性好等优点。

Description

一种基于图神经网络的用户学习兴趣标签预测方法

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于图神经网络的用户学习兴趣标签预测方法。

背景技术

随着信息技术的飞速发展，对教育领域问题的研究也从传统教育学科扩大至如何将信息技术尤其是人工智能技术融入教育实践中。现代网络传播技术的发展使得学习者能够通过在线知识分享社区如知乎等获取知识，用户的学习行为和互动的产生在这样的网络公共学习空间中，能否促进用户学习绩效发展成为一种在线知识分享社区质量评价标准，高质量的在线知识分享社区能够使用户之间的产生良好有效互动，从而对用户学习绩效发展起促进作用。

用户的历史学习行为在一定程度上能够反映用户的学习行为兴趣趋向，同时在线知识分享社区中的用户社交关系也会影响用户的学习行为兴趣趋向。在线知识分享社区作为教育相关的社交网络能够将其中的社交关系映射为图结构，将非欧几里得网络距离映射为图中节点连边。目前对于学习者学习特征的研究主要还是依赖于基于问卷调查的数据分析，同时依赖于专业教育学人士的人工判断。深度学习方法近年来在各个领域都获得了突破，比如图像识别、自然语言处理、生物工程以及时空结构的特征学习与分析等领域，基于深度学习的嵌入模型也获得了相应的关注通过对大量数据的有效训练，深度学习可以很好地提取数据之间的时间与空间关联性，这是传统预测方法所不具备的。

传统的教育和学习特征的分析研究仍是基于问卷调查形式的数据分析，虽然能够取得良好的分析结果但是这种方法受主观因素影响，无法处理在线知识分享社区中储存的大量用户交互信息和学习行为序列信息常用表示学习模型在处理图数据上使用图神经网络对在线知识分享社区中的用户作为用户相关特征时仍面临以下几个问题：传统图神经网络模型GNN、GCN、GAT等能够显著提升嵌入模型的性能但需要全部节点参与进来，不适用于真实的复杂网络中；基于GNN提出的高效图嵌入模型如GraphSAGE、PinSAGE虽然能够弥补前述缺陷，能够从全局中抽离出子图结构进行部分采样，极大地减少计算量，但采样过程中基于随机游走算法选取的邻居节点和在线知识分享社区中用户选择学习交互对象(人或学习内容)的选择是有出入的，使用随机选择结果会影响特征提取过程中的聚合表示的准确性，降低用户标签预测的准确率。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图神经网络的用户学习兴趣标签预测方法，提高用户学习兴趣标签预测的准确率。

本发明的目的可以通过以下技术方案来实现：

一种基于图神经网络的用户学习兴趣标签预测方法，包括以下步骤：

获取在设定时间范围内用户平台上的用户历史学习行为数据；

将所述用户平台映射为图结构，预先构建并训练基于亲密度和学习行为相似的学习行为兴趣特征提取模型，所述学习行为兴趣特征提取模型为双层图神经网络，该双层图神经网络的第一层基于用户间亲密关系提取用户学习行为兴趣特征，第二层基于用户的历史学习行为相似提取用户学习行为兴趣特征；

将所述用户平台的结构和获取的用户历史学习行为数据作为训练好的学习行为兴趣特征提取模型的输入，提取用户长短期学习行为兴趣特征；

将提取的用户长短期学习行为兴趣特征输入到预先构建并训练好的预测模型中，获得用户准确学习兴趣标签。

进一步地，所述用户历史学习行为数据的获取过程具体为：

获取用户历史学习行为数据，并进行分类采样和编码，得到用户的回答收藏序列、用户的回答浏览序列和用户的搜索序列的分类结果。

进一步地，将用户平台映射为图结构具体为：

将所述用户平台中的每个用户视为图中的节点，将用户间的关注关系视为节点间的连边。

进一步地，所述双层图神经网络的第一层基于亲密关系构造概率转移矩阵并通过概率游走获得用户邻域结构，所述双层图神经网络的第一层的计算表达式为：

式中，A_uu表示网络图结构邻接矩阵，p(v|u)为在下一时间步长上从节点u游走至节点v的概率，N_(u)、N_(v)分别表示节点的u、v的直接邻居节点数量，α为一个可训练参数，

是通过第一层网络时获得的基于亲密关系的转移概率矩阵，根据转移矩阵从节点u开始遍历网络，当再次遍历至节点u或遍历至J跳邻居时获得遍历收敛结果N_DFS，N_DFS筛选节点u的邻居并聚合邻居信息。

进一步地，所述双层图神经网络的第二层基于用户历史学习行为相似性构造概率转移矩阵并通过概率游走获得用户邻域结构，所述双层图神经网络的第二层的计算表达式为：

d_uv＝ω₁D+ω₂I

式中，对齐用户u、v的历史学习行为特征得到u，v用户历史学习行为距离用d_u,v表示，其中D和I分别表示对齐学习行为序列时的删除、插入操作数，w_i表示对应操作的代价，|u^k-1|表示节点u经过上一层GCN后获得的嵌入向量，|v^k-1|同理，β为一个可学习参数；获得基于行为相似的转移概率矩阵：

遍历序列中的高频通过节点构成节点u的虚拟邻域中的一阶邻居，并聚合邻居信息。

进一步地，所述双层图神经网络的每一层基于节点的邻居结构用户不同的历史学习行为序列特征分别经过训练模型进行特征提取，该特征提取过程的计算表达式为：

式中，

表示用户u第k层聚合邻域内节点特征后挖掘的隐藏长期学习行为兴趣特征，通过特征拼接和线性变换得到第k层的节点u的长期学习行为兴趣特征表示为

同理

表示挖掘的短期学习行为兴趣特征，拼接提取到的长期和短期学习行为兴趣特征获得用户的长短期学习行为兴趣特征

表示用户u经过训练后的k层学习行为兴趣特征提取模型后提取到的最终的用户长短期学习行为兴趣特征，W^k为第k层的模型权重。

进一步地，所述预测模型根据提取的用户长短期学习行为兴趣特征进行用户准确学习兴趣标签的分类预测，该分类预测的表达式为：

式中，

表示用户节点分类后标签预测结果，σ为模型参数，W为模型权重，m_u为用户长短期学习行为兴趣特征。

进一步地，所述预测模型通过最小化预测值和真实值之间的交叉熵和反向传播进行模型训练；

所述预测模型的损失函数表达式为：

式中，L为预测模型的损失函数，l_u为用户节点分类后标签真实结果。

进一步地，所述方法用于在线知识分享社区上进行用户学习兴趣标签预测。

进一步地，所述用户学习行为兴趣特征由学习者过去一段时间内在在线知识分享社区上的学习行为和其社交关系提取出的节点特征嵌入，用来反映学习者在亲密关系和历史行为影响下的可能产生的学习行为序列；

所述学习行为为学习者在在线知识分享社区上产生的一系列行为。

与现有技术相比，本发明具有以下优点：

(1)提高学习兴趣标签预测准确率：本发明聚焦于目前广泛普及的在线知识分享社区，将用户历史学习行为数据进行分类处理表征用户不同时期的学习行为兴趣趋向，使用本发明提出的基于图神经网络标签预测模型，对用户学习行为兴趣趋向影响因素：亲密关系、学习行为相似性依赖进行深度提取，最终获得用户的学习行为兴趣特征，获得用户教育相关标签信息，与传统方法相比具有特征提取效果好、标签预测准确率高等优点；

(2)实用性好：本发明中发挥深度学习算法优势，能够处理在线知识分享社区中的大规模数据，无需通过基于问卷调查、人工标注的方法进行数据分析处理。同时考虑到在线知识分享社区的特殊性质即社交网络属性，将基于在线知识分享社区的数据处理映射为图结构上的数据处理，处理速度快，实用性好，本发明同时能够为下游任务如学习内容推荐、学习伙伴推荐提供可靠的数据信息，因而具有实际应用价值。

附图说明

图1为本发明实施例中提供的一种基于图神经网络的用户学习兴趣标签预测方法的主要步骤流程示意图；

图2为本发明实施例中提供的一种邻域构造图；

图3为本发明实施例中提供的一种学习行为兴趣特征提取模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，学习行为和学习行为兴趣特征的定义如下：

定义1学习行为：学习者在在线知识分享社区上既具有教育属性又具有社交属性，因此学习者在在线知识分享社区上产生的一系列行为可以被认为是其学习行为。

定义2学习行为兴趣特征：本实施例中，学习行为兴趣特征是指由学习者过去一段时间内在在线知识分享社区上的学习行为和其社交关系提取出的节点特征嵌入，用来反映学习者在亲密关系和历史行为影响下的可能产生的学习行为序列。

实施例1

本实施例提供一种基于图神经网络的用户学习兴趣标签预测方法，包括以下步骤：

将用户平台映射为图结构，预先构建并训练基于亲密度和学习行为相似的学习行为兴趣特征提取模型，基于亲密度和学习行为相似的学习行为兴趣特征提取模型为双层图神经网络，该双层图神经网络的第一层基于用户间亲密关系提取用户学习行为兴趣特征，第二层基于用户的历史学习行为相似提取用户学习行为兴趣特征；

将用户平台的结构和获取的用户历史学习行为数据作为训练好的学习行为兴趣特征提取模型的输入，提取用户长短期学习行为兴趣特征；

上述用户平台可以为既有教育属性又有社交属性的平台，本实施例中将上述方法用于在线知识分享社区上进行用户学习兴趣标签预测，如图1-3所示，该方法的实现过程具体为：

步骤S1：获取在线知识分享社区上时间范围T内的用户历史学习行为数据，对数据进行分类采样；

采集在线知识分享社区内用户时间范围T内的用户历史学习行为数据，对数据进行分类采样和编码，用户的历史学习行为包括用户的回答收藏序列、用户的回答浏览序列和用户的搜索序列，将用户这三种学习行为进行分类，其中使用用户的回答收藏序列来反映用户的长期学习兴趣，用户的回答浏览序列和搜索序列由于记录覆盖旧记录因此使用这两个序列反映用户的短期学习兴趣。

表示用户i的收藏行为序列，

表示用户i的第m₁个收藏回答，X＝(x₁，x₂，...，x_n)^T表示网络中n个用户的回答收藏行为序列特征向量矩阵；同理

和

分别代表用户i的回答浏览行为序列和搜索关键词序列，Y＝(y₁，y₂，...，y_n)^T和Z＝(z₁，z₂，...，z_n)^T分别表示网络中n个用户的回答浏览行为序列特征向量矩阵和搜索关键词序列特征向量矩阵，共同表征用户的短期学习兴趣。

步骤S2：将在线知识分享社区映射为图结构，构建基于亲密度和学习行为相似的学习行为兴趣特征提取模型；

具体地，基于深度学习原理，利用一种基于图神经网络的在线知识分享社区用户学习兴趣标签预测方法更准确地提取到用户的学习行为兴趣特征，提高学习兴趣标签预测准确率，同时可以提高下游任务如学习内容推荐、网络学习社区中用户聚类等有效性。将在线知识分享社区中的每个用户视为图中的节点，用户之间如果存在关注关系则视为节点间存在连边，用户的T时间内历史学习行为数据作为节点特征向量，在此构建一个双层GNN网络，第一层基于用户间亲密关系提取用户学习行为兴趣特征，第二层基于用户的历史学习行为相似提取用户学习行为兴趣特征。

基于用户间亲密关系提取用户学习行为兴趣特征，使用的基于亲密关系构造用户邻域结构：

其中A_uv表示网络图结构邻接矩阵，p(v|u)为在下一时间步长上从节点u游走至节点v的概率，N_(u)、N_(v)分别表示节点的u、v的直接邻居节点数量，α为一个可训练参数，

基于用户的历史学习行为相似提取用户学习行为兴趣特征，使用的基于历史学习行为相似构造用户邻域节点：

d_uv＝w₁D+w₂I

对齐用户u、v的历史学习行为特征得到u，v用户历史学习行为距离用d_u,v表示，其中D和I分别表示对齐学习行为序列时的删除、插入操作数，ω_i表示对应操作的代价，|u^k-1|表示节点u经过上一层GCN后获得的嵌入向量，|v^k-1|同理，β为一个可学习参数；获得基于行为相似的转移概率矩阵：

步骤S3：以社区结构和用户历史学习行为数据作为训练好的学习行为兴趣特征提取模型的输入，获取用户长短期学习行为兴趣特征，一层网络基于节点的邻居结构用户不同的历史学习行为序列特征分别经过训练模型进行特征提取：

同理

表示用户u经过训练后的k层网络模型后提取到的最终学习行为兴趣特征。

步骤S4：通过模型提取到的用户学习行为兴趣特征用以对用户进行分类预测：

其中

表示用户节点分类后标签预测结果，通过最小化预测值和真实值之间的交叉熵和反向传播训练模型，提高学习兴趣标签预测准确率，同时可以提高下游任务如学习内容推荐、网络学习社区中用户聚类等有效性：

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述用户历史学习行为数据的获取过程具体为：

3.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，将用户平台映射为图结构具体为：

4.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述双层图神经网络的第一层基于亲密关系构造概率转移矩阵并通过概率游走获得用户邻域结构，所述双层图神经网络的第一层的计算表达式为：

式中，A_uv表示网络图结构邻接矩阵，p(v|u)为在下一时间步长上从节点u游走至节点v的概率，N_(u)、N_(v)分别表示节点的u、v的直接邻居节点数量，α为一个可训练参数，

5.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述双层图神经网络的第二层基于用户历史学习行为相似性构造概率转移矩阵并通过概率游走获得用户邻域结构，所述双层图神经网络的第二层的计算表达式为：

d_uv＝ω_lD+ω₂I

式中，对齐用户u、v的历史学习行为特征得到u，v用户历史学习行为距离用d_u,v表示，其中D和I分别表示对齐学习行为序列时的删除、插入操作数，ω_i表示对应操作的代价，|u^k-1|表示节点u经过上一层GCN后获得的嵌入向量，|v^k-1|同理，β为一个可学习参数；获得基于行为相似的转移概率矩阵：

6.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述双层图神经网络的每一层基于节点的邻居结构用户不同的历史学习行为序列特征分别经过训练模型进行特征提取，该特征提取过程的计算表达式为：

式中，

同理

7.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述预测模型根据提取的用户长短期学习行为兴趣特征进行用户准确学习兴趣标签的分类预测，该分类预测的表达式为：

式中，

8.根据权利要求7所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述预测模型通过最小化预测值和真实值之间的交叉熵和反向传播进行模型训练；

所述预测模型的损失函数表达式为：

9.根据权利要求1所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述方法用于在线知识分享社区上进行用户学习兴趣标签预测。

10.根据权利要求9所述的一种基于图神经网络的用户学习兴趣标签预测方法，其特征在于，所述用户学习行为兴趣特征由学习者过去一段时间内在在线知识分享社区上的学习行为和其社交关系提取出的节点特征嵌入，用来反映学习者在亲密关系和历史行为影响下的可能产生的学习行为序列；