CN114943278B

CN114943278B - 基于强化学习的持续在线群体激励方法、装置及存储介质

Info

Publication number: CN114943278B
Application number: CN202210467453.XA
Authority: CN
Inventors: 罗亚威; 梁琛; 杨易
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-09-12
Anticipated expiration: 2042-04-27
Also published as: CN114943278A

Abstract

本发明公开了一种基于强化学习的持续在线群体激励方法、装置及存储介质。其步骤如下：1)；提取大规模在线学习系统中用户的基本特征；2)使用图卷积神经网络对原始特征进行特征提取及聚合，得到群体特征；3)利用聚类算法对群体特征进行聚类，形成用户群体的典型特征；4)针对典型用户组分配初始激励模式；并利用持续在线的用户反馈数据训练基于策略的强化学习模型以达到总体活跃度最大化。本发明适用于大规模在线学习中，研讨、实践、合作场景的学生用户激励，其效率高，准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。

Description

基于强化学习的持续在线群体激励方法、装置及存储介质

技术领域

本发明属于人工智能领域，具体涉及一种基于用户群体典型特征的强化学习群体激励方法、装置及存储介质。

背景技术

群体激励算法是群体智能中的一个重要领域，在教育领域有广泛应用。通过设计合理的激励机制来激励学生参与教学任务、提供可靠的反馈信息是提高教学质量的有效手段。在激励机制的设计中，如何提高学生的参与水平及参与质量是设计人员面临的两个核心问题。

在群体激励问题中提高学生参与度、维持参与水平是激励算法的核心目标。传统群体激励算法中大部分采用短期激励算法，参与动作执行后参与人员即可获得奖励。但短期激励不利被试者长期的持续性参与试验，导致参与度下降，群体学习效果降低。目前有大量方案被提出以解决该问题，代表性的方案有Gao等人提出的长期激励算法(以VCG拍卖模型为基础)等。在群体激励中，不同的反馈信息也包含价值不等的信息量。在教学情景中，针对不同地理位置的学生有不同的教育资源，应采用不同的激励机制。对不同的反馈，激励机制应根据质量评估合适的奖励分数，因此设计的激励机制应在时间、空间等维度分别对质量进行评分。对此国内外有很多相关研究，如Kawajiri等人提出的可控的激励机制(steered incentive)。

上述方法均采用基于预定义规则的算法，缺少根据群体学习反馈修正模型的手段。

发明内容

本发明的目的在于克服现有不足，并提供一种基于强化学习的持续在线群体激励方法。深度学习是一种数据驱动的建模方法，能够有效利用大量反馈数据中的隐藏信息，保证激励效果。本发明提出了一种针对在线教学平台的基于强化学习与主动学习的群体激励算法，通过给予激励奖励的形式，激励人工参与到强化学习与主动学习的关键步骤循环中。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种基于用户群体典型特征的强化学习激励方法，其步骤如下：

S1：提取在线学习平台中用户的原始特征，所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示；

S2：基于所有用户的原始特征建立用户关系图，图中的每个节点对应于一个目标用户，再使用图卷积神经网络对用户关系图进行特征提取和聚合，得到图中每个节点对应的群体特征；

S3：对用户关系图中所有节点的群体特征进行聚类，形成多个典型用户群组，每一个聚类类别的聚类中心作为对应典型用户群组的典型特征；

S4：针对各典型用户群组分配初始激励模式，并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型，使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。

作为上述第一方面的优选，所述步骤S1的具体实现方法如下：

S11：从在线学习平台的数据库中获取用户的原始信息数据，所述原始信息数据包含用户在平台上注册的基本个人信息以及用户与平台之间交互产生的行为信息两部分；

S12：对于所述原始信息数据进行特征工程处理，每个用户分别形成一组特征信息；

S13：对于所述用户的每个特征信息，分别将其映射到实数空间进行量化表示，再拼接后得到一个维度为D的向量，作为该用户的原始特征。

作为上述第一方面的优选，所述特征工程处理包括剔除异常值、填补缺失值以及特征筛选。

作为上述第一方面的优选，所述步骤S2的具体实现方法如下：

S21：将在线学习平台中每个用户视为图中的一个节点t_i，将用户的原始特征作为对应节点的用户特征f_i，进而构建用户关系图中的N个节点；

S22：使用K邻近算法建立用户关系图中所有N个节点的图结构G∈R^N×N，在图结构G中每一个节点仅与距离最近的K个节点建立边连接，且这K个节点以及中心节点本身构成中心节点的邻居节点集N_i；

S23：使用L层图卷积对图结构G进行特征提取，其中第一层图卷积的输入为图结构G中各节点的用户特征，其余层图卷积的输入为上一层图卷积的输出；对于任意第k+1层图卷积而言，其依次对图中每个节点的邻居节点集进行特征聚合，并重新输出每个节点的特征：

式中：f_i ^(k+1)是结点t_i在第k+1层图卷积中输出的用户特征，是节点t_j在第k层图卷积中输出的用户特征，其中k＝0时/>为节点t_j在用户关系图中原始的用户特征f_j；|N_i|是邻居节点集中包含的节点个数；

S24：对于每一个节点t_i，将原始用户特征f_i及所有L层图卷积输出的特征{f_i ⁽¹⁾，f_i ⁽²⁾，f_i ⁽³⁾，...，f_i ^(L)}进行平均，得到每个节点t_i对应的群体特征f_i ^*：

f_i ^*＝Mean(f_i，f_i ⁽¹⁾，f_i ⁽²⁾，f_i ⁽³⁾，...，f_i ^(L))

式中：Mean表示求特征均值操作。

作为上述第一方面的优选，所述用户关系图中任意两个节点之间的距离为这两个节点对应的用户特征之间的欧氏距离。

作为上述第一方面的优选，所述步骤S3中，对于用户关系图中所有节点的群体特征，采用K-Means聚类算法对群体特征进行类别总数为M的聚类，得到M个典型用户群组，M个聚类类别的聚类中心{C₁，C₂，...C_M}分别作为M组典型用户群组的典型特征，具体实现步骤如下：

S311：从用户关系图的N个节点中随机选取M个节点，并将这M个节点的用户特征作为聚类的初始中心；

S312：对除初始中心之外的其余所有节点的用户特征，逐一求其与M个中心之间的欧氏距离，并将各节点归入距离最近的中心所在的聚类类别；

S313：对于经过S312处理后的每一个聚类类别，根据该类别中所有节点的用户特征重新计算各自的聚类中心；

S314：不断重复迭代S312～S313，直至各聚类类别的聚类中心收敛后，将所有M个聚类类别最终的聚类中心{C₁，C₂，...C_M}分别作为M组典型用户群组的典型特征。

作为上述第一方面的优选，所述步骤S4的具体实现方法如下：

S41：构建用于对在线学习平台上的用户执行激励的强化学习模型π_θ，其中每个用户i在t时刻施加的激励策略由激励内容x_i，t和激励分数a_i，t组成，所述激励内容x_i，t用户在平台上的新增学习内容，所述激励分数a_i，t采用所述强化学习模型π_θ根据用户状态s_i，t预测得到的动作输出，且所述用户状态s_i，t由两部分拼接而成，第一部分为用户i所在的典型用户群组的典型特征C_i，第二部分为用户i对于所述激励内容x_i，t的学习完成状态的编码表示；所述强化学习模型π_θ的奖励函数r_i，t仅与用户i对于所述激励内容x_i，t的学习完成状态有关，当用户i完成所述激励内容x_i，t的学习时r_i，t＝1，否则r_i，t＝0；

S42：对在线学习平台上每个用户i随机分配初始激励分数a_i，0，然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容x_i，0的学习完成状态，从而得到每个用户i对应的用户状态s_i，0以及奖励函数r_i，1，将所有用户的激励分数、用户状态以及奖励函数构成第t＝1轮训练的训练数据集

S43：基于最新获得的训练数据集采用策略梯度法对所述强化学习模型π_θ进行训练，通过梯度上升更新模型π_θ中的可学习参数θ：

式中：J_θ是强化学习模型π_θ所输出的分配策略下得到的奖励期望，α为学习率，π_θ(a_i，t-1|s_i，t-1)表示将用户状态s_i，t-1输入强化学习模型π_θ后预测得到的激励分数a_i，t-1，r(s_i，t-1，a_i，t-1)表示针对用户i给定用户状态s_i，t-1和激励分数a_i，t-1的情况下其获得的奖励函数r_i，t；

S44、每当所述强化学习模型π_θ完成一轮训练，利用最新一轮训练后的强化学习模型π_θ对在线学习平台上每个用户i分配激励分数，并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ；不断迭代训练模型，使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。

第二方面，本发明提供了一种基于用户群体典型特征的强化学习激励装置，其包括：

原始特征提取模块，用于提取在线学习平台中用户的原始特征，所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示；

群体特征提取模块，用于基于所有用户的原始特征建立用户关系图，图中的每个节点对应于一个目标用户，再使用图卷积神经网络对用户关系图进行特征提取和聚合，得到图中每个节点对应的群体特征；

典型特征提取模块，用于对用户关系图中所有节点的群体特征进行聚类，形成多个典型用户群组，每一个聚类类别的聚类中心作为对应典型用户群组的典型特征；

激励模块，用于针对各典型用户群组分配初始激励模式，并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型，使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面中任一所述的基于用户群体典型特征的强化学习激励方法。

第四方面，本发明提供了一种基于用户群体典型特征的强化学习激励装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面中任一所述的基于用户群体典型特征的强化学习激励方法。

相对于现有技术而言，本发明的有益效果如下：

本发明的在先群体激励方法充分利用个体用户和用户间的群体关系进行特征建模，将个体用户特征降维到典型群体特征空间进行模式抽取以及行为分析，进而根据具体模式进行点对点激励。同时，本发明考虑了在线学习平台中用户群体分组问题中用户规模巨大、组合易爆炸的特点，利用强化学习方法进行求解。本发明方法适用于大规模在线学习中，研讨、实践、合作场景的学生用户激励，其效率高，准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。

附图说明

图1为基于强化学习的持续在线群体激励方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在具体叙述之前，先对本发明中提到的若干概念进行定义如下：

本发明中的在线学习平台是指通过网络形式供学习者在线进行课程学习的平台，以下亦可简称平台。每一个学习者为平台上的一个用户，将平台上需要激励的用户称为目标用户。用户在平台上的注册信息是用户根据平台的注册机制所填写的个人信息，例如性别、年龄、民族、文化程度等等。同时，用户在平台上学习的过程中，会不断与平台进行交互，例如进行课程学习活动、与平台进行互动等等，这些数据都以用户与平台之间交互产生的行为信息形式被记录。本发明中的强化学习激励是一种对在线学习平台上的用户进行的激励任务，其任务目标是针对平台上的所有需要激励的目标用户，持续分配激励策略，并保证一段时间后平台上的总体用户活跃度最大化。对于以问答形式的课程学习平台，其总体用户活跃度可以视为平台上用户的总体应答次数，即用户对课程问题的完整回答总次数。

在本发明的一个较佳实施例中，提供了一种基于用户群体典型特征的强化学习激励方法，其步骤如下：

S1：提取在线学习平台中用户的原始特征，所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示。

作为本实施例的一种具体实现方式，上述步骤S1的具体实现方法如下：

S11：从在线学习平台的数据库中获取用户的原始信息数据，所述原始信息数据包含用户在平台上注册的基本个人信息以及用户与平台之间交互产生的行为信息两部分。

为了便于叙述，本发明中将在线学习平台上需要进行激励的用户总数记为N。

S12：对于所述原始信息数据进行特征工程处理，每个用户分别形成一组特征信息。其中，特征工程处理的具体形式需要根据数据情况进行确定，一般可以通过进行剔除异常值、填补缺失值以及特征筛选实现，其中特征筛选需要对所有特征维度进行降维，剔除与群体激励无关的特征维度。

S13：对于用户的每个特征信息，分别将其映射到实数空间进行量化表示，再拼接后得到一个维度为D的向量，作为该用户的原始特征。所有N个用户最终输出大小为N×D的特征矩阵。

S2：基于所有用户的原始特征建立用户关系图，图中的每个节点对应于一个目标用户，再使用图卷积神经网络对用户关系图进行特征提取和聚合，得到图中每个节点对应的群体特征。

作为本实施例的一种具体实现方式，上述步骤S2的具体实现方法如下：

S21：将在线学习平台中每个用户视为图中的一个节点t_i，将用户的原始特征作为对应节点的用户特征f_i进而构建用户关系图中的N个节点。

具体而言，设平台中用户数量为N，因此建立图的N个节点集合U＝{t₁，t₂，t₃，...，t_N}，所有N个节点对应特征集合表示为F＝{f₁，f₂，f₃，...，f_N}，其中f_i(1≤i≤N)为步骤S13中向量维度为D的原始特征。图中的节点与用户一一对应，图中的每个点代表了一个用户，节点的特征向量为该用户的原始画像特征。

S22：使用K邻近算法建立用户关系图中所有N个节点的图结构G∈R^N×N，在图结构G中每一个节点仅与距离最近的K个节点建立边连接，且这K个节点以及中心节点本身构成中心节点的邻居节点集N_i。

上述用户关系图中任意两个节点之间的距离计算形式可以根据实际进行调整，一般可选择为这两个节点对应的用户特征之间的欧氏距离。由此，对于图中的N个节点U＝{t₁，t₂，t₃，...，t_N}，可定义两个节点间的距离为：

d(t_i，t_j)＝||f_i，f_j||₂

式中，d(t_i，t_j)表示节点t_i，t_j间距离，其等于对应特征f_i，f_j在D维欧式空间中的欧氏距离。K邻近算法实现时，对于特征集合F＝{f₁，f₂，f₃，...，f_N}中的任意特征f_i(1≤i≤N)，在F中计算与其最邻近的K个特征，该K个特征对应的节点具有相似的用户画像。设节点t_i最相似的K个节点为{t_i1，t_i2，t_ik...，t_iK}，可通过邻居节点集N_i＝{t_i1，t_i2，t_ik...，t_iK}来表示，则分别在图中的节点t_i与t_ik间建边，并将建立的边加入边集合E。对所有节点执行上述操作后，根据最终的边集合E即可建立图结构G∈R^N×N，其中G_ij值为1或0，分别表示节点t_i和t_j有边、无边两种情况。

S23：使用L层图卷积对图结构G进行特征提取，其中第一层图卷积的输入为图结构G中各节点的用户特征，其余层图卷积的输入为上一层图卷积的输出；对于任意第k+1层图卷积而言，其依次对图中每个节点的邻居节点集进行特征聚合，并重新输出每个节点的特征，其输出的特征计算公式表示如下：

式中：f_i ^(k+1)是结点t_i在第k+1层图卷积中输出的用户特征，是节点t_j在第k层图卷积中输出的用户特征，其中k＝0时/>为节点t_j在用户关系图中原始的用户特征f_j，|N_i|是邻居节点集中包含的节点个数。

所有L层图卷积的输入可以视为大小为N×D的特征矩阵、图结构G。设在图结构G下节点t_i的邻居节点集为N_i＝{t_i1，t_i2，t_ik...，t_iK}，则每层图卷积的卷积过程可以表示为：

F_k+1＝Conv(F_k)，k＝0，1，...L-1

其中F_k表示第k层图卷积输出的图中所有节点的特征f_i ^(k)集合，其中F₀等价于F。L层图卷积顺序相连，第k层的输出作为第k+1层的输入。因此，经过第L层卷积后，用户特征集合为大小N×K的矩阵。

上述图卷积的总层数L可以根据实际的激励效果进行优化，在一优选实施例中L可优化为3层。

式中：Mean表示求特征均值操作。

在实际实现过程中，图中所有接地那的群体特征计算可以通过矩阵形式批量计算，也就是说将原始特征F₀及每层图卷积输出的特征{F₁，F₂，F_l，...，F_L}求平均得到所有N个节点对应的群体特征集合其中/>

F^*＝Mean(F₀，F₁，F₂，F_l，...，F_L)

S3：对用户关系图中所有节点的群体特征进行聚类，形成多个典型用户群组，每一个聚类类别的聚类中心作为对应典型用户群组的典型特征。

作为本实施例的一种具体实现方式，上述步骤S3中，对于用户关系图中所有节点的群体特征，采用K-Means聚类算法对群体特征进行类别总数为M的聚类，得到M个典型用户群组，M个聚类类别的聚类中心{C₁，C₂，...C_M}分别作为M组典型用户群组的典型特征，具体实现步骤如下：

S311：从用户关系图的N个节点中随机选取M个节点，并将这M个节点的用户特征作为聚类的初始中心。

S312：对除初始中心之外的其余所有节点的用户特征，逐一求其与M个中心之间的欧氏距离，并将各节点归入距离最近的中心所在的聚类类别。

具体而言，当前用户i所属的类别c_i由其到各个中心的欧式距离决定，即其将到距离最短的中心所在的聚类类别m：

c_i＝argmin_m||f_i ^*，C_m||₂

S313：对于经过S312处理后的每一个聚类类别，根据该类别中所有节点的用户特征重新计算各自的聚类中心。

具体而言，架设聚类中心m所对应的用户群组拥有N_m个用户，则在重新计算聚类中心时需要将对应中心C_m进行移动，更新为：

聚类中心的收敛可根据相应的聚类中心更新前后的平移距离∈来判断，当更新误差即更新前后的中心距离小于∈时，说明聚类已基本收敛。

作为本实施例的一种具体实现方式，上述步骤S4的具体实现方法如下：

S41：构建用于对在线学习平台上的用户执行激励的强化学习模型π_θ，其中每个用户i在t时刻施加的激励策略由激励内容x_i，t和激励分数a_i，t组成，所述激励内容x_i，t为用户在平台上的新增学习内容，所述激励分数a_i，t采用所述强化学习模型π_θ根据用户状态s_i，t预测得到的动作输出，且所述用户状态s_i，t由两部分拼接(可采用concat操作实现)而成，第一部分为用户i所在的典型用户群组的典型特征C_i，第二部分为用户i对于所述激励内容x_i，t的学习完成状态的编码表示；所述强化学习模型π_θ的奖励函数r_i，t仅与用户i对于所述激励内容x_i，t的学习完成状态有关，当用户i完成所述激励内容x_i，t的学习时r_i，t＝1，否则r_i，t＝0。

需要注意的是，在线学习平台上对于用户的激励是通过为用户设定一个激励策略来实现的，激励策略包含了激励内容和激励分数两部分。作为一种实现形式，对于在线学习平台而言，激励内容即为让用户进一步学习的新课程内容，例如课程问题，激励内容对于每个用户可以是不同的；而激励分数可以是积分、奖励分或者其他形式的虚拟分数或者虚拟物品，该激励分数在用户完成了相应激励内容后奖励给用户，从而激励用户尽可能多的学习平台上的课程内容。

作为一种进一步的优选，每一个用户的激励内容x_i，t可以采用个性化推荐算法，可以与用户的最新学习内容绑定，基于用户在平台上的最新学习内容个性化推荐得到，从而使用户能够在平台上进行个性化、针对性地学习相应课程。具体的个性化推荐算法不作限制，可以采用现有技术中的各种学习路径推荐算法实现。

需要说明的是，在线学习平台上激励任务的目标是针对系统中的所有用户(用户数目设为N)，持续分配激励策略，并保证一段时间后系统中的总体应答次数最大。由于激励策略包含激励内容与激励分数两部分，激励内容是每个用户各自独立设定的，从因此强化学习模型仅需要确定激励分数即可确定用户的激励策略。用户i的激励分数a_i，t由强化学习模型π_θ根据当前用户状态s_i，t预测，因此该模型可以表示为π_θ(a_i，t|s_i，t)，其中强化学习模型含有的可学习参数为θ。在本发明的一种优选方式，上述强化学习模型π_θ可定义为同全连接网络来实现。用户i的激励分数a_i，t可预先根据实际情况定义为离散的M个可能取值，取值集合设为每一次均需要由强化学习模型π_θ根据当前用户状态s_i，t从集合/>中选择一个值作为激励分数a_i，t，将该激励分数作为用户完成对应激励内容后可获得的奖励，由此激励用户尽可能地完成激励内容中的课程学习内容。

强化学习模型π_θ是根据当前用户状态s_i，t来预测激励分数a_i，t的，即该强化学习模型在当前时刻t的输出结果代表用户对应分配策略的概率，即预测应该给予的激励分数。用户状态s_i，t中的第二部分即用户i对于所述激励内容x_i，t的学习完成状态的编码表示，可以根据实际情况设定不同的学习完成状态形式。例如，在一实施例中，用户i对于所述激励内容x_i，t的学习完成状态可根据用户是否已经启动及完成激励内容对应的课程学习内容，分为“未启动”，“启动未完成”，“完成”三种，不同的状态可以设置不同的强化学习奖励值，以便于引导强化学习模型在训练过程中能够输出促使用户尽可能完成激励内容的激励分数。在上述三种用户i对于所述激励内容x_i，t的学习完成状态的编码表示状态的设计下，可同时设计奖励函数r(s，a)为仅“完成”状态可获得奖励，其余均不能获得奖励。由此，对应每一次激励后用户完成情况，其与用户所获得奖励分数无关，即r(s，a)＝r(s)定义为：

当然，上述奖励函数的具体奖励值分配形式，亦可根据实际进行调整。

式中：J_θ是强化学习模型π_θ所输出的分配策略下得到的奖励期望，即从平台上反馈获取的完成情况总奖励值，其真实取值近似于利用蒙特卡洛采样对模型π_θ进行N次采样的均值，即对用户群总数N获取其完成情况。π_θ(a_i，t-1|s_i，t-1)表示将用户状态s_i，t-1输入强化学习模型π_θ后预测得到的激励分数a_i，t-1，r(s_i，t-1，a_i，t-1)表示针对用户i给定用户状态s_i，t-1和激励分数a_i，t-1的情况下其获得的奖励函数r_i，t。上述模型训练目标即为最大化总值J_θ，因而利用梯度上升优化函数值，其中采取的学习率为α。

S44、每当所述强化学习模型π_θ完成一轮训练，利用最新一轮训练后的强化学习模型π_θ对在线学习平台上每个用户i分配激励分数，并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ。

需要说明的是，上述训练数据集的收集方式与S42中基本一致，区别仅在于S42中施加的激励分数是随机的，而后续S44中施加的激励分数则是由强化学习模型π_θ生成的。对于第t≥2轮迭代而言，当强化学习模型π_θ生成的激励分数被施加后，通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容x_i，t-1的学习完成状态，从而得到每个用户i对应的用户状态s_i，t-1以及奖励函数r_i，t，将所有用户的激励分数、用户状态以及奖励函数构成第t≥2轮训练的训练数据集/>

上述强化学习模型π_θ的训练是不断迭代的，即强化学习模型π_θ完成新一轮训练后，即可暂时固定模型中可学习参数，然后利用强化学习模型π_θ对在线学习平台上每个用户i分配激励分数，然后收集在线用户活跃度反馈数据，利用一段时间内用户对激励内容的完成情况及总奖励分数对模型进行训练，使得在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。

下面将上述S1～S4所示的基于用户群体典型特征的强化学习激励方法，结合至一个具体的实例中，以展示其具体实现过程。

实施例

下面以某在线学习平台的用户群体激励过程为例，对本发明进行具体描述，其具体步骤如下：

1)按照前述的步骤S1，获取用户的画像数据，分为包含基本个人信息的个体信息与包含用户与系统交互的行为信息两部分。下面给出某用户的个体信息实例，性别：男，年龄：22岁，民族：汉族，收入：2000/月，婚姻状态：未婚，职业：学生。下面给出该用户的行为信息实例，加入课程数：5，在线时长：40小时，互动次数：20。

然后对获取得到的用户画像数据进行处理。首先进行特征的挑选，民族、婚姻状态、收入这三项几乎与群体激励算法设计无关，因此从用户画像中删除，然后将用户画像向量化。下面给出某用户数据画像处理过程。性别：0，年龄：0.22，职业：2，加入课程数：3，在线时长：40，互动次数：20。量化后用户的初始化特征向量为[0，0.22，2，3，40，20]，最后将所有用户的初始化特征向量组合成矩阵，即S1中的原始特征F，假设当前用户总数N＝10，那么F∈R^10×6。

2)按照前述的S2步骤，对用户原始特征建立用户关系图并进行图卷积。下面给出某用户t₁的用户关系图建立及图卷积过程。假设使用K邻近算法建立用户关系图，K＝2，用户t₁的原始特征为[0，0.22，2，3，40，20]，在其余9个用户中，与用户t₁距离最小的两个用户为t₄，t₇，假设其对应的原始特征分别为[1，0.21，3，4，50，32]，[1，0.24，2，5，50，10]。假设图卷积层数L＝3，则第一层用户t₁的图卷积计算过程为

假设第二层和第三层得到的用户t₁的画像特征分别为[0.45，0.19，1.98，3.744.21，50]，[0.40，0.25，1.88，5.5，50，54]。则用户t₁的群体特征可用过原始特征画像和三次图卷积得到的特征画像平均得到，即

3)按照前述的S3步骤，对群体用户特征进一步使用K-Means方法进行聚类，形成典型用户群。设选取M＝3个典型用户群；首先随机选取3个用户的群体特征作为初始类别中心；而后遍历所有用户特征，逐一求其到3个中心的欧氏距离，并对应分配到距离它最近的一个中心；具体而言，以六维特征空间为例，设当前用户i对应群体特征f_i ^*＝[0.1，0.5，0.09，0.18，0.88]，随机选取得到聚类中心{C₁，C₂，C₃}分别为：

[0.05，0.42，0.11，0.08，0.93]，[0.91，0.22，0.07，0.58，0.07]，[0.11，0.83，0.37，0.02，0.35]，分别计算欧式距离得c_i＝argmin_m(d₁，d₂，d₃)＝1，即属于第一集群；按步骤S313滑动更新用户群中心；重复此过程，直至类别中心连续两次更新差值，即小于∈＝1e^-5。

4)按照前述的S4步骤，利用策略梯度算法训练强化学习模型π_θ(a_i，t|s_i，t)。

设当前用户总数为N＝10，初始时随机初始化网络参数θ，用户i状态s_i，0＝[C₁，0]；其中，[，]为连接运算符，用户的完成情况初始化为未启动即为0，用户所属用户群特征为C₁(参见实施例4)中聚类结果)。将用户状态输入模型π_θ(a_i，0|s_i，0)，得到激励分数对应概率值。设共有四种激励分数：5/10/20/50，对应a_i，0＝[0.25，0.05，0.5，0.2]；则用户i在t＝0轮获得激励分数20分。依此类推，为所有用户分配激励分数。在固定更新时间内等待用户响应，设每7天即一周进行一次更新，则a_i，0与a_i，1之间将间隔一周。

在t+1时刻，收集期间用户响应数据。设用户i在此期间完成题目作答，则r_i＝1，反之r_i＝0，形成数据集用于对模型π_θ进行训练。具体而言，以两位用户的情况为例，设用户1在t轮获得a_1，0＝[0.25，0.05，0.5，0.2]激励，并完成题目；用户2在t轮获得a_1，0＝[0.37，0.29，0.31，0.03]激励，并未启动题目。则进而利用梯度上升反向传播对网络进行一轮训练。重复上述步骤多次，即可持续收集用户反馈并对模型进行训练，使得在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度，即用户对于题目的作答次数最大化。

本实施例在平台的多个不同场景下进行测试，获取了用户在平台上的作答响应情况，其结果如表1所示。

表1平台上应用强化学习激励模型时的不同场景响应情况

用户画像	性别	年龄	地域	收入	婚姻	职业	学习时间	学习进度	互动次数	用户群个数	单次响应值(K)
												量化权重	0.06	0.21	0.00	0.00	0.00	0.25	0.13	0.15	0.20	10	2.26
量化权重	0.09	0.18	0.00	0.00	0.00	0.21	0.12	0.19	0.21	10	2.51
												量化权重	0.08	0.22	0.00	0.00	0.00	0.18	0.16	0.18	0.18	15	2.59
量化权重	0.06	0.21	0.00	0.00	0.00	0.25	0.13	0.15	0.20	15	2.67
												量化权重	0.04	0.23	0.00	0.00	0.00	0.20	0.11	0.17	0.25	25	2.73

由此可见，本发明提供的基于用户群体典型特征的强化学习激励，可以实现对大规模在线学习平台中的用户进行激励，，对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。

在本发明的另一实施例中，基于相同的发明构思，提供了一种基于用户群体典型特征的强化学习激励装置，其包括：

上述强化学习激励装置中各模块分别对应了前述实施例的S1～S4，因此其中具体的实现方式亦可参见前述实施例，对此不再赘述。

需要说明的是，根据本发明公开的实施例，上述强化学习激励装置中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现，计算机程序中包含用于执行相应方法的程序代码。

在本发明的另一实施例中，基于相同的发明构思，提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述S1～S4所述的基于用户群体典型特征的强化学习激励方法。

在本发明的另一实施例中，基于相同的发明构思，提供了一种计算机设备，即一种基于用户群体典型特征的强化学习激励装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上述S1～S4所述的基于用户群体典型特征的强化学习激励方法。

可以理解的是，上述存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，计算机设备可以是任意具有GPU、CPU、智能网卡插槽的物理机，个人电脑(PC机)、服务器均包含在内。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于用户群体典型特征的强化学习激励方法，其特征在于，步骤如下：

S4：针对各典型用户群组分配初始激励模式，并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型，使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度；具体实现方法如下：

S41：构建用于对在线学习平台上的用户执行激励的强化学习模型π_θ，其中每个用户i在t时刻施加的激励策略由激励内容x_i,t和激励分数a_i,t组成，所述激励内容x_i,t为用户在平台上的新增学习内容，所述激励分数a_i,t采用所述强化学习模型π_θ根据用户状态s_i,t预测得到的动作输出，且所述用户状态s_i,t由两部分拼接而成，第一部分为用户i所在的典型用户群组的典型特征C_i，第二部分为用户i对于所述激励内容x_i,t的学习完成状态的编码表示；所述强化学习模型π_θ的奖励函数r_i,t仅与用户i对于所述激励内容x_i,t的学习完成状态有关，当用户i完成所述激励内容x_i,t的学习时r_i,t＝1，否则r_i,t＝0；

S42：对在线学习平台上每个用户i随机分配初始激励分数a_i,0，然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容x_i,0的学习完成状态，从而得到每个用户i对应的用户状态s_i,0以及奖励函数r_i,1，将所有用户的激励分数、用户状态以及奖励函数构成第t＝1轮训练的训练数据集

式中：J_θ是强化学习模型π_θ所输出的分配策略下得到的奖励期望，α为学习率，π_θ(a_i,t-1|s_i,t-1)表示将用户状态s_i,t-1输入强化学习模型π_θ后预测得到的激励分数a_i,t-1，r(s_i,t-1,a_i,t-1)表示针对用户i给定用户状态s_i,y-1和激励分数a_i,y-1的情况下其获得的奖励函数t_i,t；

2.根据权利要求1所述的基于用户群体典型特征的强化学习激励方法，其特征在于：所述步骤S1的具体实现方法如下：

3.根据权利要求2所述的基于用户群体典型特征的强化学习激励方法，其特征在于：所述特征工程处理包括剔除异常值、填补缺失值以及特征筛选。

4.根据权利要求1所述的基于用户群体典型特征的强化学习激励方法，其特征在于：所述步骤S2的具体实现方法如下：

S24：对于每一个节点t_i，将原始用户特征f_i及所有L层图卷积输出的特征{f_i ⁽¹⁾,f_i ⁽²⁾,f_i ⁽³⁾,…,f_i ^(L)}进行平均，得到每个节点t_i对应的群体特征f_i ^*：

f_i ^*＝Mean(f_i,f_i ⁽¹⁾,f_i ⁽²⁾,f_i ⁽³⁾,…,f_i ^(L))

式中：Mean表示求特征均值操作。

5.根据权利要求4所述的基于用户群体典型特征的强化学习激励方法，其特征在于：所述用户关系图中任意两个节点之间的距离为这两个节点对应的用户特征之间的欧氏距离。

6.根据权利要求4所述的基于用户群体典型特征的强化学习激励方法，其特征在于：所述步骤S3中，对于用户关系图中所有节点的群体特征，采用K-Means聚类算法对群体特征进行类别总数为M的聚类，得到M个典型用户群组，M个聚类类别的聚类中心{C₁,C₂,…C_m}分别作为M组典型用户群组的典型特征，具体实现步骤如下：

7.一种基于用户群体典型特征的强化学习激励装置，其特征在于，包括：

激励模块，用于针对各典型用户群组分配初始激励模式，并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型，使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度；

S41：构建用于对在线学习平台上的用户执行激励的强化学习模型π_θ，其中每个用户i在t时刻施加的激励策略由激励内容x_i，t和激励分数a_i，t组成，所述激励内容x_i，t为用户在平台上的新增学习内容，所述激励分数a_i，t采用所述强化学习模型π_θ根据用户状态s_i，t预测得到的动作输出，且所述用户状态s_i，t由两部分拼接而成，第一部分为用户i所在的典型用户群组的典型特征C_i，第二部分为用户i对于所述激励内容x_i，t的学习完成状态的编码表示；所述强化学习模型π_θ的奖励函数r_i，t仅与用户i对于所述激励内容x_i，t的学习完成状态有关，当用户i完成所述激励内容x_i，t的学习时r_i，t＝1，否则r_i，t＝0；

8.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～6任一所述的基于用户群体典型特征的强化学习激励方法。

9.一种基于用户群体典型特征的强化学习激励装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1～6任一所述的基于用户群体典型特征的强化学习激励方法。