CN114943278B - 基于强化学习的持续在线群体激励方法、装置及存储介质 - Google Patents
基于强化学习的持续在线群体激励方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114943278B CN114943278B CN202210467453.XA CN202210467453A CN114943278B CN 114943278 B CN114943278 B CN 114943278B CN 202210467453 A CN202210467453 A CN 202210467453A CN 114943278 B CN114943278 B CN 114943278B
- Authority
- CN
- China
- Prior art keywords
- user
- incentive
- graph
- group
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习的持续在线群体激励方法、装置及存储介质。其步骤如下:1);提取大规模在线学习系统中用户的基本特征;2)使用图卷积神经网络对原始特征进行特征提取及聚合,得到群体特征;3)利用聚类算法对群体特征进行聚类,形成用户群体的典型特征;4)针对典型用户组分配初始激励模式;并利用持续在线的用户反馈数据训练基于策略的强化学习模型以达到总体活跃度最大化。本发明适用于大规模在线学习中,研讨、实践、合作场景的学生用户激励,其效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。
Description
技术领域
本发明属于人工智能领域,具体涉及一种基于用户群体典型特征的强化学习群体激励方法、装置及存储介质。
背景技术
群体激励算法是群体智能中的一个重要领域,在教育领域有广泛应用。通过设计合理的激励机制来激励学生参与教学任务、提供可靠的反馈信息是提高教学质量的有效手段。在激励机制的设计中,如何提高学生的参与水平及参与质量是设计人员面临的两个核心问题。
在群体激励问题中提高学生参与度、维持参与水平是激励算法的核心目标。传统群体激励算法中大部分采用短期激励算法,参与动作执行后参与人员即可获得奖励。但短期激励不利被试者长期的持续性参与试验,导致参与度下降,群体学习效果降低。目前有大量方案被提出以解决该问题,代表性的方案有Gao等人提出的长期激励算法(以VCG拍卖模型为基础)等。在群体激励中,不同的反馈信息也包含价值不等的信息量。在教学情景中,针对不同地理位置的学生有不同的教育资源,应采用不同的激励机制。对不同的反馈,激励机制应根据质量评估合适的奖励分数,因此设计的激励机制应在时间、空间等维度分别对质量进行评分。对此国内外有很多相关研究,如Kawajiri等人提出的可控的激励机制(steered incentive)。
上述方法均采用基于预定义规则的算法,缺少根据群体学习反馈修正模型的手段。
发明内容
本发明的目的在于克服现有不足,并提供一种基于强化学习的持续在线群体激励方法。深度学习是一种数据驱动的建模方法,能够有效利用大量反馈数据中的隐藏信息,保证激励效果。本发明提出了一种针对在线教学平台的基于强化学习与主动学习的群体激励算法,通过给予激励奖励的形式,激励人工参与到强化学习与主动学习的关键步骤循环中。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于用户群体典型特征的强化学习激励方法,其步骤如下:
S1:提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示;
S2:基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征;
S3:对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征;
S4:针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
作为上述第一方面的优选,所述步骤S1的具体实现方法如下:
S11:从在线学习平台的数据库中获取用户的原始信息数据,所述原始信息数据包含用户在平台上注册的基本个人信息以及用户与平台之间交互产生的行为信息两部分;
S12:对于所述原始信息数据进行特征工程处理,每个用户分别形成一组特征信息;
S13:对于所述用户的每个特征信息,分别将其映射到实数空间进行量化表示,再拼接后得到一个维度为D的向量,作为该用户的原始特征。
作为上述第一方面的优选,所述特征工程处理包括剔除异常值、填补缺失值以及特征筛选。
作为上述第一方面的优选,所述步骤S2的具体实现方法如下:
S21:将在线学习平台中每个用户视为图中的一个节点ti,将用户的原始特征作为对应节点的用户特征fi,进而构建用户关系图中的N个节点;
S22:使用K邻近算法建立用户关系图中所有N个节点的图结构G∈RN×N,在图结构G中每一个节点仅与距离最近的K个节点建立边连接,且这K个节点以及中心节点本身构成中心节点的邻居节点集Ni;
S23:使用L层图卷积对图结构G进行特征提取,其中第一层图卷积的输入为图结构G中各节点的用户特征,其余层图卷积的输入为上一层图卷积的输出;对于任意第k+1层图卷积而言,其依次对图中每个节点的邻居节点集进行特征聚合,并重新输出每个节点的特征:
式中:fi (k+1)是结点ti在第k+1层图卷积中输出的用户特征,是节点tj在第k层图卷积中输出的用户特征,其中k=0时/>为节点tj在用户关系图中原始的用户特征fj;|Ni|是邻居节点集中包含的节点个数;
S24:对于每一个节点ti,将原始用户特征fi及所有L层图卷积输出的特征{fi (1),fi (2),fi (3),...,fi (L)}进行平均,得到每个节点ti对应的群体特征fi *:
fi *=Mean(fi,fi (1),fi (2),fi (3),...,fi (L))
式中:Mean表示求特征均值操作。
作为上述第一方面的优选,所述用户关系图中任意两个节点之间的距离为这两个节点对应的用户特征之间的欧氏距离。
作为上述第一方面的优选,所述步骤S3中,对于用户关系图中所有节点的群体特征,采用K-Means聚类算法对群体特征进行类别总数为M的聚类,得到M个典型用户群组,M个聚类类别的聚类中心{C1,C2,...CM}分别作为M组典型用户群组的典型特征,具体实现步骤如下:
S311:从用户关系图的N个节点中随机选取M个节点,并将这M个节点的用户特征作为聚类的初始中心;
S312:对除初始中心之外的其余所有节点的用户特征,逐一求其与M个中心之间的欧氏距离,并将各节点归入距离最近的中心所在的聚类类别;
S313:对于经过S312处理后的每一个聚类类别,根据该类别中所有节点的用户特征重新计算各自的聚类中心;
S314:不断重复迭代S312~S313,直至各聚类类别的聚类中心收敛后,将所有M个聚类类别最终的聚类中心{C1,C2,...CM}分别作为M组典型用户群组的典型特征。
作为上述第一方面的优选,所述步骤S4的具体实现方法如下:
S41:构建用于对在线学习平台上的用户执行激励的强化学习模型πθ,其中每个用户i在t时刻施加的激励策略由激励内容xi,t和激励分数ai,t组成,所述激励内容xi,t用户在平台上的新增学习内容,所述激励分数ai,t采用所述强化学习模型πθ根据用户状态si,t预测得到的动作输出,且所述用户状态si,t由两部分拼接而成,第一部分为用户i所在的典型用户群组的典型特征Ci,第二部分为用户i对于所述激励内容xi,t的学习完成状态的编码表示;所述强化学习模型πθ的奖励函数ri,t仅与用户i对于所述激励内容xi,t的学习完成状态有关,当用户i完成所述激励内容xi,t的学习时ri,t=1,否则ri,t=0;
S42:对在线学习平台上每个用户i随机分配初始激励分数ai,0,然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容xi,0的学习完成状态,从而得到每个用户i对应的用户状态si,0以及奖励函数ri,1,将所有用户的激励分数、用户状态以及奖励函数构成第t=1轮训练的训练数据集
S43:基于最新获得的训练数据集采用策略梯度法对所述强化学习模型πθ进行训练,通过梯度上升更新模型πθ中的可学习参数θ:
式中:Jθ是强化学习模型πθ所输出的分配策略下得到的奖励期望,α为学习率,πθ(ai,t-1|si,t-1)表示将用户状态si,t-1输入强化学习模型πθ后预测得到的激励分数ai,t-1,r(si,t-1,ai,t-1)表示针对用户i给定用户状态si,t-1和激励分数ai,t-1的情况下其获得的奖励函数ri,t;
S44、每当所述强化学习模型πθ完成一轮训练,利用最新一轮训练后的强化学习模型πθ对在线学习平台上每个用户i分配激励分数,并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ;不断迭代训练模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
第二方面,本发明提供了一种基于用户群体典型特征的强化学习激励装置,其包括:
原始特征提取模块,用于提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示;
群体特征提取模块,用于基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征;
典型特征提取模块,用于对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征;
激励模块,用于针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第一方面中任一所述的基于用户群体典型特征的强化学习激励方法。
第四方面,本发明提供了一种基于用户群体典型特征的强化学习激励装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如第一方面中任一所述的基于用户群体典型特征的强化学习激励方法。
相对于现有技术而言,本发明的有益效果如下:
本发明的在先群体激励方法充分利用个体用户和用户间的群体关系进行特征建模,将个体用户特征降维到典型群体特征空间进行模式抽取以及行为分析,进而根据具体模式进行点对点激励。同时,本发明考虑了在线学习平台中用户群体分组问题中用户规模巨大、组合易爆炸的特点,利用强化学习方法进行求解。本发明方法适用于大规模在线学习中,研讨、实践、合作场景的学生用户激励,其效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。
附图说明
图1为基于强化学习的持续在线群体激励方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在具体叙述之前,先对本发明中提到的若干概念进行定义如下:
本发明中的在线学习平台是指通过网络形式供学习者在线进行课程学习的平台,以下亦可简称平台。每一个学习者为平台上的一个用户,将平台上需要激励的用户称为目标用户。用户在平台上的注册信息是用户根据平台的注册机制所填写的个人信息,例如性别、年龄、民族、文化程度等等。同时,用户在平台上学习的过程中,会不断与平台进行交互,例如进行课程学习活动、与平台进行互动等等,这些数据都以用户与平台之间交互产生的行为信息形式被记录。本发明中的强化学习激励是一种对在线学习平台上的用户进行的激励任务,其任务目标是针对平台上的所有需要激励的目标用户,持续分配激励策略,并保证一段时间后平台上的总体用户活跃度最大化。对于以问答形式的课程学习平台,其总体用户活跃度可以视为平台上用户的总体应答次数,即用户对课程问题的完整回答总次数。
在本发明的一个较佳实施例中,提供了一种基于用户群体典型特征的强化学习激励方法,其步骤如下:
S1:提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示。
作为本实施例的一种具体实现方式,上述步骤S1的具体实现方法如下:
S11:从在线学习平台的数据库中获取用户的原始信息数据,所述原始信息数据包含用户在平台上注册的基本个人信息以及用户与平台之间交互产生的行为信息两部分。
为了便于叙述,本发明中将在线学习平台上需要进行激励的用户总数记为N。
S12:对于所述原始信息数据进行特征工程处理,每个用户分别形成一组特征信息。其中,特征工程处理的具体形式需要根据数据情况进行确定,一般可以通过进行剔除异常值、填补缺失值以及特征筛选实现,其中特征筛选需要对所有特征维度进行降维,剔除与群体激励无关的特征维度。
S13:对于用户的每个特征信息,分别将其映射到实数空间进行量化表示,再拼接后得到一个维度为D的向量,作为该用户的原始特征。所有N个用户最终输出大小为N×D的特征矩阵。
S2:基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征。
作为本实施例的一种具体实现方式,上述步骤S2的具体实现方法如下:
S21:将在线学习平台中每个用户视为图中的一个节点ti,将用户的原始特征作为对应节点的用户特征fi进而构建用户关系图中的N个节点。
具体而言,设平台中用户数量为N,因此建立图的N个节点集合U={t1,t2,t3,...,tN},所有N个节点对应特征集合表示为F={f1,f2,f3,...,fN},其中fi(1≤i≤N)为步骤S13中向量维度为D的原始特征。图中的节点与用户一一对应,图中的每个点代表了一个用户,节点的特征向量为该用户的原始画像特征。
S22:使用K邻近算法建立用户关系图中所有N个节点的图结构G∈RN×N,在图结构G中每一个节点仅与距离最近的K个节点建立边连接,且这K个节点以及中心节点本身构成中心节点的邻居节点集Ni。
上述用户关系图中任意两个节点之间的距离计算形式可以根据实际进行调整,一般可选择为这两个节点对应的用户特征之间的欧氏距离。由此,对于图中的N个节点U={t1,t2,t3,...,tN},可定义两个节点间的距离为:
d(ti,tj)=||fi,fj||2
式中,d(ti,tj)表示节点ti,tj间距离,其等于对应特征fi,fj在D维欧式空间中的欧氏距离。K邻近算法实现时,对于特征集合F={f1,f2,f3,...,fN}中的任意特征fi(1≤i≤N),在F中计算与其最邻近的K个特征,该K个特征对应的节点具有相似的用户画像。设节点ti最相似的K个节点为{ti1,ti2,tik...,tiK},可通过邻居节点集Ni={ti1,ti2,tik...,tiK}来表示,则分别在图中的节点ti与tik间建边,并将建立的边加入边集合E。对所有节点执行上述操作后,根据最终的边集合E即可建立图结构G∈RN×N,其中Gij值为1或0,分别表示节点ti和tj有边、无边两种情况。
S23:使用L层图卷积对图结构G进行特征提取,其中第一层图卷积的输入为图结构G中各节点的用户特征,其余层图卷积的输入为上一层图卷积的输出;对于任意第k+1层图卷积而言,其依次对图中每个节点的邻居节点集进行特征聚合,并重新输出每个节点的特征,其输出的特征计算公式表示如下:
式中:fi (k+1)是结点ti在第k+1层图卷积中输出的用户特征,是节点tj在第k层图卷积中输出的用户特征,其中k=0时/>为节点tj在用户关系图中原始的用户特征fj,|Ni|是邻居节点集中包含的节点个数。
所有L层图卷积的输入可以视为大小为N×D的特征矩阵、图结构G。设在图结构G下节点ti的邻居节点集为Ni={ti1,ti2,tik...,tiK},则每层图卷积的卷积过程可以表示为:
Fk+1=Conv(Fk),k=0,1,...L-1
其中Fk表示第k层图卷积输出的图中所有节点的特征fi (k)集合, 其中F0等价于F。L层图卷积顺序相连,第k层的输出作为第k+1层的输入。因此,经过第L层卷积后,用户特征集合为大小N×K的矩阵。
上述图卷积的总层数L可以根据实际的激励效果进行优化,在一优选实施例中L可优化为3层。
S24:对于每一个节点ti,将原始用户特征fi及所有L层图卷积输出的特征{fi (1),fi (2),fi (3),...,fi (L)}进行平均,得到每个节点ti对应的群体特征fi *:
fi *=Mean(fi,fi (1),fi (2),fi (3),...,fi (L))
式中:Mean表示求特征均值操作。
在实际实现过程中,图中所有接地那的群体特征计算可以通过矩阵形式批量计算,也就是说将原始特征F0及每层图卷积输出的特征{F1,F2,Fl,...,FL}求平均得到所有N个节点对应的群体特征集合其中/>
F*=Mean(F0,F1,F2,Fl,...,FL)
S3:对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征。
作为本实施例的一种具体实现方式,上述步骤S3中,对于用户关系图中所有节点的群体特征,采用K-Means聚类算法对群体特征进行类别总数为M的聚类,得到M个典型用户群组,M个聚类类别的聚类中心{C1,C2,...CM}分别作为M组典型用户群组的典型特征,具体实现步骤如下:
S311:从用户关系图的N个节点中随机选取M个节点,并将这M个节点的用户特征作为聚类的初始中心。
S312:对除初始中心之外的其余所有节点的用户特征,逐一求其与M个中心之间的欧氏距离,并将各节点归入距离最近的中心所在的聚类类别。
具体而言,当前用户i所属的类别ci由其到各个中心的欧式距离决定,即其将到距离最短的中心所在的聚类类别m:
ci=argminm||fi *,Cm||2
S313:对于经过S312处理后的每一个聚类类别,根据该类别中所有节点的用户特征重新计算各自的聚类中心。
具体而言,架设聚类中心m所对应的用户群组拥有Nm个用户,则在重新计算聚类中心时需要将对应中心Cm进行移动,更新为:
S314:不断重复迭代S312~S313,直至各聚类类别的聚类中心收敛后,将所有M个聚类类别最终的聚类中心{C1,C2,...CM}分别作为M组典型用户群组的典型特征。
聚类中心的收敛可根据相应的聚类中心更新前后的平移距离∈来判断,当更新误差即更新前后的中心距离小于∈时,说明聚类已基本收敛。
S4:针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
作为本实施例的一种具体实现方式,上述步骤S4的具体实现方法如下:
S41:构建用于对在线学习平台上的用户执行激励的强化学习模型πθ,其中每个用户i在t时刻施加的激励策略由激励内容xi,t和激励分数ai,t组成,所述激励内容xi,t为用户在平台上的新增学习内容,所述激励分数ai,t采用所述强化学习模型πθ根据用户状态si,t预测得到的动作输出,且所述用户状态si,t由两部分拼接(可采用concat操作实现)而成,第一部分为用户i所在的典型用户群组的典型特征Ci,第二部分为用户i对于所述激励内容xi,t的学习完成状态的编码表示;所述强化学习模型πθ的奖励函数ri,t仅与用户i对于所述激励内容xi,t的学习完成状态有关,当用户i完成所述激励内容xi,t的学习时ri,t=1,否则ri,t=0。
需要注意的是,在线学习平台上对于用户的激励是通过为用户设定一个激励策略来实现的,激励策略包含了激励内容和激励分数两部分。作为一种实现形式,对于在线学习平台而言,激励内容即为让用户进一步学习的新课程内容,例如课程问题,激励内容对于每个用户可以是不同的;而激励分数可以是积分、奖励分或者其他形式的虚拟分数或者虚拟物品,该激励分数在用户完成了相应激励内容后奖励给用户,从而激励用户尽可能多的学习平台上的课程内容。
作为一种进一步的优选,每一个用户的激励内容xi,t可以采用个性化推荐算法,可以与用户的最新学习内容绑定,基于用户在平台上的最新学习内容个性化推荐得到,从而使用户能够在平台上进行个性化、针对性地学习相应课程。具体的个性化推荐算法不作限制,可以采用现有技术中的各种学习路径推荐算法实现。
需要说明的是,在线学习平台上激励任务的目标是针对系统中的所有用户(用户数目设为N),持续分配激励策略,并保证一段时间后系统中的总体应答次数最大。由于激励策略包含激励内容与激励分数两部分,激励内容是每个用户各自独立设定的,从因此强化学习模型仅需要确定激励分数即可确定用户的激励策略。用户i的激励分数ai,t由强化学习模型πθ根据当前用户状态si,t预测,因此该模型可以表示为πθ(ai,t|si,t),其中强化学习模型含有的可学习参数为θ。在本发明的一种优选方式,上述强化学习模型πθ可定义为同全连接网络来实现。用户i的激励分数ai,t可预先根据实际情况定义为离散的M个可能取值,取值集合设为每一次均需要由强化学习模型πθ根据当前用户状态si,t从集合/>中选择一个值作为激励分数ai,t,将该激励分数作为用户完成对应激励内容后可获得的奖励,由此激励用户尽可能地完成激励内容中的课程学习内容。
强化学习模型πθ是根据当前用户状态si,t来预测激励分数ai,t的,即该强化学习模型在当前时刻t的输出结果代表用户对应分配策略的概率,即预测应该给予的激励分数。用户状态si,t中的第二部分即用户i对于所述激励内容xi,t的学习完成状态的编码表示,可以根据实际情况设定不同的学习完成状态形式。例如,在一实施例中,用户i对于所述激励内容xi,t的学习完成状态可根据用户是否已经启动及完成激励内容对应的课程学习内容,分为“未启动”,“启动未完成”,“完成”三种,不同的状态可以设置不同的强化学习奖励值,以便于引导强化学习模型在训练过程中能够输出促使用户尽可能完成激励内容的激励分数。在上述三种用户i对于所述激励内容xi,t的学习完成状态的编码表示状态的设计下,可同时设计奖励函数r(s,a)为仅“完成”状态可获得奖励,其余均不能获得奖励。由此,对应每一次激励后用户完成情况,其与用户所获得奖励分数无关,即r(s,a)=r(s)定义为:
当然,上述奖励函数的具体奖励值分配形式,亦可根据实际进行调整。
S42:对在线学习平台上每个用户i随机分配初始激励分数ai,0,然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容xi,0的学习完成状态,从而得到每个用户i对应的用户状态si,0以及奖励函数ri,1,将所有用户的激励分数、用户状态以及奖励函数构成第t=1轮训练的训练数据集
S43:基于最新获得的训练数据集采用策略梯度法对所述强化学习模型πθ进行训练,通过梯度上升更新模型πθ中的可学习参数θ:
式中:Jθ是强化学习模型πθ所输出的分配策略下得到的奖励期望,即从平台上反馈获取的完成情况总奖励值,其真实取值近似于利用蒙特卡洛采样对模型πθ进行N次采样的均值,即对用户群总数N获取其完成情况。πθ(ai,t-1|si,t-1)表示将用户状态si,t-1输入强化学习模型πθ后预测得到的激励分数ai,t-1,r(si,t-1,ai,t-1)表示针对用户i给定用户状态si,t-1和激励分数ai,t-1的情况下其获得的奖励函数ri,t。上述模型训练目标即为最大化总值Jθ,因而利用梯度上升优化函数值,其中采取的学习率为α。
S44、每当所述强化学习模型πθ完成一轮训练,利用最新一轮训练后的强化学习模型πθ对在线学习平台上每个用户i分配激励分数,并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ。
需要说明的是,上述训练数据集的收集方式与S42中基本一致,区别仅在于S42中施加的激励分数是随机的,而后续S44中施加的激励分数则是由强化学习模型πθ生成的。对于第t≥2轮迭代而言,当强化学习模型πθ生成的激励分数被施加后,通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容xi,t-1的学习完成状态,从而得到每个用户i对应的用户状态si,t-1以及奖励函数ri,t,将所有用户的激励分数、用户状态以及奖励函数构成第t≥2轮训练的训练数据集/>
上述强化学习模型πθ的训练是不断迭代的,即强化学习模型πθ完成新一轮训练后,即可暂时固定模型中可学习参数,然后利用强化学习模型πθ对在线学习平台上每个用户i分配激励分数,然后收集在线用户活跃度反馈数据,利用一段时间内用户对激励内容的完成情况及总奖励分数对模型进行训练,使得在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
下面将上述S1~S4所示的基于用户群体典型特征的强化学习激励方法,结合至一个具体的实例中,以展示其具体实现过程。
实施例
下面以某在线学习平台的用户群体激励过程为例,对本发明进行具体描述,其具体步骤如下:
1)按照前述的步骤S1,获取用户的画像数据,分为包含基本个人信息的个体信息与包含用户与系统交互的行为信息两部分。下面给出某用户的个体信息实例,性别:男,年龄:22岁,民族:汉族,收入:2000/月,婚姻状态:未婚,职业:学生。下面给出该用户的行为信息实例,加入课程数:5,在线时长:40小时,互动次数:20。
然后对获取得到的用户画像数据进行处理。首先进行特征的挑选,民族、婚姻状态、收入这三项几乎与群体激励算法设计无关,因此从用户画像中删除,然后将用户画像向量化。下面给出某用户数据画像处理过程。性别:0,年龄:0.22,职业:2,加入课程数:3,在线时长:40,互动次数:20。量化后用户的初始化特征向量为[0,0.22,2,3,40,20],最后将所有用户的初始化特征向量组合成矩阵,即S1中的原始特征F,假设当前用户总数N=10,那么F∈R10×6。
2)按照前述的S2步骤,对用户原始特征建立用户关系图并进行图卷积。下面给出某用户t1的用户关系图建立及图卷积过程。假设使用K邻近算法建立用户关系图,K=2,用户t1的原始特征为[0,0.22,2,3,40,20],在其余9个用户中,与用户t1距离最小的两个用户为t4,t7,假设其对应的原始特征分别为[1,0.21,3,4,50,32],[1,0.24,2,5,50,10]。假设图卷积层数L=3,则第一层用户t1的图卷积计算过程为
假设第二层和第三层得到的用户t1的画像特征分别为[0.45,0.19,1.98,3.744.21,50],[0.40,0.25,1.88,5.5,50,54]。则用户t1的群体特征可用过原始特征画像和三次图卷积得到的特征画像平均得到,即
3)按照前述的S3步骤,对群体用户特征进一步使用K-Means方法进行聚类,形成典型用户群。设选取M=3个典型用户群;首先随机选取3个用户的群体特征作为初始类别中心;而后遍历所有用户特征,逐一求其到3个中心的欧氏距离,并对应分配到距离它最近的一个中心;具体而言,以六维特征空间为例,设当前用户i对应群体特征fi *=[0.1,0.5,0.09,0.18,0.88],随机选取得到聚类中心{C1,C2,C3}分别为:
[0.05,0.42,0.11,0.08,0.93],[0.91,0.22,0.07,0.58,0.07],[0.11,0.83,0.37,0.02,0.35],分别计算欧式距离得ci=argminm(d1,d2,d3)=1,即属于第一集群;按步骤S313滑动更新用户群中心;重复此过程,直至类别中心连续两次更新差值,即小于∈=1e-5。
4)按照前述的S4步骤,利用策略梯度算法训练强化学习模型πθ(ai,t|si,t)。
设当前用户总数为N=10,初始时随机初始化网络参数θ,用户i状态si,0=[C1,0];其中,[,]为连接运算符,用户的完成情况初始化为未启动即为0,用户所属用户群特征为C1(参见实施例4)中聚类结果)。将用户状态输入模型πθ(ai,0|si,0),得到激励分数对应概率值。设共有四种激励分数:5/10/20/50,对应ai,0=[0.25,0.05,0.5,0.2];则用户i在t=0轮获得激励分数20分。依此类推,为所有用户分配激励分数。在固定更新时间内等待用户响应,设每7天即一周进行一次更新,则ai,0与ai,1之间将间隔一周。
在t+1时刻,收集期间用户响应数据。设用户i在此期间完成题目作答,则ri=1,反之ri=0,形成数据集用于对模型πθ进行训练。具体而言,以两位用户的情况为例,设用户1在t轮获得a1,0=[0.25,0.05,0.5,0.2]激励,并完成题目;用户2在t轮获得a1,0=[0.37,0.29,0.31,0.03]激励,并未启动题目。则进而利用梯度上升反向传播对网络进行一轮训练。重复上述步骤多次,即可持续收集用户反馈并对模型进行训练,使得在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度,即用户对于题目的作答次数最大化。
本实施例在平台的多个不同场景下进行测试,获取了用户在平台上的作答响应情况,其结果如表1所示。
表1平台上应用强化学习激励模型时的不同场景响应情况
用户画像 | 性别 | 年龄 | 地域 | 收入 | 婚姻 | 职业 | 学习时间 | 学习进度 | 互动次数 | 用户群个数 | 单次响应值(K) |
量化权重 | 0.06 | 0.21 | 0.00 | 0.00 | 0.00 | 0.25 | 0.13 | 0.15 | 0.20 | 10 | 2.26 |
量化权重 | 0.09 | 0.18 | 0.00 | 0.00 | 0.00 | 0.21 | 0.12 | 0.19 | 0.21 | 10 | 2.51 |
量化权重 | 0.08 | 0.22 | 0.00 | 0.00 | 0.00 | 0.18 | 0.16 | 0.18 | 0.18 | 15 | 2.59 |
量化权重 | 0.06 | 0.21 | 0.00 | 0.00 | 0.00 | 0.25 | 0.13 | 0.15 | 0.20 | 15 | 2.67 |
量化权重 | 0.04 | 0.23 | 0.00 | 0.00 | 0.00 | 0.20 | 0.11 | 0.17 | 0.25 | 25 | 2.73 |
由此可见,本发明提供的基于用户群体典型特征的强化学习激励,可以实现对大规模在线学习平台中的用户进行激励,,对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。
在本发明的另一实施例中,基于相同的发明构思,提供了一种基于用户群体典型特征的强化学习激励装置,其包括:
原始特征提取模块,用于提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示;
群体特征提取模块,用于基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征;
典型特征提取模块,用于对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征;
激励模块,用于针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
上述强化学习激励装置中各模块分别对应了前述实施例的S1~S4,因此其中具体的实现方式亦可参见前述实施例,对此不再赘述。
需要说明的是,根据本发明公开的实施例,上述强化学习激励装置中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现,计算机程序中包含用于执行相应方法的程序代码。
在本发明的另一实施例中,基于相同的发明构思,提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述S1~S4所述的基于用户群体典型特征的强化学习激励方法。
在本发明的另一实施例中,基于相同的发明构思,提供了一种计算机设备,即一种基于用户群体典型特征的强化学习激励装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上述S1~S4所述的基于用户群体典型特征的强化学习激励方法。
可以理解的是,上述存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,计算机设备可以是任意具有GPU、CPU、智能网卡插槽的物理机,个人电脑(PC机)、服务器均包含在内。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (9)
1.一种基于用户群体典型特征的强化学习激励方法,其特征在于,步骤如下:
S1:提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示;
S2:基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征;
S3:对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征;
S4:针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度;具体实现方法如下:
S41:构建用于对在线学习平台上的用户执行激励的强化学习模型πθ,其中每个用户i在t时刻施加的激励策略由激励内容xi,t和激励分数ai,t组成,所述激励内容xi,t为用户在平台上的新增学习内容,所述激励分数ai,t采用所述强化学习模型πθ根据用户状态si,t预测得到的动作输出,且所述用户状态si,t由两部分拼接而成,第一部分为用户i所在的典型用户群组的典型特征Ci,第二部分为用户i对于所述激励内容xi,t的学习完成状态的编码表示;所述强化学习模型πθ的奖励函数ri,t仅与用户i对于所述激励内容xi,t的学习完成状态有关,当用户i完成所述激励内容xi,t的学习时ri,t=1,否则ri,t=0;
S42:对在线学习平台上每个用户i随机分配初始激励分数ai,0,然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容xi,0的学习完成状态,从而得到每个用户i对应的用户状态si,0以及奖励函数ri,1,将所有用户的激励分数、用户状态以及奖励函数构成第t=1轮训练的训练数据集
S43:基于最新获得的训练数据集采用策略梯度法对所述强化学习模型πθ进行训练,通过梯度上升更新模型πθ中的可学习参数θ:
式中:Jθ是强化学习模型πθ所输出的分配策略下得到的奖励期望,α为学习率,πθ(ai,t-1|si,t-1)表示将用户状态si,t-1输入强化学习模型πθ后预测得到的激励分数ai,t-1,r(si,t-1,ai,t-1)表示针对用户i给定用户状态si,y-1和激励分数ai,y-1的情况下其获得的奖励函数ti,t;
S44、每当所述强化学习模型πθ完成一轮训练,利用最新一轮训练后的强化学习模型πθ对在线学习平台上每个用户i分配激励分数,并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ;不断迭代训练模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
2.根据权利要求1所述的基于用户群体典型特征的强化学习激励方法,其特征在于:所述步骤S1的具体实现方法如下:
S11:从在线学习平台的数据库中获取用户的原始信息数据,所述原始信息数据包含用户在平台上注册的基本个人信息以及用户与平台之间交互产生的行为信息两部分;
S12:对于所述原始信息数据进行特征工程处理,每个用户分别形成一组特征信息;
S13:对于所述用户的每个特征信息,分别将其映射到实数空间进行量化表示,再拼接后得到一个维度为D的向量,作为该用户的原始特征。
3.根据权利要求2所述的基于用户群体典型特征的强化学习激励方法,其特征在于:所述特征工程处理包括剔除异常值、填补缺失值以及特征筛选。
4.根据权利要求1所述的基于用户群体典型特征的强化学习激励方法,其特征在于:所述步骤S2的具体实现方法如下:
S21:将在线学习平台中每个用户视为图中的一个节点ti,将用户的原始特征作为对应节点的用户特征fi,进而构建用户关系图中的N个节点;
S22:使用K邻近算法建立用户关系图中所有N个节点的图结构G∈RN×N,在图结构G中每一个节点仅与距离最近的K个节点建立边连接,且这K个节点以及中心节点本身构成中心节点的邻居节点集Ni;
S23:使用L层图卷积对图结构G进行特征提取,其中第一层图卷积的输入为图结构G中各节点的用户特征,其余层图卷积的输入为上一层图卷积的输出;对于任意第k+1层图卷积而言,其依次对图中每个节点的邻居节点集进行特征聚合,并重新输出每个节点的特征:
式中:fi (k+1)是结点ti在第k+1层图卷积中输出的用户特征,是节点tj在第k层图卷积中输出的用户特征,其中k=0时/>为节点tj在用户关系图中原始的用户特征fj;|Ni|是邻居节点集中包含的节点个数;
S24:对于每一个节点ti,将原始用户特征fi及所有L层图卷积输出的特征{fi (1),fi (2),fi (3),…,fi (L)}进行平均,得到每个节点ti对应的群体特征fi *:
fi *=Mean(fi,fi (1),fi (2),fi (3),…,fi (L))
式中:Mean表示求特征均值操作。
5.根据权利要求4所述的基于用户群体典型特征的强化学习激励方法,其特征在于:所述用户关系图中任意两个节点之间的距离为这两个节点对应的用户特征之间的欧氏距离。
6.根据权利要求4所述的基于用户群体典型特征的强化学习激励方法,其特征在于:所述步骤S3中,对于用户关系图中所有节点的群体特征,采用K-Means聚类算法对群体特征进行类别总数为M的聚类,得到M个典型用户群组,M个聚类类别的聚类中心{C1,C2,…Cm}分别作为M组典型用户群组的典型特征,具体实现步骤如下:
S311:从用户关系图的N个节点中随机选取M个节点,并将这M个节点的用户特征作为聚类的初始中心;
S312:对除初始中心之外的其余所有节点的用户特征,逐一求其与M个中心之间的欧氏距离,并将各节点归入距离最近的中心所在的聚类类别;
S313:对于经过S312处理后的每一个聚类类别,根据该类别中所有节点的用户特征重新计算各自的聚类中心;
S314:不断重复迭代S312~S313,直至各聚类类别的聚类中心收敛后,将所有M个聚类类别最终的聚类中心{C1,C2,...CM}分别作为M组典型用户群组的典型特征。
7.一种基于用户群体典型特征的强化学习激励装置,其特征在于,包括:
原始特征提取模块,用于提取在线学习平台中用户的原始特征,所述原始特征包括用户在平台上注册的个人信息以及用户与平台之间交互产生的行为信息的向量化表示;
群体特征提取模块,用于基于所有用户的原始特征建立用户关系图,图中的每个节点对应于一个目标用户,再使用图卷积神经网络对用户关系图进行特征提取和聚合,得到图中每个节点对应的群体特征;
典型特征提取模块,用于对用户关系图中所有节点的群体特征进行聚类,形成多个典型用户群组,每一个聚类类别的聚类中心作为对应典型用户群组的典型特征;
激励模块,用于针对各典型用户群组分配初始激励模式,并利用在线学习平台上持续在线的用户活跃度反馈数据训练基于策略的强化学习模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度;
S41:构建用于对在线学习平台上的用户执行激励的强化学习模型πθ,其中每个用户i在t时刻施加的激励策略由激励内容xi,t和激励分数ai,t组成,所述激励内容xi,t为用户在平台上的新增学习内容,所述激励分数ai,t采用所述强化学习模型πθ根据用户状态si,t预测得到的动作输出,且所述用户状态si,t由两部分拼接而成,第一部分为用户i所在的典型用户群组的典型特征Ci,第二部分为用户i对于所述激励内容xi,t的学习完成状态的编码表示;所述强化学习模型πθ的奖励函数ri,t仅与用户i对于所述激励内容xi,t的学习完成状态有关,当用户i完成所述激励内容xi,t的学习时ri,t=1,否则ri,t=0;
S42:对在线学习平台上每个用户i随机分配初始激励分数ai,0,然后通过收集平台上的在线用户活跃度反馈数据获得各用户对于初始的激励内容xi,0的学习完成状态,从而得到每个用户i对应的用户状态si,0以及奖励函数ri,1,将所有用户的激励分数、用户状态以及奖励函数构成第t=1轮训练的训练数据集
S43:基于最新获得的训练数据集采用策略梯度法对所述强化学习模型πθ进行训练,通过梯度上升更新模型πθ中的可学习参数θ:
式中:Jθ是强化学习模型πθ所输出的分配策略下得到的奖励期望,α为学习率,πθ(ai,t-1|si,t-1)表示将用户状态si,t-1输入强化学习模型πθ后预测得到的激励分数ai,t-1,r(si,t-1,ai,t-1)表示针对用户i给定用户状态si,t-1和激励分数ai,t-1的情况下其获得的奖励函数ri,t;
S44、每当所述强化学习模型πθ完成一轮训练,利用最新一轮训练后的强化学习模型πθ对在线学习平台上每个用户i分配激励分数,并收集下一轮训练所需的训练数据集然后重新执行S43进一步更新模型中的可学习参数θ;不断迭代训练模型,使在线学习平台上的在线用户在强化学习模型施加的激励下最大化总体用户活跃度。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~6任一所述的基于用户群体典型特征的强化学习激励方法。
9.一种基于用户群体典型特征的强化学习激励装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~6任一所述的基于用户群体典型特征的强化学习激励方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210467453.XA CN114943278B (zh) | 2022-04-27 | 2022-04-27 | 基于强化学习的持续在线群体激励方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210467453.XA CN114943278B (zh) | 2022-04-27 | 2022-04-27 | 基于强化学习的持续在线群体激励方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114943278A CN114943278A (zh) | 2022-08-26 |
CN114943278B true CN114943278B (zh) | 2023-09-12 |
Family
ID=82907562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210467453.XA Active CN114943278B (zh) | 2022-04-27 | 2022-04-27 | 基于强化学习的持续在线群体激励方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943278B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858719B (zh) * | 2023-02-21 | 2023-05-23 | 四川邕合科技有限公司 | 一种基于大数据分析的sim卡活跃度预测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751017A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于强化学习的在线非监督的人群组分割方法及终端 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN111985623A (zh) * | 2020-08-28 | 2020-11-24 | 复旦大学 | 基于最大化互信息和图神经网络的属性图群组发现方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
WO2021169218A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 数据推送方法、系统、电子装置及存储介质 |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
-
2022
- 2022-04-27 CN CN202210467453.XA patent/CN114943278B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751017A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于强化学习的在线非监督的人群组分割方法及终端 |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
WO2021169218A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 数据推送方法、系统、电子装置及存储介质 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN111985623A (zh) * | 2020-08-28 | 2020-11-24 | 复旦大学 | 基于最大化互信息和图神经网络的属性图群组发现方法 |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
Non-Patent Citations (1)
Title |
---|
基于用户画像的在线学习干预研究与实践;罗校清;;江苏理工学院学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114943278A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378818B (zh) | 基于难度的个性化习题推荐方法、系统及介质 | |
US20210150372A1 (en) | Training method and system for decision tree model, storage medium, and prediction method | |
Zheng et al. | An improved genetic approach for composing optimal collaborative learning groups | |
CN112990478B (zh) | 联邦学习数据处理系统 | |
CN114943278B (zh) | 基于强化学习的持续在线群体激励方法、装置及存储介质 | |
CN111159419A (zh) | 基于图卷积的知识追踪数据处理方法、系统和存储介质 | |
CN108876123A (zh) | 一种教学干预方法和装置 | |
CN110135498A (zh) | 一种基于深度进化神经网络的图像识别方法 | |
Orong et al. | A new crossover mechanism for genetic algorithm with rank-based selection method | |
US20230410237A1 (en) | Dynamic education planning methods and systems | |
CN114758180B (zh) | 一种基于知识蒸馏的轻量化花卉识别方法 | |
CN111639860A (zh) | 一种基于数学模型的在线教育系统及其分班方法 | |
CN113052316B (zh) | 基于因果推理的知识追踪方法、系统、设备及存储介质 | |
CN111985560B (zh) | 知识追踪模型的优化方法、系统及计算机存储介质 | |
CN111311997B (zh) | 一种基于网络教育资源的互动方法 | |
CN114912518A (zh) | 基于用户群体典型特征的强化学习分组方法、装置及介质 | |
CN114169906B (zh) | 电子券推送方法、装置 | |
CN111030764B (zh) | 一种基于随机博弈在线学习的众包用户信息年龄管理方法 | |
Hare et al. | Petri Nets and hierarchical reinforcement learning for personalized student assistance in serious games | |
CN116777402B (zh) | 一种基于元认知的面向群体协作的个性化角色定位方法 | |
Choi et al. | ORC: Network group-based knowledge distillation using online role change | |
Al-Tarabily et al. | Optimizing Intelligent Agent Performance in E-Learning Environment | |
CN115577617A (zh) | 在噪声环境下小采样的多智能体系统策略评估方法 | |
Islam et al. | Reinforcement learning based interactive agent for personalized mathematical skill enhancement | |
Schecter et al. | Uncovering latent archetypes from digital trace sequences: An analytical method and empirical example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |