发明内容
本发明通过提供一种基于演化博弈的在线知识共享动态奖励方法,解决了现有技术中无法同时实现在给予学习者激励的基础上尽量地减少平台开销的问题。
本发明提供一种基于演化博弈的在线知识共享动态奖励方法,包括以下步骤:
步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;
步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;
步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;
步骤4、在每一轮博弈中,计算每个学习者的学习收益值;
步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;
步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;
步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。
优选的,所述步骤2中,所述趋同条件信息为趋同范围,采用如下公式计算:
A=test*(rand(1,N))
其中,A表示趋同范围,test表示测试常数,rand函数生成随机数值,N表示当前在线的学习者的人数;
通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值,得到趋同范围内邻居学习者的集合。
优选的,所述步骤3中,根据学习者的信誉值,将在线学习平台中的学习者分为三个群体,分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S;
所述博弈策略包括第一种策略、第二种策略、第三种策略;所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略;
所述第一种策略为:无论对方做出何种决策,该学习者都进行知识共享;所述第二种策略为:基于对方学习者的信誉值,该学习者判断是否进行知识共享;所述第三种策略为:无论对方做出何种策略,该学习者都不进行知识共享;
该学习者每进行一次知识共享,则在线学习平台对该学习者给予奖励;
所述收益矩阵A*为:
其中,λ表示进行知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,Cad表示有条件知识共享者查询信息的额外损失,k表示网络平均度。
优选的,通过修改后的复制动力学方程确定所述动态奖励函数;
所述修改后的复制动力学方程为:
其中,表示描述策略的预期比例随时间的变化,xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
fi+gi作为评价策略适应度的指标,fi+gi采用如下公式计算:
其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项;
设置临界条件,根据临界条件设置所述动态奖励函数;
所述临界条件定义为:满足f2+g2>f+g1>f3+g3或者f1+g1>f2+g2>f3+g3,且Cad>0;
设μ=1,所述临界条件表示为:
所述动态奖励函数采用如下公式计算:
其中,σ为调整参数。
优选的,所述步骤4中,所述计算每个学习者的学习收益值包括以下子步骤:
步骤4.1、学习者i参与length(interact{i})+1个群体的博弈,所述length(interact{i})+1个群体包括以学习者i自身为中心的群体、以及以与学习者i博弈交互的邻居学习者为中心的群体;
其中,length(interact{i})表示学习者i博弈交互的邻居学习者的个数;
若学习者i选择进行知识共享,则学习者i在每个群体中均投入1/(length(interact{i})+1)的知识量;若学习者i选择不进行知识共享,则投入的知识量为0;
每轮博弈过程中,所有学习者同时做出是否进行知识共享的决定;
步骤4.2、计算学习者i参与每个群体的博弈中获得的收益,采用如下公式计算:
其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=int eract{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;
根据学习者i参与的所有群体的博弈中获得的收益,得到学习者i获得的累计收益,表示为:
其中,Ui表示学习者i获得的学习收益值。
优选的,所述步骤6包括以下子步骤:
步骤6.1、采用轮盘赌算法,计算候选学习对象j*作为学习对象的概率为:
其中,表示候选学习对象的集合,/>表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益;
步骤6.2、基于选中的所述学习对象,根据费米动力学规则进行策略更新,表示为:
其中,表示候选学习对象j*的策略,si表示学习者i的策略,n表示噪音。
优选的,所述步骤7中,根据更新的策略计算得到动态奖励值的具体实现方式为:获取更新后完全知识共享者D、有条件知识共享者C和拒绝知识共享者S在群体中的比例x1、x2、x3,将其带入动态奖励函数rd,得到动态奖励值。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
在发明中,提供的一种基于演化博弈的在线知识共享动态奖励方法首先根据学习者的知识共享记录信息,获得学习者的信誉值;针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;定义博弈策略和收益矩阵,确定动态奖励函数;然后在每一轮博弈中,计算每个学习者的学习收益值;针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;通过赌轮盘算法和费米动力学规则进行策略更新;最后根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。本发明通过合理设置动态奖励函数,达到了在给予学习者激励的基础上能够尽量地减少平台的开销的技术效果,能够实现平台和在线学习者之间双赢。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
在线学习平台中的学习者的学习行为被分为三部分:分别是发帖、评论和浏览(此处暂不考虑评论行为)。发帖代表着进行知识共享行为,浏览代表不进行知识共享。每个学习者的学习记录由平台记录,根据每个在线学习和加入平台进行操作开始产生,为其第一次交互,根据记录的数据判断学习者的身份。若记录的数据中都是进行发帖行为,则该学习者为完全知识共享者D(Dedicated knowledge sharers,无论对方做任何决策,该学习者都会选择输出知识,由此可见其信誉值较高,一般与其交互操作次数相同),若都是浏览行为,则该学习者为拒绝知识共享者S(Selfish knowledge sharers,无论对方做任何决策,该学习者都会选择拒绝输出知识,由此可见其信誉值会较低,一般为0),其余情况的行为为有条件知识共享者C(Conditional knowledge sharers,这类学习者只为完全写作者和有条件协作者输出知识,拒绝绝对利己者发出的知识需求,有条件协作者通过平台查询交互对象历史行为对对方做出判断)。在线学习者陆续加入平台中,交互的对象需要进行相应的更新变化。此外学习平台需要进行划分不同的领域,只有在同一领域的学习者才有可能会进行交互。
本实施例提供了一种基于演化博弈的在线知识共享动态奖励方法,参见图1,包括以下步骤:
步骤1、根据在线学习者进行知识共享的次数,确定在线学习者的信誉值。
步骤2、根据信誉值选择在学习者设定的趋同范围内的在线学习者作为博弈交互对象。
具体的,步骤2包括以下子步骤:
步骤2.1:设趋同范围为A;对于每一位在线学习者都可以随机设置该范围的大小,趋同范围A采用以下方式获得:
A=test*(rand(1,N))
其中,test代表测试常数,rand函数生成随机数值,N表示当前的在线学习者的人数。
步骤2.2:设cha表示在线学习者们之间的信誉差,通过比较cha和A的大小,来决定是否该学习者有机会与目标学习者交互。
设学习者i设定的趋同范围为A,学习者i的信誉值为a,学习者i的邻居学习者j的信誉值为b。
cha=abs(b-a)(abs函数是用于求绝对值的函数,即学习者i选择交互对象的信誉值需要在范围[a-A,a+A]之间)。
在此区间内的学习者j将会有机会与学习者i进行交互。
步骤3、通过复制动力学确定动态奖励函数。
具体的,步骤3包括以下子步骤:
步骤3.1、由于复制动力学只适用于分析无限大均匀混合种群的演化过程,所以在此需要将网络拓扑引入适应度的考量中。
修改后的复制动力学方程为:
其中,表示描述策略的预期比例随时间的变化;xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例,x1、x2、x3三者均大于等于0,且相加为1;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
原复制动力学方程为:
步骤3.2、根据修改后的复制动力学方程,计算出三种策略对应的fi+gi(本部分是代替了原复制动力学方程中的fi项),fi+gi部分作为一个整体是评价具有空间结构的群体中策略适应度(即策略生命力、稳健性)的关键性指标。其公式为:
其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项。
步骤3.3、若发生一次共享行为,则对进行知识共享的在线学习者给予奖励,并计算收益矩阵。
由于网络结构,计算适应度所依据的收益矩阵将会发生变化,变换后的收益矩阵A*如下:
其中,Cad表示有条件知识共享者查询信息的额外损失(即有条件知识共享者为了判断交互对象的下一步行为,需要通过平台查询相关信息所需要付出的额外时间花费);λ表示交互后的收益,μ是进行共享行为的成本,rd表示奖励值,k表示网络平均度。
步骤3.4、为了达到促进学习者知识共享行为的效果,只要符合f1+g1>f2+g2>f3+g3(条件一)或者f2+g2>f1+g1>f3+g3(条件二)这两种期望就可以确保学习者向知识共享方向演化。找到使得f2+g2>f1+g1,f1+g1>f3+g3或者f1+g1>f2+g2,f2+g2>f3+g3成立的临界条件,得到以下式子:
步骤3.5、根据临界条件设置动态奖励函数。
由于平台无法预知和控制有条件知识共享者查询信息的额外损失Cad具体值,执行固定奖励时存在局限性,且群体在演化过程中各策略比例也不断在变化,能够有效激励学习者协作的奖励值大小的阈值也在不断发生着变化,为了能够确保有效激励同时节省平台奖励开销,考虑将奖励值rd设为动态奖励函数,只需确保奖励值rd大于演化阈值,满足临界条件,就可以有效促进在线学习者进行知识共享,从而降低平台奖励成本。具体的,动态奖励函数设置为:
其中,σ为调整参数。
σ>0,为一个较小数,以确保演化过程中步骤3.4中的临界条件中关于rd的不等式一直成立,保证rd值恒大于演化阈值,使得群体一定往知识共享方向演化,动态奖励值随着策略比例的动态变化而不断调整。
例如,如当Cad=0.075,λ=1.2,k=6时,可将σ设定为0.2。
步骤4、使用公共品博弈收益计算方式计算在线学习者的收益。
具体的,参见图2,步骤4包括以下子步骤:
步骤4.1、根据在线学习者的信誉值,可将学习者分为完全知识共享者、拒绝知识共享者和有条件知识共享者。三类学习者的判别方法如下:
学习者的信誉值为该学习者的交互次数(即博弈次数),则可判定为完全知识共享者;学习者的信誉值为0,则可判定为拒绝知识共享者;学习者的信誉值在[0,t](t表示学习者的交互次数),则可判定为有条件知识共享者。
步骤4.2、根据在线学习者目前的策略选择知识共享的投入知识量,在线学习者i参与以自身为中心和以步骤2中所选出来的交互对象为中心的总共length(interact{i})+1个群体的博弈(其中length(interact{i})指的是与学习者i博弈交互的邻居学习者的个数)。
如果在线学习者i选择进行知识共享,则在线学习者i在每个群体中都投入1/(length(interact{i})+1)的知识量,总投入I=1;
如果在线学习者i选择不进行知识共享,则投入I=0。
每轮博弈过程中所有学习者同时做出决定。
步骤4.3、每个群体(这个群体指的是在某些相关领域中的人)中获取的知识量为该群体中所有进行知识共享的学习者累计投入的知识量总和,将总知识量乘以r倍(r表示增益系数)再平均分配给该群体中的每一个学习者(包括没有进行知识共享的学习者,即没有投入者),根据这样的收益分配原则,在线学习者i参与以邻居j为中心的群体博弈可获得的收益为:
其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=interact{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;
在线学习者i获得的累计收益Ui为它从所参加的所有群体的博弈中获得的收益之和,表示为:
其中,Ui表示学习者i获得的学习收益值。
具体收益计算方式如下:
如果学习者i为完全知识共享者,则学习者i在这轮的博弈的平均收益P为:
其中,count1、count2、count3分别为完全知识共享者的数量、有条件知识共享者的数量和拒绝知识共享者的数量,λ为知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,length(m)为学习者i的博弈对象数量。
如果学习者i为有条件知识共享者,则学习者i在这轮的博弈的平均收益P为:
其中,Cad表示的是有条件知识共享者查询信息的额外损失;
如果学习者i为拒绝知识共享者,则学习者i在这轮博弈的平均收益P为:
步骤5、每个在线学习者自定义一个收益期望值。
步骤6、针对每一个在线学习者,寻找大于其收益期望值的其他在线学习者。
步骤7、通过赌轮法和费米动力学进行策略更新,再进入下一轮博弈。
具体的,步骤7包括以下子步骤:
步骤7.1、步骤6中已经记录好了期望值符合条件的其他在线学习者,为保证公平,防止符合条件的收益较少的在线学习者被直接淘汰,因此采用轮盘赌算法。依据轮盘赌算法原理,符合条件的在线学习者j*作为被选学习对象的概率为:
其中,表示候选学习对象的集合,/>表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益。
比如,候选学习对象有a,b,c三位,则record=a,b,c,U表示的是学习收益;Ua表示学习者a的学习收益,Ub表示学习者b的学习收益,Uc表示的是学习者c的学习收益。
步骤7.2、选中好对象以后,根据费米动力学规则进行策略更新:
其中,表示候选学习对象j*的策略,si表示学习者i的策略,n为噪音。优选的,n取0.1。
若没有收益大于其收益期望值的邻居,则该在线学习者的策略保持不变。
步骤8、根据此前步骤得出的数据,即三种策略的学习者在群体中分别的比例,将其带入动态奖励函数rd,得出比较适合的奖励值,用于平台给在线学习者进行知识共享的奖励作参照。
本发明实施例提供的一种基于演化博弈的在线知识共享动态奖励方法至少包括如下技术效果:
1.根据信誉值选择符合条件的在线学习者作为博弈对象,这种做法能够模拟实际的学习场景中,学习者选择性的只与部分人进行交互。
2.采用复制动力学来确定动态奖励函数,这种方式更加简单并且能更好的描述演化的过程,只需要比较各个策略的适应度找到每个结果的临界点即可。
3.定义期望选出学习其他学习者的范围,这种做法是源于学习者的择优心理,其他学习者的选择偏好对于知识共享行为的涌现是起到重要作用的。择优心理往往会促使学习者倾向于将部分学习方法或效果不好的人淘汰掉。
4.采用赌轮法进行策略更新部分,这种做法能够保证优秀的学习者被选中的概率会更大。
5.合理设置动态奖励函数,能够尽可能的减少平台的开销,达到平台和在线学习者之间双赢。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。