CN112182485B - 一种基于演化博弈的在线知识共享动态奖励方法 - Google Patents
一种基于演化博弈的在线知识共享动态奖励方法 Download PDFInfo
- Publication number
- CN112182485B CN112182485B CN202011002274.6A CN202011002274A CN112182485B CN 112182485 B CN112182485 B CN 112182485B CN 202011002274 A CN202011002274 A CN 202011002274A CN 112182485 B CN112182485 B CN 112182485B
- Authority
- CN
- China
- Prior art keywords
- learner
- knowledge
- representing
- game
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000008901 benefit Effects 0.000 claims description 59
- 230000003993 interaction Effects 0.000 claims description 29
- 230000010076 replication Effects 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000008450 motivation Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007616 round robin method Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Educational Technology (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于在线教育领域,公开了一种基于演化博弈的在线知识共享动态奖励方法,包括根据学习者的知识共享记录信息,获得学习者的信誉值;针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;定义博弈策略和收益矩阵,确定动态奖励函数;在每一轮博弈中,计算每个学习者的学习收益值;针对每一位学习者,筛选出候选学习对象的集合;通过赌轮盘算法和费米动力学规则进行策略更新;根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。本发明在给予学习者激励的基础上能够尽量地减少平台的开销。
Description
技术领域
本发明涉及在线教育领域,尤其涉及一种基于演化博弈的在线知识共享动态奖励方法。
背景技术
知识共享行为作为在线学习平台的一个重点部分,是非常重要的,但是由于群体知识共享的自愿特性,学习者的共享意愿也不相同,对此,需要有一个合适的奖励机制来增加在线学习者的共享意愿,以此促进其知识共享行为。在大部分相关研究中,只是在心理层面对该行为进行了研究并简单的提出了激励机制,并没有考虑到实际情况下平台的负担。所以,结合演化博弈等技术,在给予学习者激励的基础上能够尽量地减少平台的开销,以此达到双赢的效果变得很有价值和意义。
发明内容
本发明通过提供一种基于演化博弈的在线知识共享动态奖励方法,解决了现有技术中无法同时实现在给予学习者激励的基础上尽量地减少平台开销的问题。
本发明提供一种基于演化博弈的在线知识共享动态奖励方法,包括以下步骤:
步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;
步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;
步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;
步骤4、在每一轮博弈中,计算每个学习者的学习收益值;
步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;
步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;
步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。
优选的,所述步骤2中,所述趋同条件信息为趋同范围,采用如下公式计算:
A=test*(rand(1,N))
其中,A表示趋同范围,test表示测试常数,rand函数生成随机数值,N表示当前在线的学习者的人数;
通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值,得到趋同范围内邻居学习者的集合。
优选的,所述步骤3中,根据学习者的信誉值,将在线学习平台中的学习者分为三个群体,分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S;
所述博弈策略包括第一种策略、第二种策略、第三种策略;所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略;
所述第一种策略为:无论对方做出何种决策,该学习者都进行知识共享;所述第二种策略为:基于对方学习者的信誉值,该学习者判断是否进行知识共享;所述第三种策略为:无论对方做出何种策略,该学习者都不进行知识共享;
该学习者每进行一次知识共享,则在线学习平台对该学习者给予奖励;
所述收益矩阵A*为:
其中,λ表示进行知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,Cad表示有条件知识共享者查询信息的额外损失,k表示网络平均度。
优选的,通过修改后的复制动力学方程确定所述动态奖励函数;
所述修改后的复制动力学方程为:
其中,表示描述策略的预期比例随时间的变化,xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
fi+gi作为评价策略适应度的指标,fi+gi采用如下公式计算:
其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项;
设置临界条件,根据临界条件设置所述动态奖励函数;
所述临界条件定义为:满足f2+g2>f+g1>f3+g3或者f1+g1>f2+g2>f3+g3,且Cad>0;
设μ=1,所述临界条件表示为:
所述动态奖励函数采用如下公式计算:
其中,σ为调整参数。
优选的,所述步骤4中,所述计算每个学习者的学习收益值包括以下子步骤:
步骤4.1、学习者i参与length(interact{i})+1个群体的博弈,所述length(interact{i})+1个群体包括以学习者i自身为中心的群体、以及以与学习者i博弈交互的邻居学习者为中心的群体;
其中,length(interact{i})表示学习者i博弈交互的邻居学习者的个数;
若学习者i选择进行知识共享,则学习者i在每个群体中均投入1/(length(interact{i})+1)的知识量;若学习者i选择不进行知识共享,则投入的知识量为0;
每轮博弈过程中,所有学习者同时做出是否进行知识共享的决定;
步骤4.2、计算学习者i参与每个群体的博弈中获得的收益,采用如下公式计算:
其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=int eract{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;
根据学习者i参与的所有群体的博弈中获得的收益,得到学习者i获得的累计收益,表示为:
其中,Ui表示学习者i获得的学习收益值。
优选的,所述步骤6包括以下子步骤:
步骤6.1、采用轮盘赌算法,计算候选学习对象j*作为学习对象的概率为:
其中,表示候选学习对象的集合,/>表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益;
步骤6.2、基于选中的所述学习对象,根据费米动力学规则进行策略更新,表示为:
其中,表示候选学习对象j*的策略,si表示学习者i的策略,n表示噪音。
优选的,所述步骤7中,根据更新的策略计算得到动态奖励值的具体实现方式为:获取更新后完全知识共享者D、有条件知识共享者C和拒绝知识共享者S在群体中的比例x1、x2、x3,将其带入动态奖励函数rd,得到动态奖励值。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
在发明中,提供的一种基于演化博弈的在线知识共享动态奖励方法首先根据学习者的知识共享记录信息,获得学习者的信誉值;针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;定义博弈策略和收益矩阵,确定动态奖励函数;然后在每一轮博弈中,计算每个学习者的学习收益值;针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;通过赌轮盘算法和费米动力学规则进行策略更新;最后根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。本发明通过合理设置动态奖励函数,达到了在给予学习者激励的基础上能够尽量地减少平台的开销的技术效果,能够实现平台和在线学习者之间双赢。
附图说明
图1是本发明提供的一种基于演化博弈的在线知识共享动态奖励方法的流程图;
图2是本发明提供的一种基于演化博弈的在线知识共享动态奖励方法中学习者收益计算的流程图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
在线学习平台中的学习者的学习行为被分为三部分:分别是发帖、评论和浏览(此处暂不考虑评论行为)。发帖代表着进行知识共享行为,浏览代表不进行知识共享。每个学习者的学习记录由平台记录,根据每个在线学习和加入平台进行操作开始产生,为其第一次交互,根据记录的数据判断学习者的身份。若记录的数据中都是进行发帖行为,则该学习者为完全知识共享者D(Dedicated knowledge sharers,无论对方做任何决策,该学习者都会选择输出知识,由此可见其信誉值较高,一般与其交互操作次数相同),若都是浏览行为,则该学习者为拒绝知识共享者S(Selfish knowledge sharers,无论对方做任何决策,该学习者都会选择拒绝输出知识,由此可见其信誉值会较低,一般为0),其余情况的行为为有条件知识共享者C(Conditional knowledge sharers,这类学习者只为完全写作者和有条件协作者输出知识,拒绝绝对利己者发出的知识需求,有条件协作者通过平台查询交互对象历史行为对对方做出判断)。在线学习者陆续加入平台中,交互的对象需要进行相应的更新变化。此外学习平台需要进行划分不同的领域,只有在同一领域的学习者才有可能会进行交互。
本实施例提供了一种基于演化博弈的在线知识共享动态奖励方法,参见图1,包括以下步骤:
步骤1、根据在线学习者进行知识共享的次数,确定在线学习者的信誉值。
步骤2、根据信誉值选择在学习者设定的趋同范围内的在线学习者作为博弈交互对象。
具体的,步骤2包括以下子步骤:
步骤2.1:设趋同范围为A;对于每一位在线学习者都可以随机设置该范围的大小,趋同范围A采用以下方式获得:
A=test*(rand(1,N))
其中,test代表测试常数,rand函数生成随机数值,N表示当前的在线学习者的人数。
步骤2.2:设cha表示在线学习者们之间的信誉差,通过比较cha和A的大小,来决定是否该学习者有机会与目标学习者交互。
设学习者i设定的趋同范围为A,学习者i的信誉值为a,学习者i的邻居学习者j的信誉值为b。
cha=abs(b-a)(abs函数是用于求绝对值的函数,即学习者i选择交互对象的信誉值需要在范围[a-A,a+A]之间)。
在此区间内的学习者j将会有机会与学习者i进行交互。
步骤3、通过复制动力学确定动态奖励函数。
具体的,步骤3包括以下子步骤:
步骤3.1、由于复制动力学只适用于分析无限大均匀混合种群的演化过程,所以在此需要将网络拓扑引入适应度的考量中。
修改后的复制动力学方程为:
其中,表示描述策略的预期比例随时间的变化;xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例,x1、x2、x3三者均大于等于0,且相加为1;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
原复制动力学方程为:
步骤3.2、根据修改后的复制动力学方程,计算出三种策略对应的fi+gi(本部分是代替了原复制动力学方程中的fi项),fi+gi部分作为一个整体是评价具有空间结构的群体中策略适应度(即策略生命力、稳健性)的关键性指标。其公式为:
其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项。
步骤3.3、若发生一次共享行为,则对进行知识共享的在线学习者给予奖励,并计算收益矩阵。
由于网络结构,计算适应度所依据的收益矩阵将会发生变化,变换后的收益矩阵A*如下:
其中,Cad表示有条件知识共享者查询信息的额外损失(即有条件知识共享者为了判断交互对象的下一步行为,需要通过平台查询相关信息所需要付出的额外时间花费);λ表示交互后的收益,μ是进行共享行为的成本,rd表示奖励值,k表示网络平均度。
步骤3.4、为了达到促进学习者知识共享行为的效果,只要符合f1+g1>f2+g2>f3+g3(条件一)或者f2+g2>f1+g1>f3+g3(条件二)这两种期望就可以确保学习者向知识共享方向演化。找到使得f2+g2>f1+g1,f1+g1>f3+g3或者f1+g1>f2+g2,f2+g2>f3+g3成立的临界条件,得到以下式子:
步骤3.5、根据临界条件设置动态奖励函数。
由于平台无法预知和控制有条件知识共享者查询信息的额外损失Cad具体值,执行固定奖励时存在局限性,且群体在演化过程中各策略比例也不断在变化,能够有效激励学习者协作的奖励值大小的阈值也在不断发生着变化,为了能够确保有效激励同时节省平台奖励开销,考虑将奖励值rd设为动态奖励函数,只需确保奖励值rd大于演化阈值,满足临界条件,就可以有效促进在线学习者进行知识共享,从而降低平台奖励成本。具体的,动态奖励函数设置为:
其中,σ为调整参数。
σ>0,为一个较小数,以确保演化过程中步骤3.4中的临界条件中关于rd的不等式一直成立,保证rd值恒大于演化阈值,使得群体一定往知识共享方向演化,动态奖励值随着策略比例的动态变化而不断调整。
例如,如当Cad=0.075,λ=1.2,k=6时,可将σ设定为0.2。
步骤4、使用公共品博弈收益计算方式计算在线学习者的收益。
具体的,参见图2,步骤4包括以下子步骤:
步骤4.1、根据在线学习者的信誉值,可将学习者分为完全知识共享者、拒绝知识共享者和有条件知识共享者。三类学习者的判别方法如下:
学习者的信誉值为该学习者的交互次数(即博弈次数),则可判定为完全知识共享者;学习者的信誉值为0,则可判定为拒绝知识共享者;学习者的信誉值在[0,t](t表示学习者的交互次数),则可判定为有条件知识共享者。
步骤4.2、根据在线学习者目前的策略选择知识共享的投入知识量,在线学习者i参与以自身为中心和以步骤2中所选出来的交互对象为中心的总共length(interact{i})+1个群体的博弈(其中length(interact{i})指的是与学习者i博弈交互的邻居学习者的个数)。
如果在线学习者i选择进行知识共享,则在线学习者i在每个群体中都投入1/(length(interact{i})+1)的知识量,总投入I=1;
如果在线学习者i选择不进行知识共享,则投入I=0。
每轮博弈过程中所有学习者同时做出决定。
步骤4.3、每个群体(这个群体指的是在某些相关领域中的人)中获取的知识量为该群体中所有进行知识共享的学习者累计投入的知识量总和,将总知识量乘以r倍(r表示增益系数)再平均分配给该群体中的每一个学习者(包括没有进行知识共享的学习者,即没有投入者),根据这样的收益分配原则,在线学习者i参与以邻居j为中心的群体博弈可获得的收益为:
其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=interact{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;
在线学习者i获得的累计收益Ui为它从所参加的所有群体的博弈中获得的收益之和,表示为:
其中,Ui表示学习者i获得的学习收益值。
具体收益计算方式如下:
如果学习者i为完全知识共享者,则学习者i在这轮的博弈的平均收益P为:
其中,count1、count2、count3分别为完全知识共享者的数量、有条件知识共享者的数量和拒绝知识共享者的数量,λ为知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,length(m)为学习者i的博弈对象数量。
如果学习者i为有条件知识共享者,则学习者i在这轮的博弈的平均收益P为:
其中,Cad表示的是有条件知识共享者查询信息的额外损失;
如果学习者i为拒绝知识共享者,则学习者i在这轮博弈的平均收益P为:
步骤5、每个在线学习者自定义一个收益期望值。
步骤6、针对每一个在线学习者,寻找大于其收益期望值的其他在线学习者。
步骤7、通过赌轮法和费米动力学进行策略更新,再进入下一轮博弈。
具体的,步骤7包括以下子步骤:
步骤7.1、步骤6中已经记录好了期望值符合条件的其他在线学习者,为保证公平,防止符合条件的收益较少的在线学习者被直接淘汰,因此采用轮盘赌算法。依据轮盘赌算法原理,符合条件的在线学习者j*作为被选学习对象的概率为:
其中,表示候选学习对象的集合,/>表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益。
比如,候选学习对象有a,b,c三位,则record=a,b,c,U表示的是学习收益;Ua表示学习者a的学习收益,Ub表示学习者b的学习收益,Uc表示的是学习者c的学习收益。
步骤7.2、选中好对象以后,根据费米动力学规则进行策略更新:
其中,表示候选学习对象j*的策略,si表示学习者i的策略,n为噪音。优选的,n取0.1。
若没有收益大于其收益期望值的邻居,则该在线学习者的策略保持不变。
步骤8、根据此前步骤得出的数据,即三种策略的学习者在群体中分别的比例,将其带入动态奖励函数rd,得出比较适合的奖励值,用于平台给在线学习者进行知识共享的奖励作参照。
本发明实施例提供的一种基于演化博弈的在线知识共享动态奖励方法至少包括如下技术效果:
1.根据信誉值选择符合条件的在线学习者作为博弈对象,这种做法能够模拟实际的学习场景中,学习者选择性的只与部分人进行交互。
2.采用复制动力学来确定动态奖励函数,这种方式更加简单并且能更好的描述演化的过程,只需要比较各个策略的适应度找到每个结果的临界点即可。
3.定义期望选出学习其他学习者的范围,这种做法是源于学习者的择优心理,其他学习者的选择偏好对于知识共享行为的涌现是起到重要作用的。择优心理往往会促使学习者倾向于将部分学习方法或效果不好的人淘汰掉。
4.采用赌轮法进行策略更新部分,这种做法能够保证优秀的学习者被选中的概率会更大。
5.合理设置动态奖励函数,能够尽可能的减少平台的开销,达到平台和在线学习者之间双赢。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于演化博弈的在线知识共享动态奖励方法,其特征在于,包括以下步骤:
步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;
步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;
步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;
步骤4、在每一轮博弈中,计算每个学习者的学习收益值;
步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;
步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;
步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。
2.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤2中,所述趋同条件信息为趋同范围,采用如下公式计算:
A=test*(rand(1,N))
其中,A表示趋同范围,test表示测试常数,rand函数生成随机数值,N表示当前在线的学习者的人数;
通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值,得到趋同范围内邻居学习者的集合。
3.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤3中,根据学习者的信誉值,将在线学习平台中的学习者分为三个群体,分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S;
所述博弈策略包括第一种策略、第二种策略、第三种策略;所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略;
所述第一种策略为:无论对方做出何种决策,该学习者都进行知识共享;所述第二种策略为:基于对方学习者的信誉值,该学习者判断是否进行知识共享;所述第三种策略为:无论对方做出何种策略,该学习者都不进行知识共享;
该学习者每进行一次知识共享,则在线学习平台对该学习者给予奖励;
所述收益矩阵A*为:
其中,λ表示进行知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,Cad表示有条件知识共享者查询信息的额外损失,k表示网络平均度。
4.根据权利要求3所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,通过修改后的复制动力学方程确定所述动态奖励函数;
所述修改后的复制动力学方程为:
其中,表示描述策略的预期比例随时间的变化,xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
fi+gi作为评价策略适应度的指标,fi+gi采用如下公式计算:
其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项;
设置临界条件,根据临界条件设置所述动态奖励函数;
所述临界条件定义为:满足f2+g2>f+g1>f3+g3或者f1+g1>f2+g2>f3+g3,且Cad>0;
设μ=1,所述临界条件表示为:
所述动态奖励函数采用如下公式计算:
其中,σ为调整参数。
5.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤4中,所述计算每个学习者的学习收益值包括以下子步骤:
步骤4.1、学习者i参与length(interact{i})+1个群体的博弈,所述length(interact{i})+1个群体包括以学习者i自身为中心的群体、以及以与学习者i博弈交互的邻居学习者为中心的群体;
其中,length(interact{i})表示与学习者i博弈交互的邻居学习者的个数;
若学习者i选择进行知识共享,则学习者i在每个群体中均投入1/(length(interact{i})+1)的知识量;若学习者i选择不进行知识共享,则投入的知识量为0;
每轮博弈过程中,所有学习者同时做出是否进行知识共享的决定;
步骤4.2、计算学习者i参与每个群体的博弈中获得的收益,采用如下公式计算:
其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=int eract{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;
根据学习者i参与的所有群体的博弈中获得的收益,得到学习者i获得的累计收益,表示为:
其中,Ui表示学习者i获得的学习收益值。
6.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤6包括以下子步骤:
步骤6.1、采用轮盘赌算法,计算候选学习对象j*作为学习对象的概率为:
其中,表示候选学习对象的集合,/>表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益;
步骤6.2、基于选中的所述学习对象,根据费米动力学规则进行策略更新,表示为:
其中,表示候选学习对象j*的策略,si表示学习者i的策略,n表示噪音。
7.根据权利要求4所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤7中,根据更新的策略计算得到动态奖励值的具体实现方式为:获取更新后完全知识共享者D、有条件知识共享者C和拒绝知识共享者S在群体中的比例x1、x2、x3,将其带入动态奖励函数rd,得到动态奖励值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011002274.6A CN112182485B (zh) | 2020-09-22 | 2020-09-22 | 一种基于演化博弈的在线知识共享动态奖励方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011002274.6A CN112182485B (zh) | 2020-09-22 | 2020-09-22 | 一种基于演化博弈的在线知识共享动态奖励方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182485A CN112182485A (zh) | 2021-01-05 |
CN112182485B true CN112182485B (zh) | 2023-08-18 |
Family
ID=73957122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011002274.6A Active CN112182485B (zh) | 2020-09-22 | 2020-09-22 | 一种基于演化博弈的在线知识共享动态奖励方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182485B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724096B (zh) * | 2021-08-17 | 2023-09-15 | 华中师范大学 | 一种基于公共品演化博弈模型的群体知识共享方法 |
CN114844789B (zh) * | 2022-04-20 | 2023-05-26 | 华中师范大学 | 一种基于演化博弈模型的社区知识共享评估方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858966A (zh) * | 2019-01-30 | 2019-06-07 | 大连理工大学 | 一种基于演化博弈的促进网络社区的合作方法 |
CN111224966A (zh) * | 2019-12-31 | 2020-06-02 | 中国人民解放军战略支援部队信息工程大学 | 基于演化网络博弈的最优防御策略选取方法 |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11093829B2 (en) * | 2017-10-12 | 2021-08-17 | Honda Motor Co., Ltd. | Interaction-aware decision making |
-
2020
- 2020-09-22 CN CN202011002274.6A patent/CN112182485B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858966A (zh) * | 2019-01-30 | 2019-06-07 | 大连理工大学 | 一种基于演化博弈的促进网络社区的合作方法 |
CN111224966A (zh) * | 2019-12-31 | 2020-06-02 | 中国人民解放军战略支援部队信息工程大学 | 基于演化网络博弈的最优防御策略选取方法 |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
不完全信息条件下企业内部知识共享的演化博弈分析;陈永清;;科技管理研究(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112182485A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koster et al. | Human-centred mechanism design with Democratic AI | |
Hackel et al. | Reinforcement learning in social interaction: The distinguishing role of trait inference | |
Biele et al. | Computational models for the combination of advice and individual learning | |
CN112182485B (zh) | 一种基于演化博弈的在线知识共享动态奖励方法 | |
Loch et al. | The microevolution of routines: How problem solving and social preferences interact | |
CN108038622B (zh) | 一种群智感知系统推荐用户方法 | |
JP2012099135A (ja) | グループのデザインプレファレンスの決定 | |
Smirnov et al. | The behavioral logic of collective action: Partisans cooperate and punish more than nonpartisans | |
Dai et al. | Learning in multi-stage decentralized matching markets | |
Daylamani-Zad et al. | Lu-Lu: A framework for collaborative decision making games | |
Lin et al. | Competitive diffusion in signed social networks: A game-theoretic perspective | |
Landfried et al. | Faithfulness-boost effect: Loyal teammate selection correlates with skill acquisition improvement in online games | |
Song et al. | Non-exclusive group contests: An experimental analysis | |
Angelovski et al. | Behavioral spillovers in local public good provision: An experimental study | |
Howard | A check for rational inattention | |
Chen et al. | Decentralized matching and social segregation | |
Gesiarz et al. | The motivational cost of inequality: Opportunity gaps reduce the willingness to work | |
Seçilmiş et al. | Income heterogeneity in the voluntary provision of dynamic public goods | |
Alger et al. | Estimating social preferences and kantian morality in strategic interactions | |
Chattoe et al. | A simulation of adaptation mechanisms in budgetary decision making | |
Fujita | Automated negotiating agent with strategy adaptation for multi-times negotiations | |
Rose et al. | An experimental investigation of the explosive effect in almost common value auctions | |
Czupryna et al. | A Matter of Values: On the Link Between Economic Performance and Schwartz Human Values | |
Safra et al. | Social motivation is associated with increased weight granted to cooperation-related impressions in face evaluation tasks | |
Güth et al. | The dynamics of trustworthiness among the few |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |