CN116976708A - 多智能体的数据评估决策方法、装置、设备及介质 - Google Patents

多智能体的数据评估决策方法、装置、设备及介质 Download PDF

Info

Publication number
CN116976708A
CN116976708A CN202311235316.4A CN202311235316A CN116976708A CN 116976708 A CN116976708 A CN 116976708A CN 202311235316 A CN202311235316 A CN 202311235316A CN 116976708 A CN116976708 A CN 116976708A
Authority
CN
China
Prior art keywords
agent
data
coring
experience pool
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311235316.4A
Other languages
English (en)
Inventor
王络
方宝富
唐丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202311235316.4A priority Critical patent/CN116976708A/zh
Publication of CN116976708A publication Critical patent/CN116976708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Robotics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多智能体的数据评估决策方法、装置、设备及介质,包括:基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;基于进取程度构建第二经验池;采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;输出强化学习结果,作为多智能体的数据评估决策结果,实现通过借鉴情感对于决策的作用提出基于进取心的多智能体强化学习算法,通过进取心对数据优劣的衡量得出数据的价值评判,提高多智能体数据评估决策的精准程度。

Description

多智能体的数据评估决策方法、装置、设备及介质
技术领域
本发明涉及数据处理领域,尤其涉及一种多智能体的数据评估决策方法、装置、设备及介质。
背景技术
多智能体,一般专指多智能体系统(MAS, Multi-AgentSystem)或多智能体技术(MAT, Multi-Agent Technology)。多智能体系统是分布式人工智能(DAI,DistributedArtificial Intelligence)的一个重要分支,它的研究涉及智能体的知识、目标、技能、规划以及如何使智能体采取协调行动解决问题等。强化学习是机器学习的方法论之一,智能体通过与环境的交互学习策略以实现累计收益最大化从而学习完成目标任务的最优策略。强化学习因其高效的学习能力和强大的决策能力现已成为机器学习中最热门的研究领域之一,广泛应用于交通控制、机器人车队协调、游戏博弈、无人机对抗等领域。在强化学习过程中智能体通过与环境交互获得给予的奖励作为反馈,指导智能体进行策略学习,而在多智能体系统中,智能体往往需要经历一系列复杂行为才能获得一个所有智能体共用的全局奖励,对于中间过程只有很少的奖励或没有额外的奖励反馈,使得在学习过程中奖励十分稀疏,无法对策略的学习进行有效的指导,从而使得智能难以学习到有效策略,这就是稀疏奖励造成的学习低效问题。样本对于学习十分重要,一个优秀的样本集有利于任务的完成,在稀疏奖励场景下对于数据的优劣难以判别,无法对数据进行合理采样,使得数据利用率低下,导致智能体学习效率低下。因此,在强化学习中对于稀疏奖励下的学习低效问题的研究十分有必要。
现有方式中,Lowe提出了MADDPG(Multi-Agent Deep Deterministic PolicyGradient)算法,该算法是DDPG(Deep Deterministic Policy Gradient)在多智能体系统中的扩展,采用集中训练分散执行(Centralized Training With DecentralizedExecution, CTDE)的方式,在训练时每个智能体的Critic都需要所有智能体的观测信息和动作信息,但在执行时只由每个智能体的Actor网络依据局部信息就能进行动作选择。Cheng等提出了CLUB(Contrastive Log-Ratio Upper Bound)算法通过近似互信息上界用于最小化互信息,使得互信息的复杂计算得到了简化,通过神经网络的引入和采样进行近似分布使得互信息的计算得以快速实现。
现有方式中,Joost等通过后悔情绪来表示智能体在采取替代行动时会获得更高的奖励回报,这种消极情绪是由时序差分(Temporal Difference,TD)误差评估的一种特殊形式模拟的。后悔强度被建模为调整后新的最佳行动和旧的最佳行动之间的差异,反映了如果选择了该替代方案,可能收到的额外奖励回报。Gao等提出了一种以幸福感作为内在动机强化学习的方法,其中幸福感分为两种:瞬时幸福感和长期幸福感,其奖励函数为这两种幸福感的线性组合,瞬时奖励由当前动作状态下与环境交互获得的重要情感回报表示,智能体根据当前的瞬时幸福度、其在若干周期内对过去瞬时幸福度的记忆以及幸福度上升和下降速率来计算智能体的长期幸福感。通过平衡这两种幸福感为环境中的一系列决策提供灵活的内在指导。Broekens等通过时序差分误差对智能体的情感进行评估,情感包括快乐和悲伤、希望和恐惧,通过与先前预期相比,情况变得更好或更糟的程度来反映不同的情感,智能体选择一个动作,并最终进入下一个状态,导致时序差分误差值的正负来衡量快乐和悲伤,对于下一状态预测与当达到该状态时触发时序差分误差值的正负来衡量希望和恐惧,鼓励积极情绪惩罚消极情绪从而指导智能体学习。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:上述方法,可以在强化学习中衡量智能体的情感,通过智能体情感作为反馈来指导智能体学习,但是上述算法仅适用于简单离散场景,难以泛化到复杂连续场景内,缺乏通用性,因而,面对复杂连续场景,现有方式难以对多智能体涉及的数据做出准确的评估,进而进行准确地决策,导致数据评估决策精准度不高。
发明内容
本发明实施例提供一种多智能体的数据评估决策方法、装置、计算机设备和存储介质,以提高数据评估决策的精准度。
为了解决上述技术问题,本申请实施例提供一种多智能体的数据评估决策方法,包括:
基于第一经验池训练进取心模型,并根据所述进取心模型确定进取程度,其中,所述进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;
基于所述进取程度构建第二经验池;
采用所述第二经验池对所述多智能体进行强化学习,并将强化学习结果输入到所述第一经验池;
返回所述基于第一经验池训练进取心模型,基于所述进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;输出强化学习结果,作为所述多智能体的数据评估决策结果。
可选地,所述进取心模型包括神经网络模块、正面经验池D+、负面经验池D-、挫败感模块、成就感模块和综合加权模块;其中,
所述正面经验池D+和所述负面经验池D-分别用来存储正面数据和负面数据,如果回合奖励满足,则将轨迹存储在正面经验池/>中,其中/>为正面经验池中最小奖励值,/>为所有回合奖励的平均值;如果回合奖励满足/>,则将轨迹存储在负面经验池/>中;
所述神经网络模块用于对数据分布进行拟合。
可选地,所述根据所述进取心模型确定进取程度包括:
根据全局状态与联合动作之间的互信息,确定智能体的成就感
采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
基于所述成就感和所述挫败感确定进取程度
可选地,所述根据全局状态与联合动作之间的互信息,确定智能体的成就感包括:
使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,所述互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
可选地,所述基于所述进取程度构建第二经验池包括:
根据所述进取程度的排序,确定数据i的等级rank(i);
采用如下公式确定进行状态转移时数据的优先级:
其中,是状态转移时数据/>的优先级;
采用如下方式进行数据抽样:
其中,为数据i被抽中的概率,指数/>决定了优先级的权重,/>时表示采用均匀采样的方式。
为了解决上述技术问题,本申请实施例还提供一种多智能体的数据评估决策装置,包括:
进取程度确定模块,用于基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;
第二经验池构建模块,用于基于进取程度构建第二经验池;
强化学习模块,用于采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;
迭代训练模块,用于返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;
结果输出模块,用于输出强化学习结果,作为多智能体的数据评估决策结果。
可选地,所述进取程度确定模块包括:
成就感确定单元,用于根据全局状态与联合动作之间的互信息,确定智能体的成就感
挫败感确定单元,用于采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
进取程度确定单元,用于基于成就感和挫败感确定进取程度
可选地,所述成就感确定单元包括:
互信息估计子单元,用于使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
成就感计算子单元,用于采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
可选地,所述第二经验池构建模块包括:
数据等级确定单元,用于根据进取程度的排序,确定数据i的等级rank(i);
优先级计算单元,用于采用如下公式确定进行状态转移时数据的优先级:
其中,是状态转移时数据/>的优先级;
数据抽样单元,用于采用如下方式进行数据抽样:
其中,为数据i被抽中的概率,指数/>决定了优先级的权重,/>时表示采用均匀采样的方式。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多智能体的数据评估决策方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多智能体的数据评估决策方法的步骤。
本发明实施例提供的多智能体的数据评估决策方法、装置、计算机设备及存储介质,通过基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;基于进取程度构建第二经验池;采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;输出强化学习结果,作为多智能体的数据评估决策结果,实现通过借鉴情感对于决策的作用提出基于进取心的多智能体强化学习算法,通过进取心对数据优劣的衡量得出数据的价值评判,提高多智能体数据评估决策的精准程度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的多智能体的数据评估决策方法的一个实施例的流程图;
图3是本申请一个进取心模型的结构示例图;
图4是根据本申请的多智能体的数据评估决策装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的多智能体的数据评估决策方法由服务器执行,相应地,多智能体的数据评估决策装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种多智能体的数据评估决策方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果。
在一具体可选实施方式中,进取心模型包括神经网络模块、正面经验池D+、负面经验池D-、挫败感模块、成就感模块和综合加权模块;其中,
正面经验池D+和负面经验池D-分别用来存储正面数据和负面数据,如果回合奖励满足,则将轨迹存储在正面经验池/>中,其中/>为正面经验池中最小奖励值,/>为所有回合奖励的平均值;如果回合奖励满足/>,则将轨迹存储在负面经验池/>中;
神经网络模块用于对数据分布进行拟合。
具体地,进取心模型如图3所示,为了衡量多智能体当前的动作状态与数据分布之间的相关性程度,将其定义为全局状态与联合动作/>之间的互信息,表示在一定数据样本中计算联合动作/>与当前状态/>的相关性/>可以作为智能体之间协作的量化度量,可以通过优化来激励智能体增强或破坏不同的联合行为。
通过两个经验池中的数据,我们可以通过神经网络拟合数据分布,成就感是衡量智能体当前的状态动作对与正面经验池中的正面数据之间相关性,并在训练过程中最大化成就感以促进智能体朝着优秀方向进行,因此使用MINE估计/>并用于最大化。具体公式如下所示:
其中为状态-行为联合分布,/>和/>为边缘分布。通过对正面经验池/>中的状态动作对/>,/>联合取样,对/>单独取样以此来估计所需概率分布。/>是一个带参数的神经网络,该神经网络用作函数估计器/>,网络输入为状态/>和联合动作/>,输出一个常量,除此之外我们可以使用/>和/>的样本来估计公式中的期望,并且不再需要直接计算的概率。通过上述公式,得到的互信息/>值基于正面经验池中数据的分布,因此对于该值表示为在正面经验池中样本的分布情况下,当前状态与联合动作的相关性,隐含了当前状态动作对与正面经验池中数据的相关性。
挫败感用于衡量智能体当前的状态动作对与负面经验池中负面数据之间的相关性,在训练过程中需要最小化挫败感以使得智能体远离低劣方向,通过CLUB估计值并将其用于最小化。具体公式如下所示:
其中,是一个参数为/>的神经网络,用于近似条件分布。对于联合概率和边缘概率的计算是通过对负面经验池/>中的状态动作对/>,/>联合取样,对/>单独取样以此来估计所需概率分布。通过上述公式,得到的互信息/>值基于负面经验池中数据的分布,因此对于该值表示为在负面经验池中样本的分布情况下,当前状态与联合动作的相关性,隐含了当前状态动作对与负面经验池中数据的相关性。
进取心驱动智能体不断向优秀行为靠近并远离低劣行为,因此可以将进取心定义为当前的状态动作对与优秀数据的相关程度及与低劣数据的不相关程度,即时刻的进取心/>定义为成就感与挫败感的差值:
其中表示智能体在状态/>下采取动作/>获得的成就感,也是当前状态动作对与正面经验池中数据的相关性程度,/>表示智能体在状态/>下采取动作/>,获得的挫败感,表示当前状态动作对与负面经验池中数据的相关性程度,/>表示/>时刻采取动作/>的进取程度。
为了最大化进取心,我们应最大化成就感的同时最小化挫败感,因此需要最大化与正面经验池中数据的相关性加大智能体成就感的获取的同时最小化与负面经验池中数据的相关性减少挫败感的获取,将损失函数定义为:
在本实施例的另一具体可以实施方式中,根据进取心模型确定进取程度包括:
根据全局状态与联合动作之间的互信息,确定智能体的成就感
采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
基于成就感和挫败感确定进取程度
具体地,心理学认为进取心是一种不满足于现状、不断追求进步、积极向上的心理状态。如果智能体没有进取心,智能体的学习将会停滞不前。进取心可以驱动智能体发展,促进智能体不断靠近优秀方向、远离低劣的方向,从而不断驱动学习取得进步。
成就感是智能体完成一件事或做出一个行为后,为自己感到自豪的感觉,往往当智能体的行为符合或相似于优秀行为,或得到一个优秀的结果时产生,因此,我们将成就感定义为与成功行为的相关性,但是对于优秀行为的枚举十分耗时,而抽样又不具有准确性,因此我们通过当前行为与成功行为分布之间的相关性来衡量成就感。互信息往往是衡量数据相关性的重要指标,并且对于互信息的计算需要数据分布,因此可以通过全局状态与联合动作/>之间的互信息来定义成就感。
相似的,挫败感与成就感相对,当智能体的行为符合或相似于低劣行为,或产生一个失败后果时,智能体会产生挫败感,这种负面情绪会阻碍智能体的学习,通过与低劣行为分布的相关性表示挫败感,挫败感定义。
基于进取心的推动,使得智能体不断进取,逐步靠近优秀目标远离差劣的结果,因此智能体应在学习过程中最大化正面情绪成就感,最小化负面情绪挫败感,故将进取心定义为两种情绪之差,得到进取程度的评价。
在本实施例的另一具体可以实施方式中,根据全局状态与联合动作之间的互信息,确定智能体的成就感包括:
使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
具体地,互信息作为信息论的核心量之一,它代表着两个随机变量之间的相关或依赖程度,在数据科学中是一种应用广泛的度量标准。互信息使用基于香农熵的方法来衡量衡量随机变量与/>之间的依赖关系,因此互信息的定义为:
和/>之间的互信息可以理解为在给定/>时变量/>中所减少的不确定性,其中是香农熵,/>是给定/>的情况下/>的条件熵。
一般来说,互信息的计算十分困难,因为我们无法得知和/>的真实分布,只有一些样本点,因此需要找到一种方法估计互信息。Belghazi等提出了MINE(MutualInformation Neural Estimation)算法,可以通过神经网络来最大化互信息,将KL散度表示为一个表达式的上确界。
其中表示一个从采样空间/>映射到实数R的函数,可以通过神经网络实现。除此之外还需要一种方法求出期望,MINE通过对样本进行采样作为期望的估计。在采样个样本下,互信息的估计可以表示为:
进一步地,采用梯度上升使互信息的估计逼近其上界,从而最大化X和Z的互信息。MINE可以计算出互信息下界,用于最大化互信息,但在某些场景中需要互信息上界的计算用于最小化互信息,因此对于上界的估计也有意义。
Cheng等提出了CLUB(Contrastive Log-Ratio Upper Bound)算法通过近似互信息上界用于最小化互信息,具体计算公式为:
与MINE相似,CLUB算法中对于互信息的计算也是通过神经网络近似得到,概率分布通过采样获得,具体公式为:
使得互信息的复杂计算得到了简化,通过神经网络的引入和采样进行近似分布使得互信息的计算得以快速实现。
S202:基于进取程度构建第二经验池。
在一具体可选实施方式中,基于进取程度构建第二经验池包括:
根据进取程度的排序,确定数据i的等级rank(i);
采用如下公式确定进行状态转移时数据的优先级:
其中,是状态转移时数据/>的优先级;
采用如下方式进行数据抽样:
其中,为数据i被抽中的概率,指数/>决定了优先级的权重,/>时表示采用均匀采样的方式。
其中,进取程度通过智能体在状态下采取动作/>的进取程度作为评价数据转换的优先值,以此促进具有高进取心的状态转换行为可以被多次访问,提高优秀数据的利用,减少对低劣数据的学习,从而促进智能体向成功方向迈进,促进智能体的学习。
贪婪地按照优先级顺序抽样会使得采样到的数据集中于经验的一个小子集:并且在更新时会频繁出现,当使用函数逼近时,这种缺乏多样性数据的采样方式使得函数容易过度拟合,从而影响学习效率以至于难以学习到有效策略。
因此,使用一种依概率的抽样方法,在纯贪婪优先级和均匀随机抽样之间进行折中处理。在保证优先级越高的数据越容易采样的前提下,确保即使对优先级最低的数据也会进行非零概率采样。
S203:采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池。
具体地,基于进取心机制,本实施例将数据优先级考虑在内,通过将基于进取心的优先经验池机制与多智能体深度确定性策略梯度算法结合,在每一回合中,智能体与环境交互,并将轨迹样本存储到经验重放中,轨迹根据其返回值被添加到额外的正面经验池或负面经验池/>中用于计算。通过计算多智能体当前的进取心程度作为该状态转换的优先值,并将抽样概率存储到经验池/>中。每k步,对智能体算法更新时使用基于进取心的优先级依概率抽样进行训练,加速智能体的学习速度和数据样本的利用率。
Critic通过全局状态和所有智能体的联合动作/>估计联合动作值函数/>,/>为Critic网络的参数,该参数通过将损失函数最小化的方式进行更新,损失函数公式如下所示:
(18)
其中,,/>表示目标网络,此时可以通过拟合逼近获得其他智能体的策略。/>是智能体/>收到的外在奖励,/>是智能体的目标策略集合,/>是目标评论家网络/>的参数。
MAI通过单独计算以下的策略梯度来更新每个智能体的策略
S204:返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件。
其中,预设的拟合条件具体可以是训练次数,也可以是损失值小于固定阈值,具体可根据实际应用需要进行设定。
S205:输出强化学习结果,作为多智能体的数据评估决策结果。
本实施例的实验环境为多智能体追捕场景,通过设计三种不同场景的追捕场景来验证MAI算法对于数据利用率的提升以及算法性能的提升,将MAI与多种基线方法进行了比较,在追捕成功率和追捕所需时间步上始终显示出超过基线算法的性能。下面,我们首先介绍环境和基线方法,然后展示在不同的场景中不同方法的性能对比。
A)基于进取心的多智能体强化学习算法实验环境
本实施例以多智能体追捕任务为仿真实验场景,环境具体描述为:在一个二维网格中,存在n个逃跑者和m个追捕者,所有智能体可以向任意方向移动,每个智能体的步长为固定值0.1,智能体拥有观测全局的能力,追捕者的追捕范围为自身0.08以内的区域,当追捕者追捕范围内存在逃跑者时,代表该逃跑者被追捕者成功捕获,当所有逃跑者均被追捕到或达到最大步数时回合结束。
B)对比算法与评价指标
由于本文算法通过互信息来计算进取心,以此衡量数据优先级,并构建优先经验池使得数据依据优先级进行采样用于网络更新的方式,故为证明本文所提出算法的优越性,将MAI算法与以下算法进行对比:MADDPG算法,采用CTDE的经典多智能体强化学习算法;PER算法,使用时序差分误差作为数据优先级的方式对数据进行有选择的采样用于网络更新;EITI算法,采用互信息的方法来衡量多智能体之间的影响,以此作为内在奖励促进智能体协作。
每组实验的性能指标为追捕成功率和收敛所需步数两个方面。为保证实验的公平性,每个回合的最大步数为200,使用的神经网络均为MLP,折扣因子为0.9,学习率为0.001。通过对无关参数的固定来确保实验的公平性,从而更加合理地显示出算法的性能。
实验场景一设置追捕者数目为3,逃跑者数目为1,目标数目为单个,当追捕者成功捕获到唯一目标时获得一个值为+5的全局奖励,此时任务完成,除此之外,追捕过程中的其他时间步均无法获得奖励。在全局视野下单目标追捕环境中不同算法的性能对比,从实验结果可以看出,我们提出的MAI方法在250回合左右就已经收敛,具有很好的收敛速度,并且追捕成功率接近100%,这是由于基于进取心的优先经验池能够很好的衡量数据的优劣,并通过基于优先级的方式进行采样加速了智能体的收敛速度。PER算法相比于MADDPG算法有所提升,表明内通过具有优先级的更新方式效果优于随机采样更新效果,这是由于具有优先级的采样方式提高了有效数据的利用率,加速了智能体的学习速度。由于具有全局可观测的追捕任务简单,奖励稀疏程度较低,有效数据较多,即使通过随机采样也能获得有效数据,因此对比算法均有极高的追捕成功率,EITI算法的性能高于MADDPG也说明了互信息作为指导是正向且有效的,因此对比算法均有极高的追捕成功率。
实验场景二设置了追捕者数目为3,逃跑者数目为2,为证明算法有效性,增加了追捕目标数量,只有在规定时间步内追捕到所有逃跑者时追捕者才能获得奖励,对于在回合过程中追捕到单个逃跑者不给予额外奖励。因此,相比于实验场景一中的单目标追捕,具有多个目标的实验场景二中奖励的稀疏程度有所提升,同时由于智能体数目的增加,环境状态信息维数增加,强化学习算法的训练难度也有所提升。从实验结果可以看出,MAI与PER相较于MADDPG算法均有明显提升,表明了使用具有优先级的采样方式能提高数据利用率,使得算法在稀疏奖励场景中仍能得到稳健的效果,证明了数据重要性的正确判别与高优先级数据的多次使用对算法性能的正向影响,但是后期PER算法性能下降,由于随着不断的学习时序差分误差逐渐减小,对于数据的优先值逐步减少,因此数据的采样逐渐变为随机采样的方式,无法持续为算法提供动力,而MAI对于数据的优先值并不会随着训练而减小,因此MAI算法在训练后期仍有较好效果。其次,EITI算法使用智能体之间的互信息作为内在奖励驱动了外在奖励稀疏情况下的学习,证明了互信息的使用增强了智能体协作性,从而具有正向指导作用。
相比于单目标的实验,我们的算法和其他基线算法在追捕成功率和收敛步数上的性能均有明显下降。这是由于多目标任务中智能体数目的增多导致神经网络处理的信息量变大,因此智能体训练的难度加强,并且由于实验环境的复杂程度有所提高,目标任务更难以完成,奖励稀疏程度有所增加,使得智能体学习能力有所下降。
实验场景三在单目标追捕的基础上限制智能体的捕获方式。基于3追1的单目标追捕场景,只有当两个及以上的追捕者同时抓到逃跑者时,才算捕获成功,提高了任务的难度,需要智能体直接更加紧密地协作才能完成任务,使得有效数据更加稀少,训练难度更高,稀疏程度相应增加。
由于追捕者任务难度加大,智能体之间所需的协作性相应加强,有效数据更加稀少,使得训练难度大幅度提高,导致算法成功率均大幅下降。由于协作要求的提高,MADDPG在该场景中无法获得有效数据进行学习,使得算法难以快速收敛,MAI、PER、EITI算法相比于MADDPG依旧有所提升,证明了数据的优先级及互信息对于策略学习的正向影响,但是PER算法的性能提升不大是由于PER算法仅关注网络的训练误差,而忽略智能体之间的协作性,因此在协作性较强的场景中性能得不到大幅度的提升,因此无法适用于较为复杂的多智能体环境。EITI对于协作的驱动效果明显,本文的算法在这种情况下能达到较高的成功率,这是由于互信息的使用使得智能体之间的协作得到加强的同时,对于正向数据的正确选择与利用促进了智能体的策略学习,可以使得算法更适用于协作场景中,并且随着网络的训练优先值不会逐步减少,使得智能体学习更稳健。上述结果均反映了在协作场景下本文提出的算法依然具有良好的性能,在不同的实验场景中均能获得良好的效果,因此实验证明本实施例提供的实现方式具有很好的鲁棒性。
本实施例中,基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;基于进取程度构建第二经验池;采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;输出强化学习结果,作为多智能体的数据评估决策结果,实现通过借鉴情感对于决策的作用提出基于进取心的多智能体强化学习算法,通过进取心对数据优劣的衡量得出数据的价值评判,提高多智能体数据评估决策的精准程度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4示出与上述实施例多智能体的数据评估决策方法一一对应的多智能体的数据评估决策装置的原理框图。如图4所示,该分布式环境下基于机器学习的数据修复装置多智能体的数据评估决策装置包括进取程度确定模块31、第二经验池构建模块32、强化学习模块33、迭代训练模块34和结果输出模块35。各功能模块详细说明如下:
进取程度确定模块31,用于基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;
第二经验池构建模块32,用于基于进取程度构建第二经验池;
强化学习模块33,用于采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;
迭代训练模块34,用于返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;
结果输出模块35,用于输出强化学习结果,作为多智能体的数据评估决策结果。
可选地,进取程度确定模块31包括:
成就感确定单元,用于根据全局状态与联合动作之间的互信息,确定智能体的成就感
挫败感确定单元,用于采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
进取程度确定单元,用于基于成就感和挫败感确定进取程度
可选地,成就感确定单元包括:
互信息估计子单元,用于使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
成就感计算子单元,用于采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
可选地,第二经验池构建模块32包括:
数据等级确定单元,用于根据进取程度的排序,确定数据i的等级rank(i);
优先级计算单元,用于采用如下公式确定进行状态转移时数据的优先级:
其中,是状态转移时数据/>的优先级;
数据抽样单元,用于采用如下方式进行数据抽样:
其中,为数据i被抽中的概率,指数/>决定了优先级的权重,/>时表示采用均匀采样的方式。
关于多智能体的数据评估决策装置的具体限定可以参见上文中对于多智能体的数据评估决策方法的限定,在此不再赘述。上述多智能体的数据评估决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如多智能体的数据评估决策方法的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行多智能体的数据评估决策方法的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的多智能体的数据评估决策方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种多智能体的数据评估决策方法,其特征在于,所述多智能体的数据评估决策方法包括:
基于第一经验池训练进取心模型,并根据所述进取心模型确定进取程度,其中,所述进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;
基于所述进取程度构建第二经验池;
采用所述第二经验池对所述多智能体进行强化学习,并将强化学习结果输入到所述第一经验池;
返回所述基于第一经验池训练进取心模型,基于所述进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;
输出强化学习结果,作为所述多智能体的数据评估决策结果。
2.如权利要求1所述的多智能体的数据评估决策方法,其特征在于,所述进取心模型包括神经网络模块、正面经验池D+、负面经验池D-、挫败感模块、成就感模块和综合加权模块;其中,
所述正面经验池D+和所述负面经验池D-分别用来存储正面数据和负面数据,如果回合奖励满足,则将轨迹存储在正面经验池/>中,其中/>为正面经验池中最小奖励值,/>为所有回合奖励的平均值;如果回合奖励满足/>,则将轨迹存储在负面经验池/>中;
所述神经网络模块用于对数据分布进行拟合。
3.如权利要求2所述的多智能体的数据评估决策方法,其特征在于,所述根据所述进取心模型确定进取程度包括:
根据全局状态与联合动作之间的互信息,确定智能体的成就感
采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
基于所述成就感和所述挫败感确定进取程度
4.如权利要求3所述的多智能体的数据评估决策方法,其特征在于,所述根据全局状态与联合动作之间的互信息,确定智能体的成就感包括:
使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,所述互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
5.如权利要求1至4任一项所述的多智能体的数据评估决策方法,其特征在于,所述基于所述进取程度构建第二经验池包括:
根据所述进取程度的排序,确定数据i的等级rank(i);
采用如下公式确定进行状态转移时数据的优先级:
其中,是状态转移时数据/>的优先级;
采用如下方式进行数据抽样:
其中,为数据i被抽中的概率,指数/>决定了优先级的权重,/>时表示采用均匀采样的方式。
6.一种多智能体的数据评估决策装置,其特征在于,所述多智能体的数据评估决策装置包括:
进取程度确定模块,用于基于第一经验池训练进取心模型,并根据进取心模型确定进取程度,其中,进取心模型用于衡量互信息,推动靠近优秀目标远离差劣结果;
第二经验池构建模块,用于基于进取程度构建第二经验池;
强化学习模块,用于采用第二经验池对多智能体进行强化学习,并将强化学习结果输入到第一经验池;
迭代训练模块,用于返回基于第一经验池训练进取心模型,基于进取心模型确定进取程度的步骤继续执行,直到达到预设的拟合条件;
结果输出模块,用于输出强化学习结果,作为多智能体的数据评估决策结果。
7.如权利要求6所述的多智能体的数据评估决策装置,其特征在于,所述进取程度确定模块包括:
成就感确定单元,用于根据全局状态与联合动作之间的互信息,确定智能体的成就感
挫败感确定单元,用于采用如下公式确定智能体的挫败感
其中,s为全局状态,u为联合动作,I i 为低劣行为分布的相关性;
进取程度确定单元,用于基于成就感和挫败感确定进取程度
8.如权利要求7所述的多智能体的数据评估决策装置,其特征在于,所述成就感确定单元包括:
互信息估计子单元,用于使用基于KL散度对偶表示的神经网络方法估计互信息并用于最大化,其中,互信息为在一定数据样本中计算联合动作/>与当前状态/>的相关性,用于表征多智能体当前的动作状态与数据分布之间的相关性程度;
成就感计算子单元,用于采用如下公式确定多智能体的成就感
其中,s为全局状态,u为联合动作,I s 为全局状态与联合动作之间的互信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的多智能体的数据评估决策方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的多智能体的数据评估决策方法。
CN202311235316.4A 2023-09-25 2023-09-25 多智能体的数据评估决策方法、装置、设备及介质 Pending CN116976708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311235316.4A CN116976708A (zh) 2023-09-25 2023-09-25 多智能体的数据评估决策方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311235316.4A CN116976708A (zh) 2023-09-25 2023-09-25 多智能体的数据评估决策方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116976708A true CN116976708A (zh) 2023-10-31

Family

ID=88481836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311235316.4A Pending CN116976708A (zh) 2023-09-25 2023-09-25 多智能体的数据评估决策方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116976708A (zh)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦李成,公茂果,王爽: "《自然计算、机器学习与图像理解前沿》", 西安电子科技大学出版社, pages: 93 - 94 *

Similar Documents

Publication Publication Date Title
CN109460463A (zh) 基于数据处理的模型训练方法、装置、终端及存储介质
CN107911491A (zh) 信息推荐方法、装置及存储介质、服务器和移动终端
CN108985638A (zh) 一种用户投资风险评估方法和装置以及存储介质
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN113077052A (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113344184B (zh) 用户画像预测方法、装置、终端和计算机可读存储介质
CN114139637A (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN114261400A (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
CN113869377A (zh) 训练方法、装置及电子设备
CN111652673B (zh) 智能推荐方法、装置、服务器和存储介质
CN109905880B (zh) 一种网络划分方法、系统及电子设备和存储介质
CN117112742A (zh) 一种对话模型优化方法、装置、计算机设备和存储介质
CN111709778A (zh) 出行流量预测方法、装置、电子设备和存储介质
CN116595356A (zh) 时序信号预测方法、装置、电子设备及存储介质
CN116976708A (zh) 多智能体的数据评估决策方法、装置、设备及介质
CN117010272A (zh) 基于强化学习的决策生成方法、装置、计算机设备和介质
CN111461188A (zh) 一种目标业务控制方法、装置、计算设备及存储介质
CN111443806B (zh) 交互任务的控制方法、装置、电子设备及存储介质
CN114357297A (zh) 学生画像构建及学习资源分发方法、计算机设备及存储介质
CN113570044A (zh) 客户流失分析模型训练方法及装置
CN113476833A (zh) 游戏动作识别方法、装置、电子设备和存储介质
CN113255231A (zh) 一种数据处理方法、装置、设备及存储介质
CN112052386A (zh) 信息推荐方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination