CN102136025A - 非玩家控制角色的智能控制方法 - Google Patents
非玩家控制角色的智能控制方法 Download PDFInfo
- Publication number
- CN102136025A CN102136025A CN2010106244482A CN201010624448A CN102136025A CN 102136025 A CN102136025 A CN 102136025A CN 2010106244482 A CN2010106244482 A CN 2010106244482A CN 201010624448 A CN201010624448 A CN 201010624448A CN 102136025 A CN102136025 A CN 102136025A
- Authority
- CN
- China
- Prior art keywords
- npc
- cooperation
- status information
- network packet
- constantly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种非玩家控制角色(NPC)的智能控制方法,NPC在收到网络包后,利用基于卡尔曼滤波的航位推算方法对所有NPC下一时刻的位置、速度、角度进行预测,根据该预测结果以及各NPC上一次的位置、速度、角度,预测各NPC所选择的行动,并且只有在预测的信息不够准确时,才向协作NPC广播更新信息,使各协作NPC进行状态信息的更新。如此,通过减少更新信息的广播次数,可以降低MMOG运行时对服务器的压力,同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。
Description
技术领域
本发明涉及智能学习技术,特别是涉及大型多人在线游戏(MMOG)中非玩家控制角色(NPC)的智能控制方法。
背景技术
随着网络游戏的智能化发展,大部分网络游戏都引用了人工智能技术。作为游戏的核心,人工智能能提供更多、更为真实的游戏挑战,激发玩家的兴趣。另外,人工智能在游戏可玩性方面往往也起着决定性因素,把人工智能应用于游戏中,会使玩家感觉到游戏中的人物行为具有令人信服的合理性,从而吸引玩家,并有效促进游戏开发的成功。
目前,提出了一种启发式加速评估Q学习方法(简称HAE-QL方法),采用该方法可以对游戏中非玩家控制角色所执行的动作进行智能决策。在该方法中,引入了启发式和评估来加速标准Q学习方法。这里,通过使用一个启发函数在学习过程中影响行动的选择,使用一个评估函数来评估所选择的动作,以减少不必要的探索,提高学习效率。为了保证该方法的有效性,启发函数和评估函数是根据Q函数来计算的。具体的实现流程如下:
步骤1、NPC根据其协作NPC当前发送的状态信息,更新自身保存的历史经验信息。
这里,所述状态信息包括协作NPC在其上一状态下所执行的动作的Q(st,at)、启发函数Ht(st,at)以及评估函数Et(st,at)。
所述历史经验信息对所有NPC而言,是相同的,即对各NPC而言是共享的,各NPC将根据该信息决策自身当前所需要执行的动作,当NPC执行完一个动作时便需要通过发送状态信息包通知其协作NPC更新各自的历史经验信息,以确保该信息在各NPC中的一致性,从而实现各NPC的协作行动。
步骤2、所述NPC从周围环境中获知自身的当前状态。
步骤3、按照公式(1)来选择当前状态下的动作π(st)。
其中,st表示NPC在时刻t的状态;at表示NPC在状态st下可执行的一种动作;Q(st,at)是奖赏函数,用于对执行一个动作后给予奖赏;Ht(st,at)是启发函数,它的值影响行动的选择;Et(st,at)是评估函数,用于评估所选择行动的成功率;ε是一个实数变量,用于权衡启发函数的影响;δ是一个实数变量,用于权衡评估函数的影响;arandom表示在状态St下所有可能的行动中随机选择的一个动作,采用arandom涉及到探索问题,即要故意选择执行一种目前不是最优的动作,来获得对那些未知(或知之甚少)状态的知识;q是一个随机值,均匀概率分布在0到1之间,p(0≤p≤1)是一个参数被定义为探索和功绩的比重;p值越大,随机选择的概率越小。
步骤4、执行选择的动作,并获得新的状态和回报;
步骤5、根据所述新的状态下的最大Q值和回报来更新上一状态的状态信息并通知给其协作NPC,然后转入步骤1,直至达到一个终止状态。
在实际应用中,MMOG通信中的传输延迟及信息包丢失问题是不可避免的,使得NPC有时很难实时获得协作NPC的状态信息,导致NPC对动作的选择不能较好地体现出NPC之间协作性,即无法获得较好的NPC协作效果。另外,上述HAE-QL方法中,各NPC每执行一次动作都要向其协作NPC广播一次状态信息,以使各协作NPC进行动作决策时所依据历史经验信息保持一致,以获得较好的协作效果,这样,服务器需要同时处理大量的数据传输,显然这将给服务器带来巨大的计算压力,导致服务器的性能大幅降低。
发明内容
有鉴于此,本发明的主要目的在于提供一种非玩家控制角色的智能控制方法,该方法能有效减少网络丢包对NPC协作效果的影响,同时也能降低服务器的运行压力。
为了达到上述目的,本发明提出的技术方案为:
一种非玩家控制角色(NPC)的智能控制方法,该方法包括以下步骤:
a、当NPC收到网络包时,确定所述网络包的类型;如果所述网络包为更新信息的网络包,则根据所述网络包更新自身保存的协作NPC位置信息;如果所述网络包为协作NPC退出消息,则删除自身保存的所述协作NPC对应的信息;
b、所述NPC利用基于卡尔曼滤波的航位推算(Dead Reckoning,DR)方法,根据所述NPC及其协作NPC的上一时刻的状态信息,预测所述NPC及其协作NPC的下一时刻的状态信息,所述状态信息包括NPC的位置、速度和角度信息;
c、所述NPC根据所述上一时刻的状态信息和所述预测到的下一时刻的状态信息,利用启发式加速评估Q学习方法,预测所述NPC和其协作NPC当前选择的动作;
d、所述NPC判断是否存在至少一个协作NPC的所述预测动作满足第一条件,所述第一条件为所述预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值的差大于预设的阈值Tr,如果存在,则将满足所述第一条件的预测动作所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC;
e、所述NPC判断是否存在至少一个协作NPC的所述下一时刻的状态信息满足第二条件,所述第二条件为该状态信息中的位置、速度或角度信息和上一时刻对应值的差大于预设的对应阈值,如果存在,则将满足所述第二条件的状态信息所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC;
f、所述NPC根据所述下一时刻的状态信息,重新绘制所述NPC及其协作NPC。
综上所述,本发明提出的非玩家控制角色的智能控制方法,NPC在收到网络包后,利用基于卡尔曼滤波的航位推算方法对所有NPC下一时刻的位置、速度、角度进行预测,根据该预测结果以及各NPC上一次的位置、速度、角度,预测各NPC所选择的行动,并且只有在预测的信息不够准确时,即所预测的行动执行后所得到的回报值与相应状态下能够得到的最大回报值之差大于预设的阈值Tr时,或预设的位置、速度、角度和上一时刻对应值的差超过预设的相应阈值时,才向协作NPC广播更新信息,使各协作NPC进行状态信息的更新。如此,通过减少更新信息的广播次数,可以避免每次状态变化时NPC都需要广播更新信息所产生的较大系统开销,降低MMOG运行时对服务器的压力,同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。
附图说明
图1为本发明实施例一的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:NPC在广播更新信息前,NPC先利用基于卡尔曼滤波的航位推算方法对各NPC的状态信息(包括位置、速度、角度)进行预测,再利用HAE-QL方法预测所述状态信息下各NPC所选择的行动,只有在上述预测的准确性不高时再发送更新信息给协作NPC。这样,通过控制更新信息的发送,可以有效减少更新信息的广播次数,从而可以降低MMOG运行时对服务器的压力,同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。
图1为本发明实施例一的流程示意图。如图1所示,该实施例主要包括:
步骤101、当NPC收到网络包时,确定所述网络包的类型;如果所述网络包为更新信息的网络包,则根据所述网络包更新自身保存的协作NPC位置信息;如果所述网络包为协作NPC退出消息,则删除自身保存的所述协作NPC对应的信息。
这里,具体的更新方法已为本领域技术人员所掌握,在此不再赘述。
步骤102、所述NPC利用基于卡尔曼滤波的航位推算(Dead Reckoning,DR)方法,根据所述NPC及其协作NPC的上一时刻的状态信息,预测所述NPC及其协作NPC的下一时刻的状态信息,所述状态信息包括NPC的位置、速度和角度信息。
这里,进行具体所述预测时可以采用下述方法实现:
首先,使用DR方法按照公式dr_pos=last_pos+last_vel*time_step,得到一外推位置dr_pos。其中,last_pos为NPC上一时刻的位置、last_vel为NPC上一时刻的速度、time_step为当前与上一时刻的时间间隔。
然后,基于dr_pos、last_vel、time_step和预设的角速度(angle_vel),使用卡尔曼滤波算法外推位置(kdr_pos)、角度(kdr_ang)和速度(kdr_vel)。
其中,对于位置kdr_pos的外推方法为:
kdr_pos=Kalman(dr_pos+last_vel*time_step);
对于角度kdr_ang的外推方法为:
kdr_ang=Kalman(angle_vel*time_step);
对于速度kdr_vel的外推方法为:
按照cos_val=cos(kdr_ang)和sin_val=sin(kdr_ang),计算cos_val和sin_val;
定义last_vel(lvx,lvy,lvz)和kdr_vel(kvx,kvy,kvz),则:根据cos_val、sin_val和last_vel(lvx,lvy,lvz),按照下述公式分别得到kvx、kvy、kvz,从而得到所述kdr_vel:
kvx=Kalman((lvx*cos_val)-(lvy*sin_val));
kvy=Kalman((lvy*cos_val)+(lvx*sin_val));
kvz=Kalman(lvz)。
步骤103、所述NPC根据所述上一时刻的状态信息和所述预测到的下一时刻的状态信息,利用启发式加速评估Q学习方法,预测所述NPC和其协作NPC当前选择的动作。
这里,在进行动作的具体预测时,将利用前述公式(1)进行,即已知上一时刻的状态信息和下一时刻的状态信息,可以通过公式(1)得到转入下一时刻的状态所需要执行的动作。
步骤104、所述NPC判断是否存在至少一个协作NPC的所述预测动作满足第一条件,所述第一条件为所述预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值的差大于预设的阈值Tr,如果存在,则将满足所述第一条件的预测动作所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC。
本步骤中,利用所述判断来确定发送更新信息的时机,如此,可以实现对更新信息进行广播的控制,以减少更新信息的广播次数,从而可以降低服务器的处理压力,同时也可减少网络丢包对NPC协作效果的影响。
这里,预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值均可根据前述公式(1)得到。
需要说明的是,所述阈值可以由本领域技术人员根据实际需要,通过仿真的方式,考虑数据传输量、游戏效果等性能指标,选择合适的值进行设置。另外,还可以在游戏运行时,根据预设的调整策略,对该阈值进行灵活设置。
步骤105、所述NPC判断是否存在至少一个协作NPC的所述下一时刻的状态信息满足第二条件,所述第二条件为该状态信息中的位置、速度或角度信息和上一时刻对应值的差大于预设的对应阈值,如果存在,则将满足所述第二条件的状态信息所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC。
本步骤中,利用所述判断来确定发送更新信息的时机,如此,可以实现对更新信息进行广播的控制,以减少更新信息的广播次数,从而可以降低服务器的处理压力,同时也可减少网络丢包对NPC协作效果的影响。
本步骤中所涉及到的阈值,即位置、速度和角度分别对应的预设阈值。在实际应用中,这些阈值可由本领域技术人员根据实际需要,通过仿真的方式,考虑数据传输量、游戏效果等性能指标,选择合适的值进行设置。另外,还可以在游戏运行时,根据预设的调整策略,对该阈值进行灵活设置。
步骤106、所述NPC根据所述下一时刻的状态信息,重新绘制所述NPC及其协作NPC。
这里,具体绘制方法已为本领域技术人员所掌握,在此不再赘述。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.非玩家控制角色(NPC)的智能控制方法,其特征在于,该方法包括以下步骤:
a、当NPC收到网络包时,确定所述网络包的类型;如果所述网络包为更新信息的网络包,则根据所述网络包更新自身保存的协作NPC位置信息;如果所述网络包为协作NPC退出消息,则删除自身保存的所述协作NPC对应的信息;
b、所述NPC利用基于卡尔曼滤波的航位推算(Dead Reckoning,DR)方法,根据所述NPC及其协作NPC的上一时刻的状态信息,预测所述NPC及其协作NPC的下一时刻的状态信息,所述状态信息包括NPC的位置、速度和角度信息;
c、所述NPC根据所述上一时刻的状态信息和所述预测到的下一时刻的状态信息,利用启发式加速评估Q学习方法,预测所述NPC和其协作NPC当前选择的动作;
d、所述NPC判断是否存在至少一个协作NPC的所述预测动作满足第一条件,所述第一条件为所述预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值的差大于预设的阈值Tr,如果存在,则将满足所述第一条件的预测动作所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC;
e、所述NPC判断是否存在至少一个协作NPC的所述下一时刻的状态信息满足第二条件,所述第二条件为该状态信息中的位置、速度或角度信息和上一时刻对应值的差大于预设的对应阈值,如果存在,则将满足所述第二条件的状态信息所对应的协作NPC的所述下一时刻的状态信息,通过更新信息广播给所述NPC的协作NPC;
f、所述NPC根据所述下一时刻的状态信息,重新绘制所述NPC及其协作NPC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106244482A CN102136025A (zh) | 2010-12-31 | 2010-12-31 | 非玩家控制角色的智能控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106244482A CN102136025A (zh) | 2010-12-31 | 2010-12-31 | 非玩家控制角色的智能控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102136025A true CN102136025A (zh) | 2011-07-27 |
Family
ID=44295811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106244482A Pending CN102136025A (zh) | 2010-12-31 | 2010-12-31 | 非玩家控制角色的智能控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102136025A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593546A (zh) * | 2012-08-17 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 一种无动态阻挡网络游戏系统及其处理方法 |
CN105561578A (zh) * | 2015-12-11 | 2016-05-11 | 北京像素软件科技股份有限公司 | 一种非玩家控制角色npc的行为决策方法 |
CN106445701A (zh) * | 2016-09-21 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN103699802B (zh) * | 2013-12-31 | 2017-04-05 | 北京像素软件科技股份有限公司 | 一种游戏场景中统一控制场景逻辑的方法及系统 |
WO2017133584A1 (zh) * | 2016-02-05 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 控制对象的空间位置确定方法和装置 |
CN109731332A (zh) * | 2018-12-21 | 2019-05-10 | 网易(杭州)网络有限公司 | 非玩家角色的控制方法、装置、设备及存储介质 |
CN109960545A (zh) * | 2019-03-29 | 2019-07-02 | 网易(杭州)网络有限公司 | 虚拟对象控制方法、系统、装置、介质及电子设备 |
CN113577781A (zh) * | 2021-07-30 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 非玩家角色npc的控制方法、装置、设备及介质 |
CN113993600A (zh) * | 2019-06-07 | 2022-01-28 | 微软技术许可有限责任公司 | 延迟消除 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1602220A (zh) * | 2001-10-26 | 2005-03-30 | 电子技术公司 | 计算机游戏中用于划分游戏空间及分析的芙诺以图的使用 |
CN101721811A (zh) * | 2008-10-30 | 2010-06-09 | 财团法人工业技术研究院 | 游戏输入装置及使用此游戏输入装置的游戏系统 |
CN101893443A (zh) * | 2010-07-08 | 2010-11-24 | 上海交通大学 | 道路数字正射影像地图的制作系统 |
-
2010
- 2010-12-31 CN CN2010106244482A patent/CN102136025A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1602220A (zh) * | 2001-10-26 | 2005-03-30 | 电子技术公司 | 计算机游戏中用于划分游戏空间及分析的芙诺以图的使用 |
CN101721811A (zh) * | 2008-10-30 | 2010-06-09 | 财团法人工业技术研究院 | 游戏输入装置及使用此游戏输入装置的游戏系统 |
CN101893443A (zh) * | 2010-07-08 | 2010-11-24 | 上海交通大学 | 道路数字正射影像地图的制作系统 |
Non-Patent Citations (1)
Title |
---|
《中国优秀硕士论文全文数据库》 20090220 王洪彦 《MMOG中基于强化学习的多NPC协作的研究》 , * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593546B (zh) * | 2012-08-17 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种无动态阻挡网络游戏系统及其处理方法 |
US9149724B2 (en) | 2012-08-17 | 2015-10-06 | Tencent Technology (Shenzhen) Company Limited | Network game system without dynamic obstructions and processing method thereof |
CN103593546A (zh) * | 2012-08-17 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 一种无动态阻挡网络游戏系统及其处理方法 |
CN103699802B (zh) * | 2013-12-31 | 2017-04-05 | 北京像素软件科技股份有限公司 | 一种游戏场景中统一控制场景逻辑的方法及系统 |
CN105561578A (zh) * | 2015-12-11 | 2016-05-11 | 北京像素软件科技股份有限公司 | 一种非玩家控制角色npc的行为决策方法 |
WO2017133584A1 (zh) * | 2016-02-05 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 控制对象的空间位置确定方法和装置 |
CN107042018A (zh) * | 2016-02-05 | 2017-08-15 | 腾讯科技(深圳)有限公司 | 控制对象的空间位置确定方法和装置 |
US10946282B2 (en) | 2016-02-05 | 2021-03-16 | Tencent Technology (Shenzhen) Company Limited | Control object spatial location determining method and apparatus |
CN106422332B (zh) * | 2016-09-08 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN106445701A (zh) * | 2016-09-21 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
WO2018054330A1 (zh) * | 2016-09-21 | 2018-03-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置和存储介质 |
US11135514B2 (en) | 2016-09-21 | 2021-10-05 | Tencent Technology (Shenzhen) Company Limited | Data processing method and apparatus, and storage medium for concurrently executing event characters on a game client |
CN109731332A (zh) * | 2018-12-21 | 2019-05-10 | 网易(杭州)网络有限公司 | 非玩家角色的控制方法、装置、设备及存储介质 |
CN109731332B (zh) * | 2018-12-21 | 2023-03-07 | 网易(杭州)网络有限公司 | 非玩家角色的控制方法、装置、设备及存储介质 |
CN109960545A (zh) * | 2019-03-29 | 2019-07-02 | 网易(杭州)网络有限公司 | 虚拟对象控制方法、系统、装置、介质及电子设备 |
CN113993600A (zh) * | 2019-06-07 | 2022-01-28 | 微软技术许可有限责任公司 | 延迟消除 |
CN113577781A (zh) * | 2021-07-30 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 非玩家角色npc的控制方法、装置、设备及介质 |
CN113577781B (zh) * | 2021-07-30 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 非玩家角色npc的控制方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102136025A (zh) | 非玩家控制角色的智能控制方法 | |
Xu et al. | Hierarchically and cooperatively learning traffic signal control | |
CN112364984A (zh) | 一种协作多智能体强化学习方法 | |
CN114089627B (zh) | 基于双深度q网络学习的非完全信息博弈策略优化方法 | |
CN113867354B (zh) | 一种自动驾驶多车智能协同的区域交通流导引方法 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
Daeichian et al. | Fuzzy Q-learning-based multi-agent system for intelligent traffic control by a game theory approach | |
Wang et al. | Collaborative edge computing for social internet of vehicles to alleviate traffic congestion | |
Chen et al. | Multi-agent deep reinforcement learning for dynamic avatar migration in AIoT-enabled vehicular metaverses with trajectory prediction | |
US20230311003A1 (en) | Decision model training method and apparatus, device, storage medium, and program product | |
CN114141062A (zh) | 一种基于深度强化学习的航空器间隔管理决策方法 | |
CN114980123A (zh) | 基于联邦多智能体强化学习的车联网边缘资源分配方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
Gros et al. | Tracking the race between deep reinforcement learning and imitation learning | |
Gao et al. | Cost-efficient and quality-of-experience-aware player request scheduling and rendering server allocation for edge-computing-assisted multiplayer cloud gaming | |
Zhu et al. | Computer application in game map path-finding based on fuzzy logic dynamic hierarchical ant colony algorithm | |
Yang et al. | Path planning of UAV base station based on deep reinforcement learning | |
CN115981369B (zh) | 有限通信下面向多无人机联合任务分配和航迹规划的方法 | |
Arwa et al. | Deep Reinforcement Learning Based Handover management for Vehicular Platoon | |
Fernando et al. | Analysis of Unmanned Aerial Vehicle-Assisted Cellular Vehicle-to-Everything Communication Using Markovian Game in a Federated Learning Environment | |
Yuan et al. | Deep reinforcement learning based green wave speed guidance for human-driven connected vehicles at signalized intersections | |
Sarkar et al. | Delay-aware intelligent task offloading strategy in vehicular fog computing | |
Wang et al. | A Survey On Mean-Field Game for Dynamic Management and Control in Space-Air-Ground Network | |
CN114584951A (zh) | 一种基于多智能体ddqn的联合计算卸载和资源分配方法 | |
Xue et al. | Bidirectional Obstacle Avoidance Enhancement‐Deep Deterministic Policy Gradient: A Novel Algorithm for Mobile‐Robot Path Planning in Unknown Dynamic Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110727 |