CN102136025A

CN102136025A - 非玩家控制角色的智能控制方法

Info

Publication number: CN102136025A
Application number: CN2010106244482A
Authority: CN
Inventors: 王洪彦; 刘毅
Original assignee: Beijing Pixel Software Technology Co Ltd
Current assignee: Beijing Pixel Software Technology Co Ltd
Priority date: 2010-12-31
Filing date: 2010-12-31
Publication date: 2011-07-27

Abstract

本发明提供了一种非玩家控制角色(NPC)的智能控制方法，NPC在收到网络包后，利用基于卡尔曼滤波的航位推算方法对所有NPC下一时刻的位置、速度、角度进行预测，根据该预测结果以及各NPC上一次的位置、速度、角度，预测各NPC所选择的行动，并且只有在预测的信息不够准确时，才向协作NPC广播更新信息，使各协作NPC进行状态信息的更新。如此，通过减少更新信息的广播次数，可以降低MMOG运行时对服务器的压力，同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。

Description

非玩家控制角色的智能控制方法

技术领域

本发明涉及智能学习技术，特别是涉及大型多人在线游戏(MMOG)中非玩家控制角色(NPC)的智能控制方法。

背景技术

随着网络游戏的智能化发展，大部分网络游戏都引用了人工智能技术。作为游戏的核心，人工智能能提供更多、更为真实的游戏挑战，激发玩家的兴趣。另外，人工智能在游戏可玩性方面往往也起着决定性因素，把人工智能应用于游戏中，会使玩家感觉到游戏中的人物行为具有令人信服的合理性，从而吸引玩家，并有效促进游戏开发的成功。

目前，提出了一种启发式加速评估Q学习方法(简称HAE-QL方法)，采用该方法可以对游戏中非玩家控制角色所执行的动作进行智能决策。在该方法中，引入了启发式和评估来加速标准Q学习方法。这里，通过使用一个启发函数在学习过程中影响行动的选择，使用一个评估函数来评估所选择的动作，以减少不必要的探索，提高学习效率。为了保证该方法的有效性，启发函数和评估函数是根据Q函数来计算的。具体的实现流程如下：

步骤1、NPC根据其协作NPC当前发送的状态信息，更新自身保存的历史经验信息。

这里，所述状态信息包括协作NPC在其上一状态下所执行的动作的Q(s_t，a_t)、启发函数H_t(s_t，a_t)以及评估函数E_t(s_t，a_t)。

所述历史经验信息对所有NPC而言，是相同的，即对各NPC而言是共享的，各NPC将根据该信息决策自身当前所需要执行的动作，当NPC执行完一个动作时便需要通过发送状态信息包通知其协作NPC更新各自的历史经验信息，以确保该信息在各NPC中的一致性，从而实现各NPC的协作行动。

步骤2、所述NPC从周围环境中获知自身的当前状态。

步骤3、按照公式(1)来选择当前状态下的动作π(s_t)。

π (s_{t}) = \{\begin{matrix} \arg \max_{a_{t}} [Q (s_{t}, a_{t}) + ϵ H_{t} (s_{t}, a_{t}) + δ E_{t} (s_{t}, a_{t})] & ifq \leq p, \\ a_{random} & otherwise \end{matrix}

(公式1)

其中，s_t表示NPC在时刻t的状态；a_t表示NPC在状态s_t下可执行的一种动作；Q(s_t，a_t)是奖赏函数，用于对执行一个动作后给予奖赏；H_t(s_t，a_t)是启发函数，它的值影响行动的选择；E_t(s_t，a_t)是评估函数，用于评估所选择行动的成功率；ε是一个实数变量，用于权衡启发函数的影响；δ是一个实数变量，用于权衡评估函数的影响；a_random表示在状态S_t下所有可能的行动中随机选择的一个动作，采用a_random涉及到探索问题，即要故意选择执行一种目前不是最优的动作，来获得对那些未知(或知之甚少)状态的知识；q是一个随机值，均匀概率分布在0到1之间，p(0≤p≤1)是一个参数被定义为探索和功绩的比重；p值越大，随机选择的概率越小。

步骤4、执行选择的动作，并获得新的状态和回报；

步骤5、根据所述新的状态下的最大Q值和回报来更新上一状态的状态信息并通知给其协作NPC，然后转入步骤1，直至达到一个终止状态。

在实际应用中，MMOG通信中的传输延迟及信息包丢失问题是不可避免的，使得NPC有时很难实时获得协作NPC的状态信息，导致NPC对动作的选择不能较好地体现出NPC之间协作性，即无法获得较好的NPC协作效果。另外，上述HAE-QL方法中，各NPC每执行一次动作都要向其协作NPC广播一次状态信息，以使各协作NPC进行动作决策时所依据历史经验信息保持一致，以获得较好的协作效果，这样，服务器需要同时处理大量的数据传输，显然这将给服务器带来巨大的计算压力，导致服务器的性能大幅降低。

发明内容

有鉴于此，本发明的主要目的在于提供一种非玩家控制角色的智能控制方法，该方法能有效减少网络丢包对NPC协作效果的影响，同时也能降低服务器的运行压力。

为了达到上述目的，本发明提出的技术方案为：

一种非玩家控制角色(NPC)的智能控制方法，该方法包括以下步骤：

a、当NPC收到网络包时，确定所述网络包的类型；如果所述网络包为更新信息的网络包，则根据所述网络包更新自身保存的协作NPC位置信息；如果所述网络包为协作NPC退出消息，则删除自身保存的所述协作NPC对应的信息；

b、所述NPC利用基于卡尔曼滤波的航位推算(Dead Reckoning，DR)方法，根据所述NPC及其协作NPC的上一时刻的状态信息，预测所述NPC及其协作NPC的下一时刻的状态信息，所述状态信息包括NPC的位置、速度和角度信息；

c、所述NPC根据所述上一时刻的状态信息和所述预测到的下一时刻的状态信息，利用启发式加速评估Q学习方法，预测所述NPC和其协作NPC当前选择的动作；

d、所述NPC判断是否存在至少一个协作NPC的所述预测动作满足第一条件，所述第一条件为所述预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值的差大于预设的阈值T_r，如果存在，则将满足所述第一条件的预测动作所对应的协作NPC的所述下一时刻的状态信息，通过更新信息广播给所述NPC的协作NPC；

e、所述NPC判断是否存在至少一个协作NPC的所述下一时刻的状态信息满足第二条件，所述第二条件为该状态信息中的位置、速度或角度信息和上一时刻对应值的差大于预设的对应阈值，如果存在，则将满足所述第二条件的状态信息所对应的协作NPC的所述下一时刻的状态信息，通过更新信息广播给所述NPC的协作NPC；

f、所述NPC根据所述下一时刻的状态信息，重新绘制所述NPC及其协作NPC。

综上所述，本发明提出的非玩家控制角色的智能控制方法，NPC在收到网络包后，利用基于卡尔曼滤波的航位推算方法对所有NPC下一时刻的位置、速度、角度进行预测，根据该预测结果以及各NPC上一次的位置、速度、角度，预测各NPC所选择的行动，并且只有在预测的信息不够准确时，即所预测的行动执行后所得到的回报值与相应状态下能够得到的最大回报值之差大于预设的阈值T_r时，或预设的位置、速度、角度和上一时刻对应值的差超过预设的相应阈值时，才向协作NPC广播更新信息，使各协作NPC进行状态信息的更新。如此，通过减少更新信息的广播次数，可以避免每次状态变化时NPC都需要广播更新信息所产生的较大系统开销，降低MMOG运行时对服务器的压力，同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。

附图说明

图1为本发明实施例一的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想是：NPC在广播更新信息前，NPC先利用基于卡尔曼滤波的航位推算方法对各NPC的状态信息(包括位置、速度、角度)进行预测，再利用HAE-QL方法预测所述状态信息下各NPC所选择的行动，只有在上述预测的准确性不高时再发送更新信息给协作NPC。这样，通过控制更新信息的发送，可以有效减少更新信息的广播次数，从而可以降低MMOG运行时对服务器的压力，同时还可以减少MMOG通信中的传输延迟及信息包丢失对NPC协作效果的影响。

图1为本发明实施例一的流程示意图。如图1所示，该实施例主要包括：

步骤101、当NPC收到网络包时，确定所述网络包的类型；如果所述网络包为更新信息的网络包，则根据所述网络包更新自身保存的协作NPC位置信息；如果所述网络包为协作NPC退出消息，则删除自身保存的所述协作NPC对应的信息。

这里，具体的更新方法已为本领域技术人员所掌握，在此不再赘述。

步骤102、所述NPC利用基于卡尔曼滤波的航位推算(Dead Reckoning，DR)方法，根据所述NPC及其协作NPC的上一时刻的状态信息，预测所述NPC及其协作NPC的下一时刻的状态信息，所述状态信息包括NPC的位置、速度和角度信息。

这里，进行具体所述预测时可以采用下述方法实现：

首先，使用DR方法按照公式dr_pos＝last_pos+last_vel*time_step，得到一外推位置dr_pos。其中，last_pos为NPC上一时刻的位置、last_vel为NPC上一时刻的速度、time_step为当前与上一时刻的时间间隔。

然后，基于dr_pos、last_vel、time_step和预设的角速度(angle_vel)，使用卡尔曼滤波算法外推位置(kdr_pos)、角度(kdr_ang)和速度(kdr_vel)。

其中，对于位置kdr_pos的外推方法为：

kdr_pos＝Kalman(dr_pos+last_vel*time_step)；

对于角度kdr_ang的外推方法为：

kdr_ang＝Kalman(angle_vel*time_step)；

对于速度kdr_vel的外推方法为：

按照cos_val＝cos(kdr_ang)和sin_val＝sin(kdr_ang)，计算cos_val和sin_val；

定义last_vel(lvx，lvy，lvz)和kdr_vel(kvx，kvy，kvz)，则：根据cos_val、sin_val和last_vel(lvx，lvy，lvz)，按照下述公式分别得到kvx、kvy、kvz，从而得到所述kdr_vel：

kvx＝Kalman((lvx*cos_val)-(lvy*sin_val))；

kvy＝Kalman((lvy*cos_val)+(lvx*sin_val))；

kvz＝Kalman(lvz)。

步骤103、所述NPC根据所述上一时刻的状态信息和所述预测到的下一时刻的状态信息，利用启发式加速评估Q学习方法，预测所述NPC和其协作NPC当前选择的动作。

这里，在进行动作的具体预测时，将利用前述公式(1)进行，即已知上一时刻的状态信息和下一时刻的状态信息，可以通过公式(1)得到转入下一时刻的状态所需要执行的动作。

步骤104、所述NPC判断是否存在至少一个协作NPC的所述预测动作满足第一条件，所述第一条件为所述预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值的差大于预设的阈值T_r，如果存在，则将满足所述第一条件的预测动作所对应的协作NPC的所述下一时刻的状态信息，通过更新信息广播给所述NPC的协作NPC。

本步骤中，利用所述判断来确定发送更新信息的时机，如此，可以实现对更新信息进行广播的控制，以减少更新信息的广播次数，从而可以降低服务器的处理压力，同时也可减少网络丢包对NPC协作效果的影响。

这里，预测动作被执行后所得到的回报值与相应状态下能够得到的最大回报值均可根据前述公式(1)得到。

需要说明的是，所述阈值可以由本领域技术人员根据实际需要，通过仿真的方式，考虑数据传输量、游戏效果等性能指标，选择合适的值进行设置。另外，还可以在游戏运行时，根据预设的调整策略，对该阈值进行灵活设置。

步骤105、所述NPC判断是否存在至少一个协作NPC的所述下一时刻的状态信息满足第二条件，所述第二条件为该状态信息中的位置、速度或角度信息和上一时刻对应值的差大于预设的对应阈值，如果存在，则将满足所述第二条件的状态信息所对应的协作NPC的所述下一时刻的状态信息，通过更新信息广播给所述NPC的协作NPC。

本步骤中所涉及到的阈值，即位置、速度和角度分别对应的预设阈值。在实际应用中，这些阈值可由本领域技术人员根据实际需要，通过仿真的方式，考虑数据传输量、游戏效果等性能指标，选择合适的值进行设置。另外，还可以在游戏运行时，根据预设的调整策略，对该阈值进行灵活设置。

步骤106、所述NPC根据所述下一时刻的状态信息，重新绘制所述NPC及其协作NPC。

这里，具体绘制方法已为本领域技术人员所掌握，在此不再赘述。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.非玩家控制角色(NPC)的智能控制方法，其特征在于，该方法包括以下步骤：