CN110302539A

CN110302539A - 一种游戏策略计算方法、装置、系统及可读存储介质

Info

Publication number: CN110302539A
Application number: CN201910716808.2A
Authority: CN
Inventors: 刘全; 吴金金; 陈松
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-10-08
Anticipated expiration: 2039-08-05
Also published as: CN110302539B

Abstract

本发明公开了一种游戏策略计算方法、装置、系统及计算机可读存储介质，该方法包括：预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值；依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略，本发明在使用过程中能够得出最优的游戏策略，有助于提升用户的游戏体验。

Description

一种游戏策略计算方法、装置、系统及可读存储介质

技术领域

本发明实施例涉及计算机技术领域，特别是涉及一种策略计算方法、装置、系统及计算机可读存储介质。

背景技术

深度强化学习是机器学习领域中一个新的研究热点，它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中，深度强化学习方法已经取得突破性的进展。

目前，在游戏策略学习中，常用的网络模型为深度Q网络模型，深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好，然而深度Q网络模型存在着高估动作值使Agent性能变差的问题，使通过该网络模型确定出的游戏策略不是最优策略，影响玩家体验效果。

鉴于此，如何得到最优游戏策略，提升玩家体验成为本领域技术人员目前需要解决的问题。

发明内容

本发明实施例的目的是提供一种游戏策略计算方法、装置、系统及计算机可读存储介质，在使用过程中能够得出最优的游戏策略，有助于提升用户的游戏体验。

为解决上述技术问题，本发明实施例提供了一种游戏策略计算方法，包括：

预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值；

依据与所述每个情节中的每个状态分别对应的各个所述目标动作值得到与所述目标游戏对应的游戏策略。

可选的，所述预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程为：

S200：依据多个历史游戏样本图像，获取相应的各个情节、与每个所述情节分别对应的各个状态以及与每个所述状态分别对应的各个动作；

S210：初始化评估网络参数θ₀、目标网络参数θ^- ₀和经验池D；

S220：对第m个情节初始化相应的初始状态s_m0，其中，m＝[1,M]，M为情节总数；

S230：在所述第m个情节经过第t个时间步后的当前状态s_mt下，根据ε-greedy策略选择并执行动作a_mt，进入与第t+1个时间步对应的状态s_m(t+1)和立即奖赏r_m(t+1)，其中，t＝[0,T]，T为时间步总数；

S240：获取转移样本(s_mt,a_mt,r_mt,s_m(t+1))，并将所述转移样本(s_mt,a_mt,r_mt,s_m(t+1))存入至所述经验池D中；

S250：判断所述经验池中当前的转移样本总数是否达到第一预设值，若是，则从所述经验池中抽取预设数量个目标转移样本；若否，则判断所述所述t是否等于T，若是，则将所述m更新为m+1，返回执行S220；若否，则将所述t更新为t+1，返回执行S230；

S260：采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数；

S270：判断所述j是否等于J，其中，J为所预设数量的数值，若是，则将所述更新后的评估网络参数作为最新的评估网络参数；若否，则将所述j更新为j+1，并返回执行S260；

S280：判断当前经过的时间步总数是否达到第二预设值，若是，则将当前最新的评估网络参数值赋值给到当前的目标网络参数，以对所述目标网络参数进行更新；

S290：判断m是否等于M，若是，则结束，获取所述最新的评估网络参数，并将所述最新的评估网络参数作为最优评估网络参数；若否，则将所述m更新为m+1，返回执行S220。

可选的，所述采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新的过程为：

S310：根据第j个目标转移样本计算评估网络具有最大动作值的动作a*_j和评估网络具有最小动作值的动作a_Lj；其中， Q(s_j(t+1),a；θ)表示评估网络中状态s_j(t+1)下的动作值，s_j(t+1)表示第j个目标转移样本中的状态s_m(t+1)，θ表示当前评估网络参数；

S320：依据所述评估网络具有最大动作值的动作、所述评估网络具有最小动作值的动作及第一计算关系式，得到目标网络在状态s_j(t+1)下的最大动作值和最小动作值的权重；其中，所述第一计算关系式为：

其中，β_j表示目标网络在状态s_j(t+1)下的最大动作值和最小动作值的权重，Q(s_j(t+1),a^* _j；θ^-)表示目标网络在状态s_j(t+1)下的最大动作值，Q(s_j(t+1),a_Lj；θ^-)表示目标网络在状态s_j(t+1)下的最小动作值，c表示超参数；

S330：依据所述权重及第二计算关系式计算目标值，其中，第二计算关系式为：

y_j ^WDDQN＝r_jt+γ[β_jQ(s_j(t+1),a^* _j；θ)+(1-β_j)_Q(s_j(t+1),a^* _j；θ^-)]，其中，r_jt表示第j个目标转移样本中的立即奖赏r_mt，γ∈[0,1]表示折扣率，Q(s_j(t+1),a^* _j；θ)表示评估网络中状态s_j(t+1)下的最大动作值；

S340：依据所述目标值、所述第j个目标转移样本及第三计算关系式得到本次更新后的评估网络参数；其中，所述第三计算关系式为：

θ'≈arg min_θE_D[(y_j ^WDDQN-Q(s_jt,a_jt；θ))²]，其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ'表示本次更新后的评估网络参数，并用所述θ'替换所述θ以用于后续计算。

可选的，在所述S260之前，所述方法还包括：

计算各个所述目标转移样本的时间差分误差；

按照时间差分误差的大小将各个所述目标转移样本分进行排序；

将排序后的各个所述目标转移样本分为两组，并将时间差分误差较小的一组的K值设为第一数值，将另一组的K值设为第二数值，其中，所述第一数值小于所述第二数值；

则，所述S260中的依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数的过程为：

依据所述第j个目标转移样本、与所述第j个目标转移样本对应的K值及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数。

可选的，所述依据所述第j个目标转移样本、与所述第j个目标转移样本对应的K值及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数的过程为：

根据第j个目标转移样本计算评估网络具有最大动作值的动作a*_j和评估网络具有最小动作值的动作a_Lj；其中， Q(s_j(t+1),a；θ)表示评估网络中状态s_j(t+1)下的动作值，s_j(t+1)表示第j个目标转移样本中的状态s_m(t+1)，θ表示当前评估网络参数；

依据所述评估网络具有最大动作值的动作、所述评估网络具有最小动作值的动作及所述第一计算关系式，得到目标网络在状态s_j(t+1)下的最大动作值和最小动作值的权重；其中，所述第一计算关系式为：

依据所述权重及第四计算关系式计算目标值，其中，第四计算关系式为：

其中，r_jt表示第j个目标转移样本中的立即奖赏r_mt，γ∈[0,1]表示折扣率，Q(s_j(t+1),a^* _j；θ_k)表示评估网络参数为θ_k的评估网络中状态s_j(t+1)下的最大动作值，Q(s_j(t+1),a^* _j；θ_k ^-)表示目标网络参数为θ_k ^-的目标网络中状态s_j(t+1)下的最大动作值，θ_k表示与当前评估网络参数之前K次更新分别对应的评估网络参数中的第k个评估网络参数，θ_k ^-表示与当前目标网络参数之前K次更新分别对应的目标网络参数中的第k个目标网络参数；

依据所述目标值、所述第j个目标转移样本及第三计算关系式得到本次更新后的评估网络参数；其中，所述第三计算关系式为：

θ”≈arg min_θE_D[(y_j ^AWDDQN-Q(s_jt,a_jt；θ))²]，其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ”表示本次更新后的评估网络参数，并用所述θ”替换所述θ以用于后续计算。

本发明实施例提供了一种游戏策略计算装置，包括：

建立模块，用于预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

分析模块，用于采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

计算模块，用于依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值；

确定模块，用于依据与所述每个情节中的每个状态分别对应的各个所述目标动作值得到与所述目标游戏对应的游戏策略。

本发明实施例提供了一种游戏策略计算系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述游戏策略计算方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述游戏策略计算方法的步骤。

本发明实施例提供了一种游戏策略计算方法、装置、系统及计算机可读存储介质，通过预先建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型，由于本申请中的游戏策略深度双Q网络模型是基于评估网络最大动作值和最小动作值权重建立的，所以根据该游戏策略深度双Q网络模型得到的动作值会更加准确，进而得到的评估网络参数会更加准确，故通过该游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，能够得到与该目标游戏对应的最优评估网络参数，再根据该最优网络参数计算出与目标游戏中每个情节的每个状态对应的各个目标动作，以得到与目标游戏对应的最优的游戏策略，使用户在玩游戏时可以通过该游戏策略让用户得到更高的分数，提升用户的游戏体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种游戏策略计算方法的流程示意图；

图2为本发明实施例提供的一种游戏策略深度双Q网络模型建立方法的流程示意图；

图3为本发明实施例提供的一种基于时间差分误差的权重平均值的深度双Q网络模型的网络结构示意图；

图4为本发明实施例提供的一种游戏策略计算装置的结构示意图。

具体实施方式

本发明实施例提供了一种游戏策略计算方法、装置、系统及计算机可读存储介质，在使用过程中能够得出最优的游戏策略，有助于提升用户的游戏体验。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种游戏策略计算方法的流程示意图。该方法包括：

S110：预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

需要说明的是，本实施例中预先建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型。也即，为了减少对动作值估计的误差，进一步减少对目标值估计的误差，提高目标值估计的精确度，本实施例在建立游戏策略深度双Q网络模型时，以权重的方式结合了深度Q网络和深度双Q网络，也即以权重的方式结合了评估网络最大动作值和最小动作值，以使通过本申请中的游戏策略深度双Q网络模型得出动作值和目标值更加精确，进而优化评估网络参数。

S120：采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

具体的，对于每个目标游戏，可以获取与其对应的各个图像，由各个图像可以得到与目标游戏对应的各个情节、与每个情节对应的各个状态以及与每个状态对应的各个动作，将各个图像输入至上述预先建立的游戏策略深度双Q网络模型中，通过该游戏策略深度双Q网络模型对各个图像进行分析后，即可得到最优评估网络参数。

S130：依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值；

S140：依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略。

具体的，在得到最优评估网络参数后，就可以将该最优评估网络参数代入至相应的动作值函数中，得到与每个情节中的每个状态分别对应的各个目标动作值，从而得到与目标游戏对应的游戏策略，由于估计出的动作值和目标值较为准确，得到的评估网络参数较为优化，所有通过该游戏策略深度双Q网络模型输出的游戏策略为最优游戏策略，有助于提高玩家的游戏体验。

进一步的，请参照图2，上述S110中预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程，具体可以为：

S200：依据多个历史游戏样本图像，获取相应的各个情节、与每个情节分别对应的各个状态以及与每个状态分别对应的各个动作；

需要说明的是，每个游戏均会对应各个情节，每个情节均会对应多个状态，每个状态均会对应多个动作，在某个状态下执行某个动作会进入下一个对应的状态。

具体的，情节总数是M，在对评估网络参数θ₀、目标网络参数θ^- ₀和经验池D初始化完成后，从第一个情节(m＝1)开始，对每个当前的情节在执行该步骤时均初始化相应的初始状态s_m0。

S230：在第m个情节经过第t个时间步后的当前状态s_mt下，根据ε-greedy策略选择并执行动作a_mt，进入与第t+1个时间步对应的状态s_m(t+1)和立即奖赏r_m(t+1)，其中，t＝[0,T]，T为时间步总数；

具体的，在对当前的第m个情节进行处理时，从第一个状态起经过第一个时间步执行根据ε-greedy策略从与该状态对应的各个动作中选择的一个动作后，则会进行入与下一个时间步相应的状态，并得到相应的立即奖励。也即对于在当前状态s_mt下，可以根据ε-greedy策略从与该当前状态s_mt对应的各个动作中选择一个动作a_mt，并执行该动作a_mt后进入与第t+1个时间步对应的状态s_m(t+1)和立即奖赏r_m(t+1)，其中，在第m个情节下经过第t+1个时间步后对应的状态s_m(t+1)，在第m个情节下经过第t+1个时间步后得到的立即奖赏r_m(t+1)。

S240：获取转移样本(s_mt,a_mt,r_mt,s_m(t+1))，并将转移样本(s_mt,a_mt,r_mt,s_m(t+1))存入至经验池D中；

具体的，在每次执行一个动作进入下一个时间步的状态后，就获取相应的转移样本(s_mt,a_mt,r_mt,s_m(t+1))，并将该转移样本存储至经验池中，并累计经验池中当前存储的转移样本总数量。

S250：判断经验池中当前的转移样本总数是否达到第一预设值，若是，则进入S251；若否，则进入S252；

S251：从经验池中抽取预设数量个目标转移样本，并进入S260；

S252：判断t是否等于T，若是，则执行S253；若否，则执行S254；

S253：将m更新为m+1，返回执行S220；

S254：将t更新为t+1，返回执行S230；

具体的，每次将获取的转移样本存入至经验池后，就对经验池中当前转移样本的总数量进行判断，在当前的总数量达到了第一预设值(例如200个)时，可以从经验池中随机抽取预设数量个转移样本，将这些预设数量(例如32)个转移样本作为各个目标转移样本，并进入S260。在当前转移样本的总数量没有达到第一预设值时、且当前时间步t不等于T时，则将t更新为t+1，返回执行S220，也即执行在第m个情节经过第t+1个时间步后的当前状态s_m(t+1)下，根据ε-greedy策略选择并执行动作a_m(t+1)，进入与第t+2个时间步对应的状态s_m(t+2)和立即奖赏r_m(t+2)，然后进入S230；在当前转移样本的总数量没有达到第一预设值时、且当前时间步t等于T时，则说明当前第m个情节结束，应进入第m+1个情节，也即此时将m更新为m+1，然后返回执行S220，对第m+1个情节初始化相应的初始状态s_(m+1)0，然后继续执行在第m+1个情节下的S230。

S260：采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据第j个目标转移样本及权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数；

需要说明的是，在抽取了预设数量个目标转移样本后，对每个目标转移样本均执行S260中根据当前的第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重。由于每个转移样本中均包括四个参数(s_jt,a_jt,r_jt,s_j(t+1))，其中，sjt表示第j个目标转移样本中在第m个情节下的状态s_mt，a_jt表示第j个目标转移样本中在第m个情节的状态s_mt下执行的动作a_mt，r_jt表示第j个目标转移样本中在第m个情节的状态s_mt下执行的动作a_mt后得到的立即奖励r_mt，s_j(t+1)表示第j个目标转移样本中在第m个情节的状态s_mt下执行的动作a_mt后进入的状态s_m(t+1)。

具体的，根据当前的第j个目标转移样本计算出目标网络在目标转移样本中的s_j(t+1)状态下的最大动作值，和目标网络在目标转移样本中的s_j(t+1)状态下的最小动作值，并基于最大动作值和最小动作值计算出权重，然后再根据第j个目标转移样本及权重对当前的评估网络参数进行更新。

S270：判断j是否等于J，其中，J为所预设数量的数值，若是，则进入S271；若否，则进入S272；

S271：将更新后的评估网络参数作为最新的评估网络参数；

S272：将j更新为j+1，并返回执行S260；

也即，根据每个目标转移样本均对评估网络参数进行一次更新，并且在更新一次完成后，即判断是否到最后一个目标转移样本，如果没有到，则根据下一个目标转移样本对上次更新后的评估网络参数进行再次更新，直至依据最后一个目标转移样本对相应的评估网络参数更新完成为止，得到最新的评估网络参数。

S280：判断当前经过的时间步总数是否达到第二预设值，若是，则进入S281；

S281：将当前最新的评估评估网络参数值赋值给到当前的目标网络参数，以对目标网络参数进行更新；

具体的，在对评估网络参数更新后，可以根据预设条件对目标网络参数进行相应的更新，具体可以在当前经过的时间步总数达到第二预设值时，将当前的评估网络参数的数值赋值给当前的目标网络参数，从而对当前的目标网络参数进行更新。

S290：判断m是否等于M，若是，则进入S291；若否，则执行S292；

S291：结束，获取最新的评估网络参数，并将最新的评估网络参数作为最优评估网络参数；

S292：将m更新为m+1，返回执行S220。

具体的，在每次根据J个目标转移样本对评估网络参数更新完成后，可以判断是否已经完成对最后一个情节的处理，如果是，则将当前最新的评估网络参数作为最优评估网络参数，如果不是，则将更新为m+1，并返回至S220中对第m+1个情节初始化相应的初始状态s_(m+1)0，然后继续执行在第m+1个情节下的S230，直至所有的情节均处理完成后得到最终优化的评估网络参数，并将其作为最优评估网络参数。

更进一步的，上述S260中采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据第j个目标转移样本及权重对当前的评估网络参数进行更新的过程，具体可以为：

具体的，对每个目标转移样本均计算出在相应状态下，评估网络具有最大动作值的动作a*_j和评估网络具有最小动作值的动作a_Lj。

S320：依据评估网络具有最大动作值的动作、评估网络具有最小动作值的动作及第一计算关系式，得到目标网络在状态s_j(t+1)下的最大动作值和最小动作值的权重；其中，第一计算关系式为：

S330：依据权重及第二计算关系式计算目标值，其中，第二计算关系式为：

y_j ^WDDQN＝r_jt+γ[β_jQ(s_j(t+1),a^* _j；θ)+(1-β_j)Q(s_j(t+1),a^* _j；θ^-)]，其中，r_jt表示第j个目标转移样本中的立即奖赏r_mt，γ∈[0,1]表示折扣率，Q(s_j(t+1),a^* _j；θ)表示评估网络中状态s_j(t+1)下的最大动作值；

具体的，本实施例中根据权重计算目标值，使得到的目标值更加精确。

S340：依据目标值、第j个目标转移样本及第三计算关系式得到本次更新后的评估网络参数；其中，第三计算关系式为：

θ'≈arg min_θE_D[(y_j ^WDDQN-Q(s_jt,a_jt；θ))²]，其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ'表示本次更新后的评估网络参数，并用θ'替换θ以用于后续计算。

具体的，可以采用随机梯度法更新评估网络参数。

其中，与上述过程对应的具体算法如下：

本发明实施例提供了一种游戏策略计算方法，通过预先建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型，由于本申请中的游戏策略深度双Q网络模型是基于评估网络最大动作值和最小动作值权重建立的，所以根据该游戏策略深度双Q网络模型得到的动作值会更加准确，进而得到的评估网络参数会更加准确，故通过该游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，能够得到与该目标游戏对应的最优评估网络参数，再根据该最优网络参数计算出与目标游戏中每个情节的每个状态对应的各个目标动作，以得到与目标游戏对应的最优的游戏策略，使用户在玩游戏时可以通过该游戏策略让用户得到更高的分数，提升用户的游戏体验。

还需要说明的是，为了减少目标值计算的方差，获得更好的训练稳定性和性能，可以利用先前学习到的K个动作值来计算平均值，从而产生目标值。本申请中的K值可以根据转移样本的时间差分误差来动态确定，从而在根据上述得到的权重在计算目标值时，能够进一步减少目标值估计的偏差和方差，提高目标值的精确度。具体如下：

在上述S260之前，该方法还可以包括：

计算各个目标转移样本的时间差分误差；

按照时间差分误差的大小将各个目标转移样本分进行排序；

将排序后的各个目标转移样本分为两组，并将时间差分误差较小的一组的K值设为第一数值，将另一组的K值设为第二数值，其中，第一数值小于第二数值；

需要说明的是，在从经验池中抽取了预设数量个目标转移样本后，分别计算出每个目标转移样本的时间差分误差，时间差分误差表示该目标转移样本的目标值和评估值之间的差距，若时间差分误差较大，则评估值不够准确，目标值存在较大的方差，所以在得到与每个目标转移样本的时间差分误差后，可以根据时间差分误差的大小对目标转移样本进行排序，具体可以按照时间差分误差从小到大的顺序对目标转移样本进行排序，排序完成后，将目标转移样本分为两组，具体可以均分为两组，例如共32个目标转移样本，则第一组包括16个差分误差较小的目标转移样本，第二组包括另外16个差分误差较大的目标转移样本，并且将第一组的目标转移样本对应的K值设为第一数值(例如为5)，将第二组的目标转移样本对应的K值设为第二数值(例如为10)。

也即，对于时间差分误差较小的目标转移样本，在计算目标值时可以使用较少(例如K＝5)的先学习到的动作值的平均值来计算目标值；对于时间差分误差较大的目标转移样本，在计算目标值时可以使用较多(例如K＝10)的先学习到的动作值的平均值来计算目标值，这样既可以避免使用较大的K值导致增加计算量，并且能够根据每个目标转移样本的时间差分误差动态确定K值。

则相应的，上述S260中的依据第j个目标转移样本及权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数的过程，具体可以为：

依据第j个目标转移样本、与第j个目标转移样本对应的K值及权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数。

具体的，上述依据第j个目标转移样本、与第j个目标转移样本对应的K值及权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数的过程，具体可以为：

依据评估网络具有最大动作值的动作、评估网络具有最小动作值的动作及第一计算关系式，得到目标网络在状态s_j(t+1)下的最大动作值和最小动作值的权重；其中，第一计算关系式为：

依据权重及第四计算关系式计算目标值，其中，第四计算关系式为：

具体的，在计算目标值时，可以根据当前目标转移样本所在的具体分组确定出该目标转移样本对应的K值，再确定先前更新得到的K个θ_k和θ_k ^-，并根据各个θ_k得到相应的K个先前学习得到的在评估网络下的最大动作值Q(s_j(t+1),a^* _j；θ_k)，根据各个θ_k ^-得到相应的K个先前学习得到的在目标网络下的动作值最大动作值Q(s_j(t+1),a^* _j；θ_k ^-)，然后根据K个先前学习得到的在评估网络下的最大动作值Q(s_j(t+1),a^* _j；θ_k)得到评估网络下的最大平均动作值，根据K个先前学习得到的在目标网络下的最大动作值Q(s_j(t+1),a^* _j；θ_k ^-)得到目标网络下的最大平均动作值，再结合权重得到与第j个目标转移样本对应的目标值，可见该目标值的准确度更高。

例如，在当前第j个目标转移样本对评估网络参数进行更新时，先前更新得到的10个评估网络参数为θ₁、θ₂、θ₃、θ₄、θ₅、θ₆、θ₇、θ₈、θ₉和θ₁₀，其中，在与本次相邻的上一次更新得到的为θ₁。若第j个目标转移样本位于第一组，则对应的K＝5，也即采用与θ₁、θ₂、θ₃、θ₄、θ₅分别对应的在评估网络下的动作值最大动作值Q(s_j(t+1),a^* _j；θ_k)计算评估网络下的最大平均动作值，采用与θ₁、θ₂、θ₃、θ₄、θ₅分别对应的在目标网络下的动作值最大动作值Q(s_j(t+1),a^* _j；θ_k ^-)计算目标网络下的最大平均动作值；若第j个目标转移样本位于第二组，则对应的K＝10，也即采用与θ₁、θ₂、θ₃、θ₄、θ₅、θ₆、θ₇、θ₈、θ₉和θ₁₀分别对应的在评估网络下的动作值最大动作值Q(s_j(t+1),a^* _j；θ_k)计算评估网络下的最大平均动作值，采用与θ₁、θ₂、θ₃、θ₄、θ₅、θ₆、θ₇、θ₈、θ₉和θ₁₀分别对应的在目标网络下的动作值最大动作值Q(s_j(t+1),a^* _j；θ_k ^-)计算目标网络下的最大平均动作值。若先前更新得到的评估网络参数例如为W个，W小于K，也即没有达到K个，则采用W个θ_k和θ_k ^-计算相应的评估网络下的最大平均动作值和目标网络下的最大平均动作值。

依据目标值、第j个目标转移样本及第三计算关系式得到本次更新后的评估网络参数；其中，第三计算关系式为：

θ”≈arg min_θE_D[(y_j ^AWDDQN-Q(s_jt,a_jt；θ))²]，其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ”表示本次更新后的评估网络参数，并用θ”替换θ以用于后续计算。

可以理解的是，本实施例中在对评估网络参数进行更新时，能够使更新后的评估网络参数更加优化，有利于进一步优化最终得到的评估网络参数，进一步能够使得到的游戏策略更优，以便更进一步提高玩家的游戏体验。

其中，与上述基于时间差分误差的权重平均值深度双Q网络方法对应的具体算法如下：

还需要说明的是，本实施例中的基于时间差分误差的权重平均值的深度双Q网络模型的网络结构如图3所示：该网络可以由三个卷积层和两个全连接层构成；第一个卷积层为32个步幅为4的8×8的过滤器，第二个卷积层为64个步幅为2的4×4的过滤器，第三个卷积层为64个步幅为1的3×3的过滤器，最后隐藏层是由512个神经元组成的全连接线性层，输出层神经元数量和游戏合法动作数量相同，网络的输入是游戏的4帧画面，输出是该游戏状态下每个动作的Q值。

在上述实施例的基础上，本发明实施例提供了一种游戏策略计算装置，具体请参照图4。该装置包括：

建立模块21，用于预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

分析模块22，用于采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

计算模块23，用于依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值；

确定模块24，用于依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略。

需要说明的是，本发明实施例提供的游戏策略计算装置具有与上述实施例中所提供的游戏策略计算方法相同的有益效果，对于本实施例中所涉及到的游戏策略计算方法的具体介绍请参照上述实施例，本申请在此不再赘述。

在上述实施例的基础上，本发明实施例提供了一种游戏策略计算系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述游戏策略计算方法的步骤。

例如，本实施例中的处理器用于实现预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值；依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略。

在上述实施例的基础上，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述游戏策略计算方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种游戏策略计算方法，其特征在于，包括：

2.根据权利要求1所述的游戏策略计算方法，其特征在于，所述预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程为：

3.根据权利要求2所述的游戏策略计算方法，其特征在于，所述采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新的过程为：

S310：根据第j个目标转移样本计算评估网络具有最大动作值的动作a^* _j和评估网络具有最小动作值的动作a_Lj；其中， Q(s_j(t+1),a；θ)表示评估网络中状态s_j(t+1)下的动作值，s_j(t+1)表示第j个目标转移样本中的状态s_m(t+1)，θ表示当前评估网络参数；

其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ'表示本次更新后的评估网络参数，并用所述θ'替换所述θ以用于后续计算。

4.根据权利要求2所述的游戏策略计算方法，其特征在于，在所述S260之前，所述方法还包括：

计算各个所述目标转移样本的时间差分误差；

5.根据权利要求2所述的游戏策略计算方法，其特征在于，所述依据所述第j个目标转移样本、与所述第j个目标转移样本对应的K值及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数的过程为：

根据第j个目标转移样本计算评估网络具有最大动作值的动作a^* _j和评估网络具有最小动作值的动作a_Lj；其中， Q(s_j(t+1),a；θ)表示评估网络中状态s_j(t+1)下的动作值，s_j(t+1)表示第j个目标转移样本中的状态s_m(t+1)，θ表示当前评估网络参数；

其中，Q(s_jt,a_jt；θ)为，s_jt为第j个目标转移样本中的状态s_mt，a_jt为第j个目标转移样本中的动作a_mt，E_D表示期望值，θ”表示本次更新后的评估网络参数，并用所述θ”替换所述θ以用于后续计算。

6.一种游戏策略计算装置，其特征在于，包括：

7.一种游戏策略计算系统，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任意一项所述游戏策略计算方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述游戏策略计算方法的步骤。