CN116205298A

CN116205298A - 一种基于深度强化学习的对手行为策略建模方法及系统

Info

Publication number: CN116205298A
Application number: CN202310105519.5A
Authority: CN
Inventors: 石兵; 李顺; 鲁艳; 李帅; 潘玉婷
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-06-02

Abstract

本发明公开了一种基于深度强化学习的对手行为策略建模方法及系统。首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈，通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型，并在博弈过程中通过意图识别实时地获取对手决策意图。然后利用大量历史行为数据，通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进，共同训练出一个能感知对手决策意图的对手行为模型。本发明公开的对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下，实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。

Description

一种基于深度强化学习的对手行为策略建模方法及系统

技术领域

本发明属于人工智能技术领域，涉及一种对手行为策略建模方法及系统，具体涉及一种基于深度强化学习的对手行为策略建模方法及系统。

背景技术

近年来，人工智能技术的进步引领多智能体博弈领域飞速发展。例如：AlphaGo在完全信息的围棋博弈中战胜人类选手李世石；AlphaZero通过自博弈强化学习的方法击败了AlphaGo；德州扑克博弈程序DeepStack和Libratus在一种不完全信息博弈中打败了职业选手等等。在游戏人工智能、自动驾驶、机器人集群控制等应用场景的多智能体系统中，智能体具有感知、决策、行动等多种能力。但是随着博弈的规模扩大，解析和逼近最佳策略都存在着巨大的挑战。其中，多智能体博弈的策略学习往往需要通过观察其他智能体，建立除自身以外的其他智能体抽象模型，推理其行为、意图等，此过程就涉及到对手行为策略建模。因此多智能体博弈的策略学习需着力研究对手行为策略建模，以不断提升对抗能力。

建立对手行为策略模型是为了使智能体能够适应对手并利用其弱点来提高智能体的决策能力。目前现有的对手行为策略建模技术大致可以分为显式建模、隐式建模、基于多智能体强化学习的建模方法。首先，显式对手行为策略建模可看作一个通过输入可观测到的智能体的历史交互信息，输出对智能体行为、目的、偏好的预测，常用的显式对手行为策略建模方法可以分为计划行动意图识别方法、行为分类与类型推理方法、策略重构方法、认知推理方法、博弈最佳响应方法等。但是，显式对手行为策略建模将建模和规划过程分离，在先验知识缺乏的情况下，无法有效利用已有的信息进行决策。因此，区别于显式对手行为策略建模，隐式对手行为策略建模是将对手的某些特征隐式地编码到其它结构或者推理过程中，它试图找到一个好的对抗策略而不需要直接识别对手的策略。常用的隐式对手行为策略建模方法大致可以分为基于元学习的隐式对手建模方法，在线对抗的隐式建模方法和基于对手感知的隐式建模方法。最后，多智能体强化学习相关的研究成果也不断地应用于对手行为策略建模问题中。深度强化学习有机地结合了深度学习与强化学习，前者能够增强感知与表达能力，后者提供最优决策能力，使得基于深度强化学习的对手行为策略建模技术对复杂环境中其他智能体具有更好的认知能力。

一个复杂多变的动态博弈环境往往存在着环境信息不确定、对手不停的产生新的对抗策略等问题，导致己方难以得到对手行为的先验知识。同时由于受到环境的干扰、对手欺骗等因素的影响，导致己方难以观察到整个博弈环境。这些问题都充分显示了博弈环境中充满着不确定性和部分可观测性。

结合以上情况，现有对手行为策略建模的相关技术并不适用于先验知识贫乏、可观测性差的复杂博弈环境。首先，一些技术的建模假设条件过于理想，难以应对具有高度动态性、部分可观测性的动态博弈环境；其次，传统的对手行为策略建模方法要求大量的先验知识以构建一个好的对手行为策略模型，对于本身的经验学习、规律形成机制探索不足，即未考虑先验知识缺乏下进行自我学习；最后，许多对手行为策略建模研究都缺乏对敌方意图的识别。

发明内容

本发明的目的在于提供一种基于深度强化学习的对手行为策略建模方法及系统，用于解决下述技术问题：在先验知识贫乏、部分可观测性的动态博弈环境下，实现通过在线学习构建对手行为模型的能力；基于在线学习得到的历史数据，实现通过离线学习优化对手行为模型的能力；在构建对手行为模型的同时实现实时采集交互行为获取决策意图的能力。

本发明的方法所采用的技术方案是：一种基于深度强化学习的对手行为策略建模方法，包括以下步骤：

步骤1：将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈；

所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>，其中，N是智能体集合，S是状态集合，A是动作集合，T是状态之间的条件转移概率集合，R:S×A→R是奖励函数，Ω是观察集合，O是条件观察概率集合，γ∈(0,1]是折扣因子；

在每个时间段，环境处于某种状态s∈S，智能体采取动作a¹,a²,…,a^N∈A，导致环境转换到状态s'的概率为T(s′∣s,a¹,a²,…,a^N)；每个智能体i接收观察oⁱ∈Ω的概率分别为O(oⁱ∣s′,a¹,a²,…,a^N)；智能体i接收奖励r等于R(s,ai)；每个智能体i尝试最大化它从时间t开始的累积奖励

表示智能体i在时间t时获得的奖励，γ^t表示智能体i在时间t时的折扣因子；

步骤2：初始化己方模型、对手模型和在线学习历史策略集合

所述己方模型，由策略学习网络和价值学习网络两部分组成；其中策略学习网络用于预测己方动作的概率分布，价值学习网络用于预测价值函数；两个网络共享输入层和前两个隐藏层，前两个隐藏层均包含128个神经元且采用Relu函数激活；第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层，然后输出策略概率分布π_self和价值V_self；所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活，策略学习网络的输出层采用Softmax函数激活；

所述己方模型输入己方的观察o_self、己方的目标g_self、对对手目标的估计

己方的决策意图I_self和对对手决策意图的估计/>

输出己方的策略π_self和价值函数V_self；

所述对手模型，由策略学习网络组成；

所述对手模型输入对手的观察o_other，对对手最终目标的估计

己方的目标g_self、对对手决策意图的估计/>

和己方的决策意图I_self，输出对对手策略的推测/>

步骤3：初始化博弈环境；

步骤4：获取当前时间步己方和对手的观测、对对手最终目标的估计

步骤5：根据对手的观测序列使用意图识别方法获取其决策意图；

实时采集交互行为的观测信息，并输入到加权观测隐马尔可夫模型HMM中，使用前向-后向算法得出决策意图；

所述加权观测隐马尔可夫模型HMM由观测矩阵

隐状态转移矩阵/>

初始观测向量W和初始概率分布μ组成，即/>

隐状态集为H＝{h₁,h₂,…,h_N}，观测集为Ω＝{o₁,o₂,…,o_M}，其中N为隐状态的数量，M为观测值的数量；

其中，对应于经典HMM模型，观测矩阵为

且/>

其中/>

表示在隐状态h_i下观测到o_j的概率；引入加权观测概率分布

表示在w_t条件下，隐状态h_i观测到l_t的概率，定义加权观测概率为p_hi与w_t的余弦相似度，即/>

其中/>

为矩阵/>

的第i行；在加权观测隐马尔可夫模型HMM中，将包含加权观测权重信息的加权观测概率/>

代替原观测概率/>

则实现观测信息的融合；

隐状态转移矩阵为

且/>

其中

表示t到t+1时刻，隐状态由h_i转移到h_j的概率；

观测向量

其中/>

表示隐状态观测到o_i的权值，/>

且/>

初始概率分布为

且/>

其中

为初始时刻隐状态为h_i的概率；

步骤6：由己方模型f_self得到己方策略函数π_self和己方价值函数V_self，并根据己方策略函数进行动作采样后并执行a_self←π_self；

其中，θ_self是f_self的网络参数；a_self是己方采取的动作；

步骤7：从博弈环境中得到即时收益、下一个时间步的环境信息，将经验存入在线学习历史策略集合

中；

步骤8：根据智能体获得的奖励

更新己方模型f_self与对手模型f_other中的网络参数θ_self与θ_other；

步骤9：判断当前时刻是否为终止状态；若不是，则更新时间步，回转执行步骤4；否则，本轮训练结束，继续判断整体训练是否结束；若未结束，回转执行步骤3，若结束训练，顺序执行步骤10；

步骤10：判断是否需要对智能体进行离线训练；若继续，顺序执行步骤11，否则，结束；

步骤11：执行根据在线学习历史策略集合

对对手和己方智能体进行离线学习，从而迭代优化己方模型和对手模型；

步骤12：判断是否继续进行在线训练；若己方胜率小于阈值，则继续进行在线训练，回转执行步骤3；否则结束。

本发明的系统所采用的技术方案是：一种基于深度强化学习的对手行为策略建模系统，包括以下模块：

模块1，用于将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈；

在每个时间段，环境处于某种状态s∈S，智能体采取动作a¹,a²,…,a^N∈A，导致环境转换到状态s'的概率为T(s′∣s,a¹,a²,…,a^N)；每个智能体i接收观察oⁱ∈Ω的概率分别为O(oⁱ∣s′,a¹,a²,…,a^N)；智能体i接收奖励r等于R(s,aⁱ)；每个智能体i尝试最大化它从时间t开始的累积奖励

模块2，用于初始化己方模型、对手模型和在线学习历史策略集合

己方的决策意图I_self和对对手决策意图的估计/>

输出己方的策略π_self和价值函数V_self；

所述对手模型，由策略学习网络组成；

所述对手模型输入对手的观察o_other，对对手最终目标的估计

己方的目标g_self、对对手决策意图的估计/>

和己方的决策意图I_self，输出对对手策略的推测/>

模块3，用于初始化博弈环境；

模块4，用于获取当前时间步己方和对手的观测、对对手最终目标的估计

模块5，用于根据对手的观测序列使用意图识别方法获取其决策意图；

所述加权观测隐马尔可夫模型HMM由观测矩阵

隐状态转移矩阵/>

初始观测向量W和初始概率分布μ组成，即/>

其中，对应于经典HMM模型，观测矩阵为

有/>

且/>

其中/>

表示在隐状态h_i下观测到o_j的概率；引入加权观测概率分布/>

表示在w_t条件下，隐状态h_i观测到l_t的概率，定义加权观测概率为/>

与w_t的余弦相似度，即/>

其中/>

为矩阵/>

代替原观测概率

则实现观测信息的融合；

隐状态转移矩阵为

且/>

其中

表示t到t+1时刻，隐状态由h_i转移到h_j的概率；

观测向量

其中/>

表示隐状态观测到o_i的权值，/>

且

初始概率分布为

且/>

其中

为初始时刻隐状态为h_i的概率；

模块6，用于由己方模型f_self得到己方策略函数π_self和己方价值函数V_self，并根据己方策略函数进行动作采样后并执行a_self←π_self；

其中，θ_self是f_self的网络参数；a_self是己方采取的动作；

模块7，用于从博弈环境中得到即时收益、下一个时间步的环境信息，将经验存入在线学习历史策略集合

中；

模块8，用于根据智能体获得的奖励

模块9，用于判断当前时刻是否为终止状态；若不是，则更新时间步，回转执行模块4；否则，本轮训练结束，继续判断整体训练是否结束；若未结束，回转执行模块3，若结束训练，顺序执行模块10；

模块10，用于判断是否需要对智能体进行离线训练；若继续，顺序执行模块11，否则，结束；

模块11，用于执行根据在线学习历史策略集合

模块12：用于判断是否继续进行在线训练；若己方胜率小于阈值，则继续进行在线训练，回转执行步骤3；否则结束。

本发明围绕动态博弈环境下的对手建模问题，利用深度强化学习技术提出了一种对手建模方法。具体地，本发明首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈，通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型，并在博弈过程中通过意图识别方法实时地获取对手决策意图以学习其策略。然后利用在线学习时的大量历史行为数据，通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进，共同训练出一个能感知对手决策意图的对手行为模型。本发明不仅考虑了高度动态性、部分可观测性的博弈环境，还考虑了在构建对手行为模型时先验知识贫乏的情况。该对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下，实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。

相比于现有的对手建模方法，首先，本发明公开的基于深度强化学习的对手建模方法不依赖于特定领域知识，即构建了一个通用的对手建模框架。其次，本发明能应用到先验知识贫乏、可观测性差的动态博弈环境中，在较好地适应动态变化的对手策略的同时利用其弱点制定己方相应的反制策略。最后，本发明实现了对手决策意图实时识别模块，该模块能准确、高效地感知对手意图，有助于进一步提升己方智能体的决策能力。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的己方模型结构图；

图3为本发明实施例的对手模型结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于深度强化学习的对手行为策略建模方法，包括以下步骤：

部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>，其中，N是智能体集合，S是状态集合，A是动作集合，T是状态之间的条件转移概率集合，R:S×A→R是奖励函数，Ω是观察集合，O是条件观察概率集合，γ∈(0,1]是折扣因子；

在每个时间段，环境处于某种状态s∈S，智能体采取动作a¹,a²,…,a^N∈A，导致环境转换到状态s'的概率为T(s′∣s,a¹,a²,…,a^N)；每个智能体i接收观察oⁱ∈Ω的概率分别为O(oⁱ∣s′,a¹,a²,…,a^N)，它取决于环境的新状态；智能体i接收奖励r等于R(s,aⁱ)，然后重复该过程；每个智能体i尝试最大化它从时间t开始的累积奖励

步骤2：初始化己方模型、对手模型和在线学习历史策略集合

/>

请见图2，本实施例的己方模型，由策略学习网络和价值学习网络两部分组成；其中策略学习网络用于预测己方动作的概率分布，价值学习网络用于预测价值函数；两个网络共享输入层和前两个隐藏层，前两个隐藏层均包含128个神经元且采用Relu函数激活；第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层，然后输出策略概率分布π_self和价值V_self；策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活，策略学习网络的输出层采用Softmax函数激活；

己方模型输入己方的观察o_self、己方的目标g_self、对对手目标的估计

己方的决策意图I_self和对对手决策意图的估计/>

输出己方的策略π_self和价值函数V_self；

请见图3，本实施例的对手模型，由策略学习网络组成；

对手模型输入对手的观察o_other，对对手最终目标的估计

己方的目标g_self、对对手决策意图的估计/>

和己方的决策意图I_self，输出对对手策略的推测/>

步骤3：初始化博弈环境；

其中，

为初始时随机初始化的对对手目标的估计，并通过softmax()函数进行分类分布采样，然后采用one_hot()函数通过独热编码的方式进行编码，对采样得到的离散结果进行特征数字化；Argmax()函数是是求括号内的函数取得最大值时的自变量点集。

实时采集交互行为的观测信息，并输入到加权观测隐马尔可夫模型HMM中，使用前向-后向算法(Forward-backward algorithm)得出决策意图；

本实施例的加权观测隐马尔可夫模型HMM由观测矩阵

隐状态转移矩阵/>

初始观测向量W和初始概率分布μ组成，即/>

其中，对应于经典HMM模型，观测矩阵为

有/>

且

其中/>

与w_t的余弦相似度，即/>

其中/>

为矩阵/>

代替原观测概率

则实现观测信息的融合；/>

隐状态转移矩阵为

且/>

其中

表示t到t+1时刻，隐状态由h_i转移到h_j的概率；

观测向量

其中/>

表示隐状态观测到o_i的权值，/>

且/>

初始概率分布为

且/>

其中

为初始时刻隐状态为h_i的概率。

本实施例的不同的决策意图对应于不同的加权观测隐马尔可夫模型HMM，已知不同加权观测隐马尔可夫模型HMM的参数{λ₁,λ₂,…,λ_n}，观测向量O和观测序列L的条件下，计算出不同加权观测隐马尔可夫模型HMM下观测序列为L的概率

通过比较概率来得出最有可能的决策意图；

首先在初始阶段计算t＝1时刻的前向概率

接着根据递推公式计算全时刻的前向概率/>

最后将求得的全时刻的前向概率α_t(h_k)求和即可得观测序列概率P_L+＝α_T(h_k)。

本实施例的加权观测隐马尔可夫模型HMM，为训练好的加权观测隐马尔可夫模型HMM；训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ₁,λ₂,...,λ_n}，然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计，直到加权观测隐马尔可夫模型HMM收敛。

其中，θ_self是f_self的网络参数；a_self是己方采取的动作；

中；

步骤8：根据智能体获得的奖励

利用A3C算法更新己方模型f_self与对手模型f_other中的网络参数θ_self与θ_other；

步骤11：执行根据在线学习历史策略集合

对对手和己方智能体进行离线学习，从而迭代优化己方模型和对手模型；/>

步骤11的具体实现包括以下子步骤：

步骤11.1：基于历史策略集合

需要训练的智能体n_learning，生成对手智能体集合N＝{n₁,n₂,...,n_k}；

步骤11.2：计算需要对抗的智能体数量num_opponents；

其中，len(N)表示当前己方智能体的数量，max_agents表示最大智能体数量，其数量不小于100；

步骤11.3：计算智能体n_learning对智能体集合N中每一个智能体n_j的胜率；

其中，game_times为博弈的总次数；当第k局己方智能体n_learning赢了对手智能体n_j的时候，flag(n_learning,n_j,k)＝1，否则为0；

步骤11.4：通过设置f:[0,1]→[0,+∞)权重函数的不同形式，让正在学习的智能体n_learning关注不同实力的对手，具体表示为：

f(P[n_learning beatsn_j])；

其中，设置f_hard(P[n_learning beatsn_j])＝(1-x)^p，将使得正在学习的智能体n_learning更加关注厉害的对手，p是一个常数，反映了熵的分布情况，x表示己方智能体n_learning打败智能体n_j的胜率；比如：对于一个胜率为0的智能体来说，P[n_learning beats n_j]＝1，从而f_hard(1)＝0，意味着实力越弱的对手被挑选的概率越小；

设置f_var(P[n_learning beats n_j])＝x(1-x)，将使得正在学习的智能体n_learning关注那些实力相近的对手，当胜率越接近时，被挑选的概率越大；由函数的性质可知，当双方胜率持平时，被挑选作为对手的概率最大；

步骤11.5：设置对手优先级，在离线学习的前期多智能体多选择和自己水平相近的对手，在离线学习的后期，重点选择实力更强的对手；按如下的函数决定f的选取，相关设定如下：

其中，j表示智能体集合N中的第j个智能体，threshold为大于0.5的常数；

步骤11.6：重复执行步骤117～11.8num_opponents次；

步骤11.7：依据优先级从智能体集合中随机选出一个对手智能体n_opponent；

步骤11.8：按照对手类型的不同，采用不同的对抗设定让n_apponent和n_learning进行虚拟博弈，不断更新两个智能体的策略；其中，n_learning表示己方智能体。

步骤11.8的具体实现包括以下子步骤：

步骤11.8.1：初始化n_opponent的策略集合、经验池、策略函数Π和n_apponent的最终目标：

步骤11.8.2：n_learning使用策略集合Π中的动作：action_learning←π_learning；

步骤11.8.3：n_opponent使用的混合策略采样动作：action_opponent←σ_opponent，混合策略采样动作为：使用参数为α的概率输出一个混合策略σ，即：

σ＝αΠ+(1-α)Q；

步骤11.8.4：执行动作：action_learning,action_opponent；

步骤11.8.5：推测对手智能体的目标：

其中，gumbel_softmax()为现有的采样函数，其目的为：对离散的对手目标g_opponent进行采样；

步骤11.8.6：根据输入对手的观察o_opponent、对手的最终目标

己方目标g_self、对手决策意图的估计/>

己方决策意图的估计I_learning，得到对手智能体策略的推测/>

步骤11.8.7：根据推测的对手智能体的策略

和对手智能体的真实的动作a_other计算损失：

其中，cross_entropy_loss()为交叉熵损失函数；

步骤11.8.8：更新对手智能体的目标估计

步骤11.8.9：根据获得的回报及状态信息，使用深度强化学习更新对手智能体的策略，即更新智能体n_opponent；根据获得的回报更新θ_learning，即更新智能体n_learning；

模块11.8.10：将迭代优化后的智能体n_learning和n_opponent作为新的己方和对手模型。

本实例基于深度强化学习的对手建模方法，在先验知识贫乏、可观测性差的动态博弈环境下，实现了通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的对手行为策略建模方法，其特征在于，包括以下步骤：

r_t ⁱ表示智能体i在时间t时获得的奖励，γ^t表示智能体i在时间t时的折扣因子；

步骤2：初始化己方模型、对手模型和在线学习历史策略集合

己方的决策意图I_self和对对手决策意图的估计/>

输出己方的策略π_self和价值函数V_self；

所述对手模型，由策略学习网络组成；

所述对手模型输入对手的观察o_other，对对手最终目标的估计

己方的目标g_self、对对手决策意图的估计/>

和己方的决策意图I_self，输出对对手策略的推测/>

步骤3：初始化博弈环境；

实时采集交互行为的观测信息输入到加权观测隐马尔可夫模型HMM中，使用前向-后向算法得出决策意图；

所述加权观测隐马尔可夫模型HMM由观测矩阵

隐状态转移矩阵/>

初始观测向量W和初始概率分布μ组成，即/>

其中，对应于经典HMM模型，观测矩阵为

有/>

且/>

其中

表示在隐状态h_i下观测到o_j的概率；引入加权观测概率分布

与w_t的余弦相似度，即/>

其中/>

为矩阵/>

代替原观测概率/>

则实现观测信息的融合；

隐状态转移矩阵为

且/>

其中

表示t到t+1时刻，隐状态由h_i转移到h_j的概率；

观测向量

其中/>

表示隐状态观测到o_i的权值，/>

且

初始概率分布为

且/>

其中/>

为初始时刻隐状态为h_i的概率；

其中，θ_self是f_self的网络参数；a_self是己方采取的动作；

中；

步骤8：根据智能体获得的奖励r_t ⁱ，利用A3C算法更新己方模型f_self与对手模型f_other中的网络参数θ_self与θ_other；

步骤11：根据在线学习历史策略集合

2.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法，其特征在于：步骤4中，

其中，/>

为初始时随机初始化的对对手目标的估计，并通过softmax()函数进行分类分布采样，然后采用one_hot()函数通过独热编码的方式进行编码，对采样得到的离散结果进行特征数字化；Argmax()函数是求括号内的函数取得最大值时的自变量点集。

3.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法，其特征在于：步骤5中，所述加权观测隐马尔可夫模型HMM，为训练好的加权观测隐马尔可夫模型HMM；训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ₁,λ₂,...,λ_n}，然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计，直到加权观测隐马尔可夫模型HMM收敛。

4.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法，其特征在于：步骤5中，不同的决策意图对应于不同的加权观测隐马尔可夫模型HMM，已知不同加权观测隐马尔可夫模型HMM的参数{λ₁,λ₂,…,λ_n}，观测向量O和观测序列L的条件下，计算出不同加权观测隐马尔可夫模型HMM下观测序列为L的概率