CN113807230A

CN113807230A - 基于主动强化学习的装备目标识别方法及人机智能体

Info

Publication number: CN113807230A
Application number: CN202111072496.XA
Authority: CN
Inventors: 刘忠; 陈丽; 冯旸赫; 黄金才; 程光权; 张驭龙; 杨静; 张龙飞; 许乃夫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-17
Anticipated expiration: 2041-09-14
Also published as: CN113807230B

Abstract

本发明提供了一种基于主动强化学习的装备目标识别方法及人机智能体，通过获取目标单元的时间态势，并进行特征向量编码，输入神经网络模型进行训练，在每个时间点模型自动推断是否需要引入人类经验指导进行学习训练，并得到每个目标单元在各时间步的目标预测结果及一个时间片段的目标分类结果，最后根据奖赏值对网络模型进行更新。本发明通过将人类经验指导引入机器的目标分类学习中，根据训练数据的模型输出结果自动推断出如何识别目标类别，经实验验证，在引入人类经验指导的模型训练后，可以实现更精确的目标分类，大大减少了人力消耗。

Description

基于主动强化学习的装备目标识别方法及人机智能体

技术领域

本发明属于机器学习领域，尤其涉及一种基于主动强化学习的装备目标识别方法及人机智能体。

背景技术

在未来战场中，随着作战环境变得越来越复杂，其信息化程度呈指数级增长。作战单元，尤其是无人机，迫切需要具备自主智能决策能力。而目标的识别分类作为自动化指挥系统的重要组成部分，不仅是战场态势认知和威胁评估的基础，而且是指挥员进行决策的前提条件。因此，作战飞机必须整合各种目标态势信息实现对探测目标的有效分类，以此完成战场的态势威胁评估，这也是作战飞机智能自主作战的关键环节。

目前，国内外的研究人员已经提出了各种方法来进行目标识别和分类，可以大致分为三个方面:基于HRRP(High Resolution Range Profile，HRRP) 的雷达目标识别、基于SAR(Synthetic Aperture Radar，SAR)的自动目标识别、红外图像(Infrared Images，IR)中的目标识别。HRRP信号因其获取容易，处理简单，存取方便这些优势使得基于HRRP的目标识别方法引起了广泛研究,但是，其识别效果易受目标方位、平移和振幅灵敏度等因素的干扰，而且HRRP作为一维信号，相比于基于雷达的二维图像,其提供的目标信息非常有限；随着能够处理图像中检测和分类的卷积神经网络 (Convolutional Neural Network,CNN)的引入，基于SAR的雷达目标识别方法得到了研究人员的广泛关注。但是这些工作只考虑最大化分类精度，没有将深度神经网络引入的计算代价和网络复杂性考虑在内。基于IR这个常规成像方式的已有工作主要集中在自动目标跟踪，分类和识别，但是这些工作在目标识别过程中对输入质量要求极高。而相机传感器的红外辐射又因为气象条件和传感器校准等条件导致其变化多端。

最重要的是，这些工作虽然一定程度上解决了目标的识别分类问题，但其大多数都需要大规模高质量的标注数据集来支持模型训练。然而，战争与一般的棋类或博弈类游戏有着本质的区别，其特殊性质决定了研究战争所需的样本数据特别少，而且数据大部分是未标注的、或者注释模糊甚至错误的。

发明内容

本发明要解决的技术问题是怎样在实现高精度的目标分类的同时尽可能的减少标签注释带来的人力物力的消耗，提出了一种基于主动强化学习的装备目标识别方法及人机智能体。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于主动强化学习的装备目标识别方法，包括以下步骤：

步骤1：获取一个时间片段内探测到的所有目标单元的时变态势信息，所述时间片段是指具有固定时长的探测片段；

步骤2：对一个时间片段内各时间步上每个目标单元的所有跟踪信号进行特征向量编码，所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标单元的跟踪信号集合；

步骤3：将进行特征向量编码后的每个目标单元的跟踪信号输入神经网络模型，神经网络模型推断是否需要引入人类经验指导进行学习训练，得到每个目标单元在各时刻点的目标预测结果；

步骤4：根据每个目标单元各时间步的目标预测结果得到一个时间片段内每个目标单元的目标分类结果，所述目标分类结果是指以最小的时间步数获得的最稳定的判定结果。

进一步地，步骤3中所述神经网络模型推断是否需要引入人类经验指导进行学习训练，其推断的方法取决于决策值dv_t，dv_t＝jr_t/n_cg，jr_t表示将目标单元的态势信息的时序观测序列输入到神经网络模型后网络模型输出的判断结果，n_cq表示目标的总种类个数，如果dv_t＝1表示智能体决定引入人类经验指导实现更高的识别精度，反之，dv_t＝0表示智能体推断出由神经网络模型独立完成目标识别可实现更高的识别精度。

进一步地，步骤3中对所述神经网络模型由一个长短时记忆网络和一个全连接输出层组成。

进一步地，对所述神经网络模型的训练方法是：

步骤3.1：输入第i个探测目标Tuⁱ的时序观测序列

其中，gc_t表示在第t个时间步引入人类经验指导值，tu_t∈R^m是第i个探测目标Tuⁱ在时间步t的态势特征，T是在每个时间片段目标被追踪的时间长度，m是特征维度数；

Mode 1和Mode 2两个模式表示不同等级的人类经验指导，Mode 1是更容易获得但价值较低的目标类型线索，Mode 2是耗劳力较多但价值也高的目标类别标签；

步骤3.2：神经网络模型输出每一时间步的动作效用评估值Q值

其中，元素

表示神经网络模型在时间步t对输入的观测值o_t采取动作a_t后得到的效用评估值；

q(o_t，a_t)＝W^hqh_t+b^q

其中，W^hq是LSTM输出层与动作值之间的映射权值，b^q是动作阈值，h_t是LSTM网络的输出值，

A表示动作空间；

步骤3.3：计算一个时间片段内动作效用评估值Q值的总体期望值：

其中，

时长为T的时间片段内每一个时间步的Q值q(o_t，a_t) 组成的集合，动作

的选择，采用ε-greedy策略：

步骤3.4：计算相应的奖赏值；

其中，

表示模型对目标种类的预测结果，

表示目标真实种类标签；且：

R_gcor表示在提供了人为判断经验的情况下正确识别目标的奖励，R_ginc表示在提供了人为判断经验的情况下错误识别目标的奖励，R_pcor表示由神经网络模型自主预测目标种类结果正确时的奖励；R_pinc表示由神经网络模型自主预测目标种类结果错误时的奖励；

步骤3.5：根据贝尔曼公式，对由当前动作a_t导致的下一步状态o_t+1进行评估：

其中，

γ是决定智能体视野长短的折扣因子。

步骤3.6：计算神经网络模型的代价函数值Td_error：

Td_error＝Q(o′，a′)-Q(o，a)

步骤3.7：计算损失函数并对神经网络模型进行更新：

其中，E_{(o，a，r，o′)}表示一个时间片段内代价函数值Td_error的期望值，θ 是包括了W^hq和b^q参数在内的神经网络模型的模型参数，Q(o_t+1，a_t+1；θ)表示在神经网络模型参数θ下的评估值Q(o_t+1，a_t+1)；

步骤3.8：重复步骤3.1至3.7，直到达到预设的迭代步数停止，得到训练好的神经网络模型。

本发明还提供了一种人机智能体，使用所述的目标识别方法训练的神经网络模型。

本发明还提供了一种基于主动强化学习的装备目标识别装置，包括以下模块：

态势信息获取模块：用于获取一个时间片段内探测到的所有目标单元的时变态势信息，所述时间片段是指具有固定时长的探测片段；

特征向量编码模块：用于对一个时间片段内各时间步上每个目标单元的所有跟踪信号进行特征向量编码，所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标单元的跟踪信号集合；

目标预测模块：用于将进行特征向量编码后的每个目标单元的跟踪信号输入神经网络模型，神经网络模型推断是否需要引入人类经验指导进行学习训练，得到每个目标单元在各时间步的目标预测结果；

目标分类模块：用于根据每个目标单元各时间步的目标预测结果得到一个时间片段内每个目标单元的目标分类结果，所述目标分类结果是指以最小的时间步数获得的最稳定的判定结果。

采用上述技术方案，本发明具有如下有益效果：

本发明提供的一种基于主动强化学习的装备目标识别方法，基于主动学习理论和强化学习策略，通过将人类经验指导与机器的数据学习智能结合，将人类经验指导引入机器的目标分类学习中，根据训练数据的模型输出结果自动推断出如何在低成本需求的情况下进行包含装备信息的目标种类的精准识别，经实验验证，在引入人类经验指导的模型训练后，可以实现更精确的目标分类，大大减少了人力消耗。

附图说明

图1为本发明目标识别的任务框架图；

图2为网络模型训练示意图；

图3(a)为每个训练批片段的分类精度示意图；(b)为每个时间步的分类精度示意图；

图4TCARL_H Mode1，Mode2，(a)为监督模型在每个训练批片段，(b)为每个时间步的预测精度比较；

图5TCARL_M-H Mode1，Mode2，QBC(a)为每批次预测精度示意图，(b) 为每时间步预测精度示意图；(c)为训练片段的经验指导率，(d)为时间步的经验指导率；

图6为TCARL_M在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)；

图7为TCARL_H Mode 1在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)；

图8为TCARL_H Mode 2在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)；

图9为监督模型在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)；

图10为TCARL_H Mode 1、Mode 2和监督模型的分类精度比对；

图11为TCARL_M-H Mode 1在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)，和经验指导率(d)；

图12为TCARL_M-H Mode 2在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)，和经验指导率(d)。

图13为QBC在每个片段ST＝5，20，40时的稳定率(a)，分类速度(b)，分类精度(c)；

图14为TCARL_H-M Mode 1、Mode 2和QBC的分类精度(a)，经验指导率(b) 比对。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于一个空战推演平台的仿真数据对涵盖了地面和空中的探测到的所有目标进行了分类研究。为了在实现高效目标分类的同时尽可能的减少标签注释带来的人力物力的消耗，为下一步的态势威胁评估奠定基础，本发明基于强化学习策略，结合主动学习理论，提出了一个人机智能体TCARL_H-M，去学习什么时候引入人类经验指导，如何自主的将作战目标归于定义好的带有装备信息的特定种类中，也就是说，武器装备不同的同一类型的目标属于不同种类。同时，设置了Mode 1和Mode 2两个模式来模拟不同等级的经验指导，前者是更容易获得但价值较低的目标类型线索，比如攻击机，轰炸机，轮船，雷达，导弹营等等，后者是耗劳力较多但价值也高的目标类别标签，是具体型号，比如攻击机的su25，k16等等。此外，本发明也提出了一个人类零参与的机器学习者TCARL_M 和人类全程参与的干预者TCARL_H来分析人类经验指导和机器数据学习各自在目标分类任务中的作用。最后，通过与TCARL_M、TCARL_H、纯监督模型和传统主动学习算法QBC相比，在目标预测和目标分类的任务中验证了TCARL_H-M可以在人类经验指导需求和目标分类精度之间实现更好的均衡。

由于在复杂战场态势下单靠学习算法进行作战单元的目标识别，一方面相比于人脑判断，算法的局限性很容易产生目标误判结果，另一方面大多数算法需要大量带标签数据进行训练学习，而可用的带标签对战数据又十分稀缺。众所周知，主动学习方法作为降低数据标签成本的有效方法之一，已经在各个领域得到了广泛研究。

本发明结合主动学习设定了如图1所示的用于战场目标识别的任务框架，试图开发一种通过学习人类分析人员的决策来提高机器的学习性能的目标分类智能体。那么如何找到将人类指导经验与学习算法结合的最优策略，从而提高机器的学习性能进行目标分类就显得尤为重要。

图1至图14示出了本发明一种基于主动强化学习的装备目标识别方法，如图1所示，包括以下步骤：

步骤1：获取一个时间片段内探测到的所有目标单元的时变态势信息TU＝{Tu¹，…，Tuⁱ，…，Tu^N}，其中，Tuⁱ指的是第i个目标态势，N指的是在每个时间片段探测到的目标个数；所述时间片段是指具有固定时长的探测片段；

步骤2：对一个时间片段内各时间步上每个目标单元的所有跟踪信号进行特征向量编码

其中，tu_t∈R^m是目标Tuⁱ在时刻t的态势特征，T是在每个时间片段目标被追踪的时间长度，m是特征维度数；所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标单元的跟踪信号集合。

步骤3：将进行特征向量编码后的每个目标单元的跟踪信号输入神经网络模型，神经网络模型推断是否需要引入人类经验指导进行学习训练，得到每个目标单元在各时间步的目标预测结果Tpⁱ＝{tp₁，…，tp_t，…，tp_T}， tp_t＝jr_t％n_cg，tp_t指的是神经网络模型在t时间步经过对该目标的前t-1个时间步的历史信息的分析处理得到的预测结果；

本实施例中的所述神经网络模型TCARL_H-M由一个长短时记忆网络和一个全连接输出层组成，如图2所示。

本实施例中，对所述神经网络模型的训练方法是：

步骤3.1：输入第i个探测目标Tuⁱ的时序观测序列

其中，gc_t表示在第t个时间步引入人类经验指导线索，tu_t∈R^m是第i个探测目标Tuⁱ在时间步t 的态势特征，T是在每个时间片段目标被追踪的时间长度，m是特征维度数；

对于每一个时间步t，给一个目标的探测态势信息tu_t作为训练数据输入到网络模型，网络模型会输出相应的判断结果jr_t。其中，jr_t是在[0，2n_cg-1] 范围内的一个数值，它蕴含了决策值dv_t＝jr_t\n_cg和目标预测结果tp_t＝ jr_t％n_cg这两部分的信息，n_cg是目标单元的总种类个数。如果dv_t＝1，则表示智能体决定引入人类判断经验作为学习指导，反之，dv_t＝0表示智能体推断出由神经网络模型独立完成目标识别可实现更高的识别精度。

在下一个时刻t+1，人类指导线索gc_t将与tu_t+1一起作为网络的输入，其中，gc_t取决于决策值dv_t：

其中，独热编码的

是由Mode 1模拟的更容易获得但价值较低的目标类型线索，独热编码的

是由Mode 2模拟的耗劳力较多但价值也高的目标类别标签，n_ty和n_cl分别指的是目标总共的类型个数和类别个数。因此，对于整个探测时间片段，网络模型的输入序列为

在实验中，设置了Mode 1 和Mode 2两个模式来模拟不同等级的经验指导，前者Mode 1是更容易获得但价值较低的目标类型线索，比如攻击机，轰炸机，轮船，雷达，导弹营等目标类型，后者Mode 2是耗劳力较多但价值也高的目标类别标签，是具体型号，比如攻击机的su25，k16等具有具体型号的目标类型。

步骤3.2：神经网络模型输出每一时间步的动作效用评估值Q值

其中，元素

表示神经网络模型在时间步t对输入的观测值ot采取动作at后得到的效用评估值；

q(o_t，a_t)＝W^hqh_t+b^q

A表示动作空间；

其中，

的选择，采用ε-greedy策略：

步骤3.4：计算相应的奖赏值；

其中，

表示模型对目标种类的预测结果，

表示目标真实种类标签。且：

R_gcor表示在提供了人为判断经验的情况下正确识别目标的奖励，R_ginc表示在提供了人为判断经验的情况下错误识别目标的奖励，R_pcor表示由神经网络模型自主预测目标种类结果正确时的奖励；R_pinc表示由神经网络模型自主预测目标种类结果错误时的奖励。

其中，

γ是决定智能体视野长短的折扣因子。

步骤3.6：计算神经网络模型的代价函数值Td_error：

Td_error＝Q(o′，a′)-Q(o，a)

步骤3.7：计算损失函数并对神经网络模型进行更新：

其中，E_{(o，a，r，o′)}表示一个时间片段内代价函数值Td_error的期望值，θ 是包括了W^hq和b^q参数在内的神经网络模型的模型参数，Q(o_t+1，a_t+1；θ)表示在神经网络模型参数θ下的评估值Q(o_t+1，a_t+1)。

本发明通过将人类经验指导与机器的数据学习智能结合，将人类经验指导引入机器的目标分类学习中，根据训练数据的模型输出结果自动推断出如何在低成本需求的情况下进行包含装备信息的目标种类的精准识别。

步骤4：根据每个目标单元各时间步的目标预测结果得到每个目标单元的目标分类结果TC＝{tc¹，...，tcⁱ，...，tc^N}，tcⁱ∈TPⁱ，所述目标分类结果是指一个时间片段内以最小的时间步数获得的稳定的判定结果；所述稳定的判定结果是指根据预先设定的稳定阈值ST，如果在连续ST个时间步输出同一个种类，则称为稳定。

本实施例中，通过将人类经验指导引入机器的目标分类学习中，根据训练数据的模型输出结果自动推断出如何识别目标类别，经实验验证，在引入人类经验指导的模型训练后，可以实现更精确的目标分类，大大减少了人力消耗。

通过实验对比验证本发明的试验效果如下：

为了分析人类指导经验和机器数据学习在目标分类任务中各自的作用，通过改变策略的动作设定，提出了以机器算法为主的学习者TCARL_M和以人类经验指导为主的干扰者TCARL_H。具体来讲，相比于人机智能体 TCARL_H-M，TCARL_M和TCARL_H这两个模型都不需要用来判断是否引进人类指导的额外动作，也就是说，它们的动作空间变成了A＝[0，1，…，n_cg-1]，因为TCARL_M在每个时刻的人类指导线索

固定为零向量

而对于TCARL_H，

在Mide1中为

Mode2中为

为公平起见，这两个模型与人机智能体用的是同样的LSTM架构。

实验环境以一个空战推演平台的仿真数据为基础，通过与模型TCARL_M、 TCARL_H，一个纯监督模型，和一个主动学习经典算法QBC相对比，对人机智能体TCARL_H-M从目标预测和目标分类两方面分别进行了性能评估和应用分析。为了具有更好的可视效果，下面的大多数实验结果图是进行了统一的微弱平滑处理的结果。

实验数据集是来自某个兵器推演平台的仿真数据，记录了每个时刻被探测目标的11个特征信息。它包含4个类型的28种作战目标，根据武器装备进一步分为32类。也就是说，n_ty＝4，n_cl＝28，n_cg＝32。每个类别的单元数量从4410到27258不等，总计63126个目标。每个目标信息的时间长度在30到6000个时刻之间。我们将目标随机分成44188个训练样本和18938个测试样本。此外，为了满足作战目标分类的时效性要求，截取了前60个时间步的信息，用于作战目标的输入数据。

在强化学习的训练过程中，batch_size选择了100个片段进行策略梯度的稳定更新，并采用了ε-greedy策略来选择动作。对于所提模型，为了进行充分的探索，参数ε以每个时间步0.001的速率从0.35下降到0.04。折扣因子γ和LSTM的隐藏层单元个数分别设定为0.6和64。此外，奖赏值 R_gcor，R_ginc，R_pcor和R_pinc分别设置为0.8、-0.8和1.0、-1.0。每500次迭代后，从训练集中随机抽取20个片段(在3万次迭代后从测试集中抽取)进行验证，并记录平均精度和和人为指导率。

一、几个模型进行目标预测结果的比较：

通过以下实验来分析1)人类经验指导的不同参与程度(零参与 -TCARL_M、全程参与-TCARL_H和选择性参与-TCARL_H-M)，不同的训练方式(一个纯粹的监督模型)和不同的人机结合策略(经典主动学习方法 QBC)所导致的目标预测效果；2)不同程度的人类引导对目标分类的影响 (Mode 1和Mode 2)；3)目标信息的时间长度对分类结果的影响。

1.1TCARL_M

为了更清晰、更全面地分析TCARL_M的目标识别性能，不仅给出了图 3(a)中所示的每个训练批片段的所有时间步的总体分类精度，还给出了图 3(b)中所示的所有训练批片段在每个时间步的平均分类精度。从图3(a)中可以观察到，没有任何指导经验的情况下，TCARL_M在经过15000个batch 的迭代训练后，网络的预测精度才开始稳定在80％左右，很明显，这对于目标识别领域来说不够满足实际应用的效率需求。另一方面，对目标跟踪时间越长，其情报越完整，也就相当于此目标的肖像像素越高，那么理论上，其预测准确度也会越高。但是，可以从图3(b)中观察到，只有在前8个时间步，其准确度是增加的趋势，而40个时间步之后，准确度反而开始有所下降，其余时间，其预测精度也只是稳定在70％左右，在8到40个时间步间可以达到最高的74％左右分类精度。这个可能是由战场态势信息不完全不完美的本质特性导致的。具体而言，对抗方自己的隐蔽性、相互之间的欺骗性、战争的不确定性等都会使得战场态势信息不完全，使得战场数据的真实性、完整性和确定性受到极大挑战造成，因此，时间越长，情报的虚假信息，迷惑信息越来越多，造成了最终预测结果的偏差越来越大。

1.2TCARL_H

为了对TCARL_H这个每一步都需要人类经验指导的干扰者进行客观全面的性能测试，本发明不仅设置了两个模式检验不同水平的指导线索对目标预测效果的影响，而且将其与一个有着相同网络结构的监督模型分别就每个训练批片段的所有时间步的总体分类精度和所有训练批片段在每个时间步的平均分类精度进行了实验对比，结果分别由图4(a)和4(b)给出。需要强调的是预测结果和真正类别标签之间的交叉熵被用做这个监督模型的损失函数。

从图4中可以得到几个直观的结论。首先，与图3相比，图4显示，随着人类引导线索的引入，无论是每个间步长上的整体目标分类精确度，还是每个训练批次的平均精确度都有了很大的提升。其次，如图4(a)所示，相比于采用传统训练方式的监督模型，TCARL_H的采用奖赏机制的Mode 1 和Mode 2在目标预测精度上具有明显的优势，尤其是具有更高指导价值的 Mode 2实现了将近10％的精度提升。除此之外，可以从图4(b)中观察到，TCARL_H可以在较宽的时间步域内以较少的情报信息实现更高的分类精确度，这再次证明了本发明的模型在目标分类任务中的优势。

1.3：TCARL_H-M

相比于图3，图5阐述了一个观点，人机结合的方式，无论给定的人类指导是较易得到但价值不高的类型线索还是耗费人力得到但高价值的类别指导，都比仅靠数据驱动的机器学习算法TCARL_M得到的目标预测性能高。此外，从图4(a)、图4(b)和图5(a)、图5(b)的比较中可以看出，智能体TCARL_H-M模式2的分类性能相对于干预者TCARL_H模式2有显著提高。但是这两个模型的Mode 1之间没有太大差异，这可能归因于模式1 提供的线索中包含的关于种类识别的信息量有限。更重要的是，从图5(c) 和图5(d)中可以注意到，实现如此高的目标预测精度只需要10％-30％的人工指导，与TCARL_H的100％相比，其人力消耗大幅度缩减。此外，图4有力证明了与QBC和TCARL_M-H Mode 1相比,Mode2可以以更少的经验需求率实现更高的预测精度。这是采用主动强化学习的人机方法进行目标类别识别所获得的优势的另一个证据。

二、目标分类结果

在每一个时间片段中，只有连续ST个时间步的预测结果保持不变，也就是说模型输出稳定，这个输出值才能被认为是最终的目标分类结果，本发明将ST定义为稳定阈值。因此，需要寻找最优的ST值，通过探索稳定阈值ST对目标分类任务中识别稳定率，分类速度，及分类精度的影响，为本文所有提到的算法选择最优的ST值，其中，识别稳定率指的是在给定的 60个时间步内达到稳定的样本数在总样本数中所占的比率，而分类速度是稳定输出所需的最小的时间步个数。本发明通过与一个监督模型和经典主动学习算法QBC作比较，对我们的模型进行目标分类的应用分析。需要强调的是，如果在整个探测片段中模型都未达到稳定输出则目标识别速率统一用61来表示。

2.1：TCARL_M

时间步阈值越大，意味着模型连续输出相同预测结果的时间步个数越多，理论上来讲，这会导致稳定率和识别速度下降但识别精度的增加。对于TCARL_M模型，图6就这三个直觉给出了实际考察结果。从图6(a)可以看出，ST值的设定会严重影响TCARL_M的稳定率。另一方面，如图6(b) 和图6(c)所示，令人意想不到的是虽然随着ST值的增大其识别速度加快的同时分类准确度也跟着上升，但是两者提升的幅度都不大，尤其是前者，模型收敛后每两两ST值之间的速度差距仅仅在1到3个时间步之间。综合考虑，在三个ST值中20是最合适的，因为其可以使得模型100％稳定输出的同时达到与ST＝40相比拟的目标识别准确度。

2.2：TCARL_H

TCARL_H Mode1、Mode2和监督模型得到的结果也验证了这点，分别如图7-9所示。所提模型无论接收的是由Mode 1模拟的较易级别的人类判断指导还是由Mode 2模拟的较难级别的经验线索引导，随着稳定阈值的增大，其目标识别稳定性都严重下滑(图7(a)-9(a))，速度轻微降低(图7(b) -9(b))，以及准确度不同程度的提升图7(c)-9(c)。经综合考虑，可以看出TCARL_H Mode 1、Mode 2和监督模型的最佳ST值分别为20，5，和 20。除此之外，可以很明显的的观察到，相比于TCARL_M和监督模型，TCARL_H 可以在达到不相上下的稳定率和识别速率的前提下实现空战中的目标识别准确率的重大提升。而且，通过对比图7(c)-9(c)，可以看出，消耗了更多人力的mode2的实现了识别精度的进一步提升，这个在图10给出的两个模型的识别性能比对结果中更清晰的得到了佐证。

2.3：TCARL_H-M

类似地，对于TCARL_H-M，图11-13也分别给出了它的两个模式和其对手QBC的ST值的选择依据，并如图14所示，将各自最佳参数下的实验结果进行了比对。从图11-13可以得到以下几个结论：首先，同样地，可以很清楚的看到时间阈值的不同设定对于目标识别效果有相当大的影响，尤其是对于识别稳定性(图11(a)-13(a))、准确率(图11(c)-13(c))和指导需求率(图11(d)和图12(d))，相对而言，对分类速度影响不大 (图11(b)-13(b))。综合考虑这几个因素，可以看出，对于mode 1来说，ST＝20最佳，而对于mode 2，ST＝40不仅实现精度和需求之间的最佳均衡，还可以达到相当高的稳定性。其次，通过对图11(c),11(d)和图 12(c),12(d)的分别对比，可以得到与理论一致的结论，包含目标信息量较多的mode 2可以以较少的经验需求率实现较高的识别准确率，这个在关于两者的比对图14(a)和14(b)中可以更清晰的被证实。

本发明为实现更高效的目标分类，为空战目标威胁评估奠定基础，基于主动学习理论和强化学习策略，提出了一种人机智能体TCARL_H-M，它可以自动推断出如何识别目标类别jr_t，根据dv_t决定何时将人类经验指导引入机器的目标分类学习中；(2)为了分析人类经验指导和机器数据学习各自在目标分类任务中的作用，我们通过改变策略的动作设定，提出了以机器为主的学习者和以人脑感知判断为主的干预者，前者仅靠数据驱动，在目标认知过程中人类零参与，后者在学习算法的每个决策时间步都强制加入人类指导线索进行干预，也就是提供人脑关于目标的感知判断。(3)在引入人类指导时，分为较易级别和较难级别的人脑感知判断，分别用含目标类别信息较少的Mode 1和信息较多的Mode 2进行模拟。(4)为了对所提出模型进行性能评估和应用分析，本发明基于空战推演平台的仿真数据分别进行了目标预测和目标分类方面的实验。并且得到的结果证明，与 TCARL_M、TCARL_H、纯监督模型，和经典的主动学习算法QBC相比，TCARL_H-M 不仅可以实现更准确的目标分类，而且大大减少了人力消耗。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于主动强化学习的装备目标识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的装备目标识别方法，其特征在于，步骤3中所述神经网络模型推断是否需要引入人类经验指导进行学习训练，其推断的方法取决于决策值dv_t，dv_t＝jr_t/n_cg，jr_t表示将目标单元的态势信息的时序观测序列输入到神经网络模型后网络模型输出的判断结果，n_cg表示目标的总种类个数，如果dv_t＝1表示智能体决定引入人类经验指导实现更高的识别精度，反之，dv_t＝0表示智能体推断出由神经网络模型独立完成目标识别可实现更高的识别精度。

3.根据权利要求2所述的装备目标识别方法，其特征在于，步骤3中对所述神经网络模型由一个长短时记忆网络和一个全连接输出层组成。

4.根据权利要求3所述的装备目标识别方法，其特征在于，对所述神经网络模型的训练方法是：

步骤3.1：输入第i个探测目标Tuⁱ的时序观测序列