CN113807230A - 基于主动强化学习的装备目标识别方法及人机智能体 - Google Patents

基于主动强化学习的装备目标识别方法及人机智能体 Download PDF

Info

Publication number
CN113807230A
CN113807230A CN202111072496.XA CN202111072496A CN113807230A CN 113807230 A CN113807230 A CN 113807230A CN 202111072496 A CN202111072496 A CN 202111072496A CN 113807230 A CN113807230 A CN 113807230A
Authority
CN
China
Prior art keywords
target
time
neural network
network model
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111072496.XA
Other languages
English (en)
Other versions
CN113807230B (zh
Inventor
刘忠
陈丽
冯旸赫
黄金才
程光权
张驭龙
杨静
张龙飞
许乃夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111072496.XA priority Critical patent/CN113807230B/zh
Publication of CN113807230A publication Critical patent/CN113807230A/zh
Application granted granted Critical
Publication of CN113807230B publication Critical patent/CN113807230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于主动强化学习的装备目标识别方法及人机智能体,通过获取目标单元的时间态势,并进行特征向量编码,输入神经网络模型进行训练,在每个时间点模型自动推断是否需要引入人类经验指导进行学习训练,并得到每个目标单元在各时间步的目标预测结果及一个时间片段的目标分类结果,最后根据奖赏值对网络模型进行更新。本发明通过将人类经验指导引入机器的目标分类学习中,根据训练数据的模型输出结果自动推断出如何识别目标类别,经实验验证,在引入人类经验指导的模型训练后,可以实现更精确的目标分类,大大减少了人力消耗。

Description

基于主动强化学习的装备目标识别方法及人机智能体
技术领域
本发明属于机器学习领域,尤其涉及一种基于主动强化学习的 装备目标识别方法及人机智能体。
背景技术
在未来战场中,随着作战环境变得越来越复杂,其信息化程度呈指数级 增长。作战单元,尤其是无人机,迫切需要具备自主智能决策能力。而目 标的识别分类作为自动化指挥系统的重要组成部分,不仅是战场态势认知 和威胁评估的基础,而且是指挥员进行决策的前提条件。因此,作战飞机 必须整合各种目标态势信息实现对探测目标的有效分类,以此完成战场的 态势威胁评估,这也是作战飞机智能自主作战的关键环节。
目前,国内外的研究人员已经提出了各种方法来进行目标识别和分类, 可以大致分为三个方面:基于HRRP(High Resolution Range Profile,HRRP) 的雷达目标识别、基于SAR(Synthetic Aperture Radar,SAR)的自动目 标识别、红外图像(Infrared Images,IR)中的目标识别。HRRP信号因 其获取容易,处理简单,存取方便这些优势使得基于HRRP的目标识别方法 引起了广泛研究,但是,其识别效果易受目标方位、平移和振幅灵敏度等因 素的干扰,而且HRRP作为一维信号,相比于基于雷达的二维图像,其提供 的目标信息非常有限;随着能够处理图像中检测和分类的卷积神经网络 (Convolutional Neural Network,CNN)的引入,基于SAR的雷达目标识 别方法得到了研究人员的广泛关注。但是这些工作只考虑最大化分类精度, 没有将深度神经网络引入的计算代价和网络复杂性考虑在内。基于IR这个 常规成像方式的已有工作主要集中在自动目标跟踪,分类和识别,但是这 些工作在目标识别过程中对输入质量要求极高。而相机传感器的红外辐射 又因为气象条件和传感器校准等条件导致其变化多端。
最重要的是,这些工作虽然一定程度上解决了目标的识别分类问题, 但其大多数都需要大规模高质量的标注数据集来支持模型训练。然而,战 争与一般的棋类或博弈类游戏有着本质的区别,其特殊性质决定了研究战 争所需的样本数据特别少,而且数据大部分是未标注的、或者注释模糊甚 至错误的。
发明内容
本发明要解决的技术问题是怎样在实现高精度的目标分类的同时 尽可能的减少标签注释带来的人力物力的消耗,提出了一种基于主动强 化学习的装备目标识别方法及人机智能体。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于主动强化学习的装备目标识别方法,包括以下步骤:
步骤1:获取一个时间片段内探测到的所有目标单元的时变态势 信息,所述时间片段是指具有固定时长的探测片段;
步骤2:对一个时间片段内各时间步上每个目标单元的所有跟踪信号 进行特征向量编码,所述所有跟踪信号是指各探测设备在一个时间步上对 于一个目标单元的跟踪信号集合;
步骤3:将进行特征向量编码后的每个目标单元的跟踪信号输入神经 网络模型,神经网络模型推断是否需要引入人类经验指导进行学习训练, 得到每个目标单元在各时刻点的目标预测结果;
步骤4:根据每个目标单元各时间步的目标预测结果得到一个时间片段 内每个目标单元的目标分类结果,所述目标分类结果是指以最小的时间步 数获得的最稳定的判定结果。
进一步地,步骤3中所述神经网络模型推断是否需要引入人类经验指 导进行学习训练,其推断的方法取决于决策值dvt,dvt=jrt/ncg,jrt表示 将目标单元的态势信息的时序观测序列输入到神经网络模型后网络模型输 出的判断结果,ncq表示目标的总种类个数,如果dvt=1表示智能体决定 引入人类经验指导实现更高的识别精度,反之,dvt=0表示智能体推断出 由神经网络模型独立完成目标识别可实现更高的识别精度。
进一步地,步骤3中对所述神经网络模型由一个长短时记忆网络和一 个全连接输出层组成。
进一步地,对所述神经网络模型的训练方法是:
步骤3.1:输入第i个探测目标Tui的时序观测序列
Figure BDA0003260912740000031
Figure BDA0003260912740000032
其中,gct表示在第t个 时间步引入人类经验指导值,tut∈Rm是第i个探测目标Tui在时间步t的态 势特征,T是在每个时间片段目标被追踪的时间长度,m是特征维度数;
Figure BDA0003260912740000033
Mode 1和Mode 2两个模式表示不同等级的人类经验指导,Mode 1是 更容易获得但价值较低的目标类型线索,Mode 2是耗劳力较多但价值也高 的目标类别标签;
步骤3.2:神经网络模型输出每一时间步的动作效用评估值Q值
Figure BDA0003260912740000034
其中,元素
Figure BDA0003260912740000035
表示神经网络模型在时间 步t对输入的观测值ot采取动作at后得到的效用评估值;
q(ot,at)=Whqht+bq
其中,Whq是LSTM输出层与动作值之间的映射权值,bq是动作阈值,ht是LSTM网络的输出值,
Figure BDA0003260912740000041
A表示动作空间;
步骤3.3:计算一个时间片段内动作效用评估值Q值的总体期望值:
Figure BDA0003260912740000042
其中,
Figure BDA0003260912740000043
时长为T的时间片段内每一个时间步的Q值q(ot,at) 组成的集合,动作
Figure BDA0003260912740000044
的选择,采用ε-greedy策略:
步骤3.4:计算相应的奖赏值;
Figure BDA0003260912740000045
其中,
Figure BDA0003260912740000046
表示模型对目标种类的预测结果,
Figure BDA0003260912740000047
表示目标真实种类标签; 且:
Figure BDA0003260912740000048
Rgcor表示在提供了人为判断经验的情况下正确识别目标的奖励,Rginc表示在提供了人为判断经验的情况下错误识别目标的奖励,Rpcor表示由神 经网络模型自主预测目标种类结果正确时的奖励;Rpinc表示由神经网络模 型自主预测目标种类结果错误时的奖励;
步骤3.5:根据贝尔曼公式,对由当前动作at导致的下一步状态ot+1进 行评估:
Figure BDA00032609127400000410
其中,
Figure BDA0003260912740000049
γ是决定智能体视野长短的折扣因子。
步骤3.6:计算神经网络模型的代价函数值Td_error:
Tderror=Q(o′,a′)-Q(o,a)
步骤3.7:计算损失函数并对神经网络模型进行更新:
Figure BDA0003260912740000051
其中,E(o,a,r,o′)表示一个时间片段内代价函数值Td_error的期望值,θ 是包括了Whq和bq参数在内的神经网络模型的模型参数,Q(ot+1,at+1;θ)表 示在神经网络模型参数θ下的评估值Q(ot+1,at+1);
步骤3.8:重复步骤3.1至3.7,直到达到预设的迭代步数停止,得到 训练好的神经网络模型。
本发明还提供了一种人机智能体,使用所述的目标识别方法 训练的神经网络模型。
本发明还提供了一种基于主动强化学习的装备目标识别装置, 包括以下模块:
态势信息获取模块:用于获取一个时间片段内探测到的所有目标 单元的时变态势信息,所述时间片段是指具有固定时长的探测片段;
特征向量编码模块:用于对一个时间片段内各时间步上每个目标单 元的所有跟踪信号进行特征向量编码,所述所有跟踪信号是指各探测设备 在一个时间步上对于一个目标单元的跟踪信号集合;
目标预测模块:用于将进行特征向量编码后的每个目标单元的跟踪 信号输入神经网络模型,神经网络模型推断是否需要引入人类经验指导进 行学习训练,得到每个目标单元在各时间步的目标预测结果;
目标分类模块:用于根据每个目标单元各时间步的目标预测结果得到 一个时间片段内每个目标单元的目标分类结果,所述目标分类结果是指以 最小的时间步数获得的最稳定的判定结果。
采用上述技术方案,本发明具有如下有益效果:
本发明提供的一种基于主动强化学习的装备目标识别方法,基 于主动学习理论和强化学习策略,通过将人类经验指导与机器的数 据学习智能结合,将人类经验指导引入机器的目标分类学习中,根 据训练数据的模型输出结果自动推断出如何在低成本需求的情况 下进行包含装备信息的目标种类的精准识别,经实验验证,在引入 人类经验指导的模型训练后,可以实现更精确的目标分类,大大减 少了人力消耗。
附图说明
图1为本发明目标识别的任务框架图;
图2为网络模型训练示意图;
图3(a)为每个训练批片段的分类精度示意图;(b)为每个时间步的分 类精度示意图;
图4TCARL_H Mode1,Mode2,(a)为监督模型在每个训练批片段,(b)为 每个时间步的预测精度比较;
图5TCARL_M-H Mode1,Mode2,QBC(a)为每批次预测精度示意图,(b) 为每时间步预测精度示意图;(c)为训练片段的经验指导率,(d)为时间 步的经验指导率;
图6为TCARL_M在每个片段ST=5,20,40时的稳定率(a),分类速度(b), 分类精度(c);
图7为TCARL_H Mode 1在每个片段ST=5,20,40时的稳定率(a),分类速 度(b),分类精度(c);
图8为TCARL_H Mode 2在每个片段ST=5,20,40时的稳定率(a),分类速 度(b),分类精度(c);
图9为监督模型在每个片段ST=5,20,40时的稳定率(a),分类速度(b), 分类精度(c);
图10为TCARL_H Mode 1、Mode 2和监督模型的分类精度比对;
图11为TCARL_M-H Mode 1在每个片段ST=5,20,40时的稳定率(a),分 类速度(b),分类精度(c),和经验指导率(d);
图12为TCARL_M-H Mode 2在每个片段ST=5,20,40时的稳定率(a),分 类速度(b),分类精度(c),和经验指导率(d)。
图13为QBC在每个片段ST=5,20,40时的稳定率(a),分类速度(b),分 类精度(c);
图14为TCARL_H-M Mode 1、Mode 2和QBC的分类精度(a),经验指导率(b) 比对。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于一个空战推演平台的仿真数据对涵盖了地面和空 中的探测到的所有目标进行了分类研究。为了在实现高效目标分类 的同时尽可能的减少标签注释带来的人力物力的消耗,为下一步的 态势威胁评估奠定基础,本发明基于强化学习策略,结合主动学习 理论,提出了一个人机智能体TCARL_H-M,去学习什么时候引入人 类经验指导,如何自主的将作战目标归于定义好的带有装备信息的 特定种类中,也就是说,武器装备不同的同一类型的目标属于不同 种类。同时,设置了Mode 1和Mode 2两个模式来模拟不同等级的经验指导,前者是更容易获得但价值较低的目标类型线索,比如攻 击机,轰炸机,轮船,雷达,导弹营等等,后者是耗劳力较多但价 值也高的目标类别标签,是具体型号,比如攻击机的su25,k16等 等。此外,本发明也提出了一个人类零参与的机器学习者TCARL_M 和人类全程参与的干预者TCARL_H来分析人类经验指导和机器数据 学习各自在目标分类任务中的作用。最后,通过与TCARL_M、TCARL_H、 纯监督模型和传统主动学习算法QBC相比,在目标预测和目标分类 的任务中验证了TCARL_H-M可以在人类经验指导需求和目标分类精 度之间实现更好的均衡。
由于在复杂战场态势下单靠学习算法进行作战单元的目标识 别,一方面相比于人脑判断,算法的局限性很容易产生目标误判结果,另 一方面大多数算法需要大量带标签数据进行训练学习,而可用的带标签对 战数据又十分稀缺。众所周知,主动学习方法作为降低数据标签成本的有 效方法之一,已经在各个领域得到了广泛研究。
本发明结合主动学习设定了如图1所示的用于战场目标识别的任务框 架,试图开发一种通过学习人类分析人员的决策来提高机器的学习性能的 目标分类智能体。那么如何找到将人类指导经验与学习算法结合的最优策 略,从而提高机器的学习性能进行目标分类就显得尤为重要。
图1至图14示出了本发明一种基于主动强化学习的装备目标 识别方法,如图1所示,包括以下步骤:
步骤1:获取一个时间片段内探测到的所有目标单元的时变态势 信息TU={Tu1,…,Tui,…,TuN},其中,Tui指的是第i个目标态势,N指的 是在每个时间片段探测到的目标个数;所述时间片段是指具有固定时长的 探测片段;
步骤2:对一个时间片段内各时间步上每个目标单元的所有跟踪信号 进行特征向量编码
Figure BDA0003260912740000081
其中,tut∈Rm是目标Tui在时刻t的态势特征,T是在每个时间片段目标被追踪的时间长度,m是特征 维度数;所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标 单元的跟踪信号集合。
步骤3:将进行特征向量编码后的每个目标单元的跟踪信号输入神经 网络模型,神经网络模型推断是否需要引入人类经验指导进行学习训练, 得到每个目标单元在各时间步的目标预测结果Tpi={tp1,…,tpt,…,tpT}, tpt=jrt%ncg,tpt指的是神经网络模型在t时间步经过对该目标的前t-1个 时间步的历史信息的分析处理得到的预测结果;
本实施例中的所述神经网络模型TCARL_H-M由一个长短时记忆网络和 一个全连接输出层组成,如图2所示。
本实施例中,对所述神经网络模型的训练方法是:
步骤3.1:输入第i个探测目标Tui的时序观测序列
Figure BDA0003260912740000091
Figure BDA0003260912740000092
其中,gct表示在第t个 时间步引入人类经验指导线索,tut∈Rm是第i个探测目标Tui在时间步t 的态势特征,T是在每个时间片段目标被追踪的时间长度,m是特征维度数;
Figure BDA0003260912740000093
对于每一个时间步t,给一个目标的探测态势信息tut作为训练数据输入 到网络模型,网络模型会输出相应的判断结果jrt。其中,jrt是在[0,2ncg-1] 范围内的一个数值,它蕴含了决策值dvt=jrt\ncg和目标预测结果tpt= jrt%ncg这两部分的信息,ncg是目标单元的总种类个数。如果dvt=1,则 表示智能体决定引入人类判断经验作为学习指导,反之,dvt=0表示智能 体推断出由神经网络模型独立完成目标识别可实现更高的识别精度。
在下一个时刻t+1,人类指导线索gct将与tut+1一起作为网络的输入, 其中,gct取决于决策值dvt
Figure BDA0003260912740000101
其中,独热编码的
Figure BDA0003260912740000102
是由Mode 1模拟的更容易获得但价值较低 的目标类型线索,独热编码的
Figure BDA0003260912740000103
是由Mode 2模拟的耗劳力较多但价 值也高的目标类别标签,nty和ncl分别指的是目标总共的类型个数和类别个 数。因此,对于整个探测时间片段,网络模型的输入序列为
Figure BDA0003260912740000104
在实验中,设置了Mode 1 和Mode 2两个模式来模拟不同等级的经验指导,前者Mode 1是更 容易获得但价值较低的目标类型线索,比如攻击机,轰炸机,轮船, 雷达,导弹营等目标类型,后者Mode 2是耗劳力较多但价值也高 的目标类别标签,是具体型号,比如攻击机的su25,k16等具有具 体型号的目标类型。
步骤3.2:神经网络模型输出每一时间步的动作效用评估值Q值
Figure BDA0003260912740000105
其中,元素
Figure BDA0003260912740000106
表示神经网络模型在时间 步t对输入的观测值ot采取动作at后得到的效用评估值;
q(ot,at)=Whqht+bq
其中,Whq是LSTM输出层与动作值之间的映射权值,bq是动作阈值,ht是LSTM网络的输出值,
Figure BDA0003260912740000107
A表示动作空间;
步骤3.3:计算一个时间片段内动作效用评估值Q值的总体期望值:
Figure BDA0003260912740000108
其中,
Figure BDA0003260912740000109
时长为T的时间片段内每一个时间步的Q值q(ot,at) 组成的集合,动作
Figure BDA00032609127400001010
的选择,采用ε-greedy策略:
步骤3.4:计算相应的奖赏值;
Figure BDA0003260912740000111
其中,
Figure BDA0003260912740000112
表示模型对目标种类的预测结果,
Figure BDA0003260912740000113
表示目标真实种类标签。 且:
Figure BDA0003260912740000114
Rgcor表示在提供了人为判断经验的情况下正确识别目标的奖励,Rginc表示在提供了人为判断经验的情况下错误识别目标的奖励,Rpcor表示由神 经网络模型自主预测目标种类结果正确时的奖励;Rpinc表示由神经网络模 型自主预测目标种类结果错误时的奖励。
步骤3.5:根据贝尔曼公式,对由当前动作at导致的下一步状态ot+1进 行评估:
Figure BDA0003260912740000117
其中,
Figure BDA0003260912740000115
γ是决定智能体视野长短的折扣因子。
步骤3.6:计算神经网络模型的代价函数值Td_error:
Tderror=Q(o′,a′)-Q(o,a)
步骤3.7:计算损失函数并对神经网络模型进行更新:
Figure BDA0003260912740000116
其中,E(o,a,r,o′)表示一个时间片段内代价函数值Td_error的期望值,θ 是包括了Whq和bq参数在内的神经网络模型的模型参数,Q(ot+1,at+1;θ)表 示在神经网络模型参数θ下的评估值Q(ot+1,at+1)。
步骤3.8:重复步骤3.1至3.7,直到达到预设的迭代步数停止,得到 训练好的神经网络模型。
本发明通过将人类经验指导与机器的数据学习智能结合,将人 类经验指导引入机器的目标分类学习中,根据训练数据的模型输出 结果自动推断出如何在低成本需求的情况下进行包含装备信息的 目标种类的精准识别。
步骤4:根据每个目标单元各时间步的目标预测结果得到每个目标单元 的目标分类结果TC={tc1,...,tci,...,tcN},tci∈TPi,所述目标分类结果是指一个时 间片段内以最小的时间步数获得的稳定的判定结果;所述稳定的判定结果 是指根据预先设定的稳定阈值ST,如果在连续ST个时间步输出同一个种类, 则称为稳定。
本实施例中,通过将人类经验指导引入机器的目标分类学习中, 根据训练数据的模型输出结果自动推断出如何识别目标类别,经实 验验证,在引入人类经验指导的模型训练后,可以实现更精确的目 标分类,大大减少了人力消耗。
本发明还提供了一种人机智能体,使用所述的目标识别方法 训练的神经网络模型。
本发明还提供了一种基于主动强化学习的装备目标识别装置, 包括以下模块:
态势信息获取模块:用于获取一个时间片段内探测到的所有目标 单元的时变态势信息,所述时间片段是指具有固定时长的探测片段;
特征向量编码模块:用于对一个时间片段内各时间步上每个目标单 元的所有跟踪信号进行特征向量编码,所述所有跟踪信号是指各探测设备 在一个时间步上对于一个目标单元的跟踪信号集合;
目标预测模块:用于将进行特征向量编码后的每个目标单元的跟踪 信号输入神经网络模型,神经网络模型推断是否需要引入人类经验指导进 行学习训练,得到每个目标单元在各时间步的目标预测结果;
目标分类模块:用于根据每个目标单元各时间步的目标预测结果得到 一个时间片段内每个目标单元的目标分类结果,所述目标分类结果是指以 最小的时间步数获得的最稳定的判定结果。
通过实验对比验证本发明的试验效果如下:
为了分析人类指导经验和机器数据学习在目标分类任务中各自的作用, 通过改变策略的动作设定,提出了以机器算法为主的学习者TCARL_M和以 人类经验指导为主的干扰者TCARL_H。具体来讲,相比于人机智能体 TCARL_H-M,TCARL_M和TCARL_H这两个模型都不需要用来判断是否引进人 类指导的额外动作,也就是说,它们的动作空间变成了A=[0,1,…,ncg-1], 因为TCARL_M在每个时刻的人类指导线索
Figure BDA0003260912740000131
固定为零向量
Figure BDA0003260912740000132
而对于TCARL_H,
Figure BDA0003260912740000133
在Mide1中为
Figure BDA0003260912740000134
Mode2中为
Figure BDA0003260912740000135
为公平起见,这两个模 型与人机智能体用的是同样的LSTM架构。
实验环境以一个空战推演平台的仿真数据为基础,通过与模型TCARL_M、 TCARL_H,一个纯监督模型,和一个主动学习经典算法QBC相对比,对人机 智能体TCARL_H-M从目标预测和目标分类两方面分别进行了性能评估和应 用分析。为了具有更好的可视效果,下面的大多数实验结果图是进行了统 一的微弱平滑处理的结果。
实验数据集是来自某个兵器推演平台的仿真数据,记录了每个时刻被 探测目标的11个特征信息。它包含4个类型的28种作战目标,根据武器 装备进一步分为32类。也就是说,nty=4,ncl=28,ncg=32。每个类别 的单元数量从4410到27258不等,总计63126个目标。每个目标信息的时 间长度在30到6000个时刻之间。我们将目标随机分成44188个训练样本和18938个测试样本。此外,为了满足作战目标分类的时效性要求,截取 了前60个时间步的信息,用于作战目标的输入数据。
在强化学习的训练过程中,batch_size选择了100个片段进行策略梯 度的稳定更新,并采用了ε-greedy策略来选择动作。对于所提模型,为了 进行充分的探索,参数ε以每个时间步0.001的速率从0.35下降到0.04。 折扣因子γ和LSTM的隐藏层单元个数分别设定为0.6和64。此外,奖赏值 Rgcor,Rginc,Rpcor和Rpinc分别设置为0.8、-0.8和1.0、-1.0。每500次迭代后,从训练集中随机抽取20个片段(在3万次迭代后从测试集中抽 取)进行验证,并记录平均精度和和人为指导率。
一、几个模型进行目标预测结果的比较:
通过以下实验来分析1)人类经验指导的不同参与程度(零参与 -TCARL_M、全程参与-TCARL_H和选择性参与-TCARL_H-M),不同的训练 方式(一个纯粹的监督模型)和不同的人机结合策略(经典主动学习方法 QBC)所导致的目标预测效果;2)不同程度的人类引导对目标分类的影响 (Mode 1和Mode 2);3)目标信息的时间长度对分类结果的影响。
1.1TCARL_M
为了更清晰、更全面地分析TCARL_M的目标识别性能,不仅给出了图 3(a)中所示的每个训练批片段的所有时间步的总体分类精度,还给出了图 3(b)中所示的所有训练批片段在每个时间步的平均分类精度。从图3(a)中 可以观察到,没有任何指导经验的情况下,TCARL_M在经过15000个batch 的迭代训练后,网络的预测精度才开始稳定在80%左右,很明显,这对于目 标识别领域来说不够满足实际应用的效率需求。另一方面,对目标跟踪时 间越长,其情报越完整,也就相当于此目标的肖像像素越高,那么理论上, 其预测准确度也会越高。但是,可以从图3(b)中观察到,只有在前8个时 间步,其准确度是增加的趋势,而40个时间步之后,准确度反而开始有所 下降,其余时间,其预测精度也只是稳定在70%左右,在8到40个时间步 间可以达到最高的74%左右分类精度。这个可能是由战场态势信息不完全不 完美的本质特性导致的。具体而言,对抗方自己的隐蔽性、相互之间的欺 骗性、战争的不确定性等都会使得战场态势信息不完全,使得战场数据的 真实性、完整性和确定性受到极大挑战造成,因此,时间越长,情报的虚 假信息,迷惑信息越来越多,造成了最终预测结果的偏差越来越大。
1.2TCARL_H
为了对TCARL_H这个每一步都需要人类经验指导的干扰者进行客观全 面的性能测试,本发明不仅设置了两个模式检验不同水平的指导线索对目 标预测效果的影响,而且将其与一个有着相同网络结构的监督模型分别就 每个训练批片段的所有时间步的总体分类精度和所有训练批片段在每个时 间步的平均分类精度进行了实验对比,结果分别由图4(a)和4(b)给出。需 要强调的是预测结果和真正类别标签之间的交叉熵被用做这个监督模型的 损失函数。
从图4中可以得到几个直观的结论。首先,与图3相比,图4显示, 随着人类引导线索的引入,无论是每个间步长上的整体目标分类精确度, 还是每个训练批次的平均精确度都有了很大的提升。其次,如图4(a)所示, 相比于采用传统训练方式的监督模型,TCARL_H的采用奖赏机制的Mode 1 和Mode 2在目标预测精度上具有明显的优势,尤其是具有更高指导价值的 Mode 2实现了将近10%的精度提升。除此之外,可以从图4(b)中观察到,TCARL_H可以在较宽的时间步域内以较少的情报信息实现更高的分类精确 度,这再次证明了本发明的模型在目标分类任务中的优势。
1.3:TCARL_H-M
相比于图3,图5阐述了一个观点,人机结合的方式,无论给定的人类 指导是较易得到但价值不高的类型线索还是耗费人力得到但高价值的类别 指导,都比仅靠数据驱动的机器学习算法TCARL_M得到的目标预测性能高。 此外,从图4(a)、图4(b)和图5(a)、图5(b)的比较中可以看出, 智能体TCARL_H-M模式2的分类性能相对于干预者TCARL_H模式2有显著 提高。但是这两个模型的Mode 1之间没有太大差异,这可能归因于模式1 提供的线索中包含的关于种类识别的信息量有限。更重要的是,从图5(c) 和图5(d)中可以注意到,实现如此高的目标预测精度只需要10%-30%的人 工指导,与TCARL_H的100%相比,其人力消耗大幅度缩减。此外,图4有 力证明了与QBC和TCARL_M-H Mode 1相比,Mode2可以以更少的经验需 求率实现更高的预测精度。这是采用主动强化学习的人机方法进行目标类 别识别所获得的优势的另一个证据。
二、目标分类结果
在每一个时间片段中,只有连续ST个时间步的预测结果保持不变,也 就是说模型输出稳定,这个输出值才能被认为是最终的目标分类结果,本 发明将ST定义为稳定阈值。因此,需要寻找最优的ST值,通过探索稳定 阈值ST对目标分类任务中识别稳定率,分类速度,及分类精度的影响,为 本文所有提到的算法选择最优的ST值,其中,识别稳定率指的是在给定的 60个时间步内达到稳定的样本数在总样本数中所占的比率,而分类速度是 稳定输出所需的最小的时间步个数。本发明通过与一个监督模型和经典主 动学习算法QBC作比较,对我们的模型进行目标分类的应用分析。需要强 调的是,如果在整个探测片段中模型都未达到稳定输出则目标识别速率统 一用61来表示。
2.1:TCARL_M
时间步阈值越大,意味着模型连续输出相同预测结果的时间步个数越 多,理论上来讲,这会导致稳定率和识别速度下降但识别精度的增加。对 于TCARL_M模型,图6就这三个直觉给出了实际考察结果。从图6(a)可以 看出,ST值的设定会严重影响TCARL_M的稳定率。另一方面,如图6(b) 和图6(c)所示,令人意想不到的是虽然随着ST值的增大其识别速度加快的 同时分类准确度也跟着上升,但是两者提升的幅度都不大,尤其是前者, 模型收敛后每两两ST值之间的速度差距仅仅在1到3个时间步之间。综合 考虑,在三个ST值中20是最合适的,因为其可以使得模型100%稳定输出 的同时达到与ST=40相比拟的目标识别准确度。
2.2:TCARL_H
TCARL_H Mode1、Mode2和监督模型得到的结果也验证了这点,分别如 图7-9所示。所提模型无论接收的是由Mode 1模拟的较易级别的人类判断 指导还是由Mode 2模拟的较难级别的经验线索引导,随着稳定阈值的增大, 其目标识别稳定性都严重下滑(图7(a)-9(a)),速度轻微降低(图7(b) -9(b)),以及准确度不同程度的提升图7(c)-9(c)。经综合考虑,可以 看出TCARL_H Mode 1、Mode 2和监督模型的最佳ST值分别为20,5,和 20。除此之外,可以很明显的的观察到,相比于TCARL_M和监督模型,TCARL_H 可以在达到不相上下的稳定率和识别速率的前提下实现空战中的目标识别 准确率的重大提升。而且,通过对比图7(c)-9(c),可以看出,消耗了更多 人力的mode2的实现了识别精度的进一步提升,这个在图10给出的两个 模型的识别性能比对结果中更清晰的得到了佐证。
2.3:TCARL_H-M
类似地,对于TCARL_H-M,图11-13也分别给出了它的两个模式和其对 手QBC的ST值的选择依据,并如图14所示,将各自最佳参数下的实验结 果进行了比对。从图11-13可以得到以下几个结论:首先,同样地,可以 很清楚的看到时间阈值的不同设定对于目标识别效果有相当大的影响,尤 其是对于识别稳定性(图11(a)-13(a))、准确率(图11(c)-13(c))和指导需求率(图11(d)和图12(d)),相对而言,对分类速度影响不大 (图11(b)-13(b))。综合考虑这几个因素,可以看出,对于mode 1来 说,ST=20最佳,而对于mode 2,ST=40不仅实现精度和需求之间的最佳均 衡,还可以达到相当高的稳定性。其次,通过对图11(c),11(d)和图 12(c),12(d)的分别对比,可以得到与理论一致的结论,包含目标信 息量较多的mode 2可以以较少的经验需求率实现较高的识别准确率,这个 在关于两者的比对图14(a)和14(b)中可以更清晰的被证实。
本发明为实现更高效的目标分类,为空战目标威胁评估奠定基础,基 于主动学习理论和强化学习策略,提出了一种人机智能体TCARL_H-M,它可 以自动推断出如何识别目标类别jrt,根据dvt决定何时将人类经验指导引 入机器的目标分类学习中;(2)为了分析人类经验指导和机器数据学习各 自在目标分类任务中的作用,我们通过改变策略的动作设定,提出了以机 器为主的学习者和以人脑感知判断为主的干预者,前者仅靠数据驱动,在目标认知过程中人类零参与,后者在学习算法的每个决策时间步都强制加 入人类指导线索进行干预,也就是提供人脑关于目标的感知判断。(3)在 引入人类指导时,分为较易级别和较难级别的人脑感知判断,分别用含目 标类别信息较少的Mode 1和信息较多的Mode 2进行模拟。(4)为了对所 提出模型进行性能评估和应用分析,本发明基于空战推演平台的仿真数据 分别进行了目标预测和目标分类方面的实验。并且得到的结果证明,与 TCARL_M、TCARL_H、纯监督模型,和经典的主动学习算法QBC相比,TCARL_H-M 不仅可以实现更准确的目标分类,而且大大减少了人力消耗。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案, 而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解:其依然可以对前述各实施例所记 载的技术方案进行修改,或者对其中部分或者全部技术特征进行等 同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本 发明各实施例技术方案的范围。

Claims (6)

1.一种基于主动强化学习的装备目标识别方法,其特征在于,包括以下步骤:
步骤1:获取一个时间片段内探测到的所有目标单元的时变态势信息,所述时间片段是指具有固定时长的探测片段;
步骤2:对一个时间片段内各时间步上每个目标单元的所有跟踪信号进行特征向量编码,所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标单元的跟踪信号集合;
步骤3:将进行特征向量编码后的每个目标单元的跟踪信号输入神经网络模型,神经网络模型推断是否需要引入人类经验指导进行学习训练,得到每个目标单元在各时刻点的目标预测结果;
步骤4:根据每个目标单元各时间步的目标预测结果得到一个时间片段内每个目标单元的目标分类结果,所述目标分类结果是指以最小的时间步数获得的最稳定的判定结果。
2.根据权利要求1所述的装备目标识别方法,其特征在于,步骤3中所述神经网络模型推断是否需要引入人类经验指导进行学习训练,其推断的方法取决于决策值dvt,dvt=jrt/ncg,jrt表示将目标单元的态势信息的时序观测序列输入到神经网络模型后网络模型输出的判断结果,ncg表示目标的总种类个数,如果dvt=1表示智能体决定引入人类经验指导实现更高的识别精度,反之,dvt=0表示智能体推断出由神经网络模型独立完成目标识别可实现更高的识别精度。
3.根据权利要求2所述的装备目标识别方法,其特征在于,步骤3中对所述神经网络模型由一个长短时记忆网络和一个全连接输出层组成。
4.根据权利要求3所述的装备目标识别方法,其特征在于,对所述神经网络模型的训练方法是:
步骤3.1:输入第i个探测目标Tui的时序观测序列
Figure FDA0003260912730000021
Figure FDA0003260912730000022
其中,gct表示在第t个时间步引入人类经验指导值,tut∈Rm是第i个探测目标Tui在时间步t的态势特征,T是在每个时间片段目标被追踪的时间长度,m是特征维度数;
Figure FDA0003260912730000023
Mode 1和Mode 2两个模式表示不同等级的人类经验指导,Mode 1是更容易获得但价值较低的目标类型线索,Mode 2是耗劳力较多但价值也高的目标类别标签,它指的是每个目标单元的具体型号;
步骤3.2:神经网络模型输出每一时间步的动作效用评估值Q值
Figure FDA0003260912730000024
其中,元素
Figure FDA0003260912730000025
表示神经网络模型在时间步t对输入的观测值ot采取动作at后得到的效用评估值;
q(ot,at)=Whqht+bq
其中,Whq是LSTM输出层与动作值之间的映射权值,bq是动作阈值,ht是LSTM网络的输出值,
Figure FDA0003260912730000026
A表示动作空间;
步骤3.3:计算一个时间片段内动作效用评估值Q值的总体期望值:
Figure FDA0003260912730000027
其中,
Figure FDA0003260912730000028
时长为T的时间片段内每一个时间步的Q值q(ot,at)组成的集合,动作
Figure FDA0003260912730000029
的选择,采用ε-greedy策略:
步骤3.4:计算相应的奖赏值;
Figure FDA0003260912730000031
其中,
Figure FDA0003260912730000032
表示模型对目标种类的预测结果,
Figure FDA0003260912730000033
表示目标真实种类标签;且:
Figure FDA0003260912730000034
Rgcor表示在提供了人为判断经验的情况下正确识别目标的奖励,Rginc表示在提供了人为判断经验的情况下错误识别目标的奖励,Rpcor表示由神经网络模型自主预测目标种类结果正确时的奖励;Rpinc表示由神经网络模型自主预测目标种类结果错误时的奖励;
步骤3.5:根据贝尔曼公式,对由当前动作at导致的下一步状态ot+1进行评估:
Figure FDA0003260912730000035
其中,
Figure FDA0003260912730000036
γ是决定智能体视野长短的折扣因子。
步骤3.6:计算神经网络模型的代价函数值Td_error:
Tderror=Q(o′,a′)-Q(o,a)
步骤3.7:计算损失函数并对神经网络模型进行更新:
Figure FDA0003260912730000037
其中,E(o,a,r,o′)表示一个时间片段内代价函数值Td_error的期望值,θ是包括了Whq和bq参数在内的神经网络模型的模型参数,Q(ot+1,at+1;θ)表示在神经网络模型参数θ下的评估值Q(ot+1,at+1);
步骤3.8:重复步骤3.1至3.7,直到达到预设的迭代步数停止,得到训练好的神经网络模型。
5.一种人机智能体,其特征在于,使用权利要求1至4中任一项权利要求所述的目标识别方法训练的神经网络模型。
6.一种基于主动强化学习的装备目标识别装置,其特征在于,包括以下模块:
态势信息获取模块:用于获取一个时间片段内探测到的所有目标单元的时变态势信息,所述时间片段是指具有固定时长的探测片段;
特征向量编码模块:用于对一个时间片段内各时间步上每个目标单元的所有跟踪信号进行特征向量编码,所述所有跟踪信号是指各探测设备在一个时间步上对于一个目标单元的跟踪信号集合;
目标预测模块:用于将进行特征向量编码后的每个目标单元的跟踪信号输入神经网络模型,神经网络模型推断是否需要引入人类经验指导进行学习训练,得到每个目标单元在各时间步的目标预测结果;
目标分类模块:用于根据每个目标单元各时间步的目标预测结果得到一个时间片段内每个目标单元的目标分类结果,所述目标分类结果是指以最小的时间步数获得的最稳定的判定结果。
CN202111072496.XA 2021-09-14 2021-09-14 基于主动强化学习的装备目标识别方法及装置 Active CN113807230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111072496.XA CN113807230B (zh) 2021-09-14 2021-09-14 基于主动强化学习的装备目标识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111072496.XA CN113807230B (zh) 2021-09-14 2021-09-14 基于主动强化学习的装备目标识别方法及装置

Publications (2)

Publication Number Publication Date
CN113807230A true CN113807230A (zh) 2021-12-17
CN113807230B CN113807230B (zh) 2023-11-03

Family

ID=78941216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111072496.XA Active CN113807230B (zh) 2021-09-14 2021-09-14 基于主动强化学习的装备目标识别方法及装置

Country Status (1)

Country Link
CN (1) CN113807230B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556680A (zh) * 2023-05-10 2024-02-13 中国人民解放军海军潜艇学院 基于主动强化学习的潜艇行动参数预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法
US20210034973A1 (en) * 2019-07-30 2021-02-04 Google Llc Training neural networks using learned adaptive learning rates
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034973A1 (en) * 2019-07-30 2021-02-04 Google Llc Training neural networks using learned adaptive learning rates
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨静,赵文仓, 徐越, 冯旸赫,黄金才: "一种基于少样本数据的在线主动学习和分类方法", 南京大学学报, vol. 57, no. 5, pages 757 - 766 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556680A (zh) * 2023-05-10 2024-02-13 中国人民解放军海军潜艇学院 基于主动强化学习的潜艇行动参数预测方法及装置

Also Published As

Publication number Publication date
CN113807230B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
Deng et al. Unbiased mean teacher for cross-domain object detection
CN109344725B (zh) 一种基于时空关注度机制的多行人在线跟踪方法
CN111460443B (zh) 一种联邦学习中数据操纵攻击的安全防御方法
Marsden et al. People, penguins and petri dishes: Adapting object counting models to new visual domains and object types without forgetting
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN108615122A (zh) 一种防空反导体系作战能力评估方法
CN111950628B (zh) 人工智能图像分类模型的鲁棒性评估与增强系统
CN108052881A (zh) 一种实时检测施工现场图像中多类实体对象的方法及设备
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN105893947B (zh) 基于多局部相关特征学习的两视角人脸识别方法
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
Bai et al. Adversarial examples construction towards white-box Q table variation in DQN pathfinding training
US20210216857A1 (en) Device and method for training an augmented discriminator
CN109902697A (zh) 多目标检测方法、装置及移动终端
CN114266355A (zh) 一种基于BiLSTM-Attention的战术意图识别方法
CN113743509A (zh) 一种基于不完全信息的在线作战意图识别方法及装置
CN113704758A (zh) 一种黑盒攻击对抗样本生成方法及系统
Chen et al. Online intention recognition with incomplete information based on a weighted contrastive predictive coding model in wargame
CN113807230A (zh) 基于主动强化学习的装备目标识别方法及人机智能体
CN110070023B (zh) 一种基于运动顺序性回归的自监督学习方法及装置
CN113822198B (zh) 基于uav-rgb图像和深度学习的花生生长监测方法、系统及介质
CN115909027B (zh) 一种态势估计方法及装置
Ohmer et al. Why and how to study the impact of perception on language emergence in artificial agents
Lin et al. An uncertainty-incorporated approach to predict the winner in StarCraft II using neural processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant