CN110321811B - 深度逆强化学习的无人机航拍视频中的目标检测方法 - Google Patents
深度逆强化学习的无人机航拍视频中的目标检测方法 Download PDFInfo
- Publication number
- CN110321811B CN110321811B CN201910519861.3A CN201910519861A CN110321811B CN 110321811 B CN110321811 B CN 110321811B CN 201910519861 A CN201910519861 A CN 201910519861A CN 110321811 B CN110321811 B CN 110321811B
- Authority
- CN
- China
- Prior art keywords
- strategy
- model
- target
- value
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000006870 function Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 27
- 238000002474 experimental method Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及运动目标检测检测技术,特别是深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:步骤1、建立深度逆强化学习模型;步骤2、模型策略迭代与算法实现;步骤3、模型关键参数选取与优化;步骤4、输出运动小目标检测结果。它提供一种能解决复杂任务、奖励回报延迟的深度逆强化学习的无人机航拍视频中的目标跟踪方法。
Description
技术领域
本发明涉及运动目标检测检测技术,特别是深度逆强化学习的 无人机航拍视频中的目标检测方法。
背景技术
在无人机航拍视频目标检测领域,在执行任务过程中的机载相 机通常处于高距离的拍摄角度,其航拍视频中的感兴趣目标通常存 在目标较小、目标特征退化、运动缓慢等特点,运动目标的检测和 提取难度大。但航拍视频相邻序列间对应的运动目标集合存在很强 的关联性,包括目标中心位置、尺寸信息、目标像素特征等。Sutton 提出的时间差分算法进行目标检测,对背景进行全局运动补偿过程 中存在略微的偏差,图像中出现的亮斑点或者明显的边缘等一些异 常点,很大的概率被检测为运动目标,该算法忽略了视频序列之间 的相关性,容易出现运动目标的误检测。Watkins和rummery提出 Q-learning算法和Saras算法,利用了航拍视频中的运动目标集合 链符合马尔科夫过程的特性,将航拍视频中运动目标检测问题建模 为马尔科夫决策过程模型,对输入状态维度可控的模型下采用表格 法解决动态决策问题。马尔科夫决策过程模型中奖励回报函数未知 情况下,现阶段大多数方法通过在专家轨迹辅助下来拟合得到奖励 回报函数,拟合不准确会导致对小目标检测误差大。
深度学习技术对目标检测具有优良的性能。但基于卷积神经网 络的划分预测网格的YOLO方法,以及在先验框基础上增加多尺度特 征信息的SSD检测方法,在像素特征不明显、目标较小、连接紧密 的目标场景下存在很大的局限性。Sutton等人相关策略收敛理论的 提出,使得强化学习应用策略梯度更新的方法得以实现。随后相继 提出DQN、A3C、改进DQN等算法在性能上取得了重大突破。但传统 逆强化学习通过人为设置基底的线性拟合方式,在高维动作和状态 空间局限性较大,容易造成决策模型对策略评价错误和运动目标的 漏检、误检。
针对航拍视频中运动小目标的分辨率低、运动缓慢和容易受到 光照和相机的抖动噪声的特点,逆强化学习(Inverse Reinforcement Learning,IRL)解决了复杂任务、奖励回报延迟等一 些挑战性问题,通过从专家示例中学习潜在的奖励回报函数来提高 决策策略的方法。最大边际规划(MMP)通过寻找特征参数来完成到奖 励回报函数的线性映射,2012年提出的结构化分类(SCIRL)方法通 过将动作空间用类标签表示,通过分类思想的值函数来寻找最优策 略,2016年提出的神经逆向强化学习(NIRL)通过非线性网络的策略 表示方法进行策略优化,拟合高维度策略表示空间在性能上取得了 优势,大大提高了在候选目标集合中正确决策概率。
发明内容
本发明的目的是提供一种能解决复杂任务、奖励回报延迟的深 度逆强化学习的无人机航拍视频中的目标检测方法。
本发明的目的是这样实现的,深度逆强化学习的无人机航拍视 频中的目标检测方法,其特征是:至少包括如下步骤:
步骤1、建立深度逆强化学习模型;
步骤2、模型策略迭代与算法实现;
步骤3、模型关键参数选取与优化;
步骤4、输出运动小目标检测结果。
所述的步骤1包括:
步骤1.1;随机选取训练过程中已获取目标的视频片段作为模型 输入;
步骤1.2,策略全连接网络层。
所述的步骤1.1包括:
步骤1.1.1)随机选取训练过程中已获取目标的视频片段作为 模型输入,在n帧关联检测前提下,定义视频片段最小的帧数为n+1, 其中视频片段最大的帧数不超过2n,如公式(1)所示;
n+1≤FramCount≤2n (1)
其中已获取目标中的视频片段通过公式(1)规则排列贮存;
步骤1.1.2)将航拍视频序列图像中对应的运动目标集合看作 是动作行为集合,通过探索数据轨迹集合表示为公式(2):
Tk=(t,Otk) (2)
包含n个运动目标的探索数据轨迹运动目标集合Otk以及集合中 包含第k个运动目标otk,k的中心位置、尺寸、置信度概率值;可以表 示为公式(3);
其中集合中包含m个正确目标,n-m个误检目标;
步骤1.1.3)对于航拍视频专家轨迹集合表示为公式(4):
Tkl=(t,Otl) (4)
同理,专家数据轨迹运动目标集合可以表示公式(5):
Otl={otl,1,otl,2,otl,3,...,otl,m} (5)
其中包含m个正确目标,将专家数据轨迹运动目标集合作为训 练样本优化模型。
所述的步骤1.1.3)中将专家数据轨迹运动目标集合作为训练 样本优化模型具体包括如下步骤:
步骤1.1.31,特征卷积网络层
通过提取专家数据轨迹运动目标集合差分灰度累加图像中包含 的特征信息,计算得到运动目标候选区域的数据类型;将初始图像 归一化为438*438大小的数据类型作为模型输入,模型通过4层卷 积特征层与2层全连接层组成,将前3层卷积层通过最大池化层对 数据进行整合;
步骤1.1.32,在特征CNN层的训练方法上,采用xavier方法 初始化网络层权重值,通过计算得到的运动目标信息差量得到损失 函数对模型进行调优;
步骤1.1.33,采用线性整流激活函数,将模型前向预测得到 的运动目标信息与专家轨迹目标集合求差值得到损失量,包括目标 中心位置坐标损失量与目标大小尺寸损失量,以及对误检目标的惩 罚量。损失函数如式(6)所示,其中cij取值范围为(0,1),表示置信度概率值;
其中系数设置为:βx,y=0.5,βw,h=0.5,βk=2.0,βl1=0.1,βl2=2.0
步骤1.1.34,在计算得到损失误差量之后,通过反向传播将 其误差量作为神经网络模型更新迭代的参照量,误差量分摊给各层 单元节点并对权重进行修正;
步骤1.1.35,通过加入动量(Momentum)项来增大权重修正的 趋势,使得模型收敛加快,如公式(7)所示:
在特征CNN前向预测及训练阶段的反向更新参数过程中,将前 两层卷积层特征图谱可视化表示。
所述的步骤1.2,策略全连接网络层具体包括:
步骤1.2.1,将特征CNN层得到的运动目标信息数据作为策略全 连接网络层模型输入的一部分,采用多帧检测结果组合的方式得到 16*16*8(n+1)维度的数据类型作为输入;
步骤1.2.2,通过模型第1层的最大池化层将多帧关联的高维度 数据降低其空间复杂度,再通过2层全连接结构策略层筛选得到最 优的运动目标检测结果;
步骤1.2.3,通过神经网络非线性拟合出奖励回报函数,使其学 习得到专家轨迹中的最优策略,将C维的特征向量fc与权重θc的线性 组合,其中s表征多帧运动目标状态,a表征策略在当前状态下做的 选择行为动作,通过公式(8)表示为:
步骤1.2.4,将每次通过探索得到的策略定义为探索策略;对于 一个新的探索策略πi生成的探索轨迹Tk,探索策略期望值可以表示为 公式(9);
其中γ为折扣系数,γ越大表征对历史奖励回报函数的权重越大。 q′可以通过数据轨迹集合中包含的正确目标与误检目标得到,通过 引入q′将探索策略期望值进行归一化,q′可以通过公式(10)定义:
步骤1.2.5,专家期望同理可以表示为默认专家期望是局 部最优量,专家策略期望量与探索策略期望量的差值可以定义为策 略期望损失量Lt(πi),Lt(πi)≥0,迭代更新策略πi使得存在误差ε范围 内满足下式,其中期望函数最大,代表当前的策略最优, 代表得到最佳的运动目标检测效果更佳,可以通过公式(11)表示:
步骤1.2.6,当前探索策略πi通过n-step时间差分回退方法得 到的Q值,当n=0时,表示策略Q值只与当前状态的奖励回报值相 关,与其他状态的奖励回报值无关,n的取值越大表示回退步数越深, 参考其他状态的奖励回报值越多,可以通过公式(12)表示:
所述的步骤2具体包括:
步骤2.1,输入(n+1)*256候选运动目标信息,实验中设置n=7。 随机生成初始化策略π0,即通过全连接层权重W1与W2表现;
步骤2.4,计算奖励回报函数rt,k,通过n-step时间差分回退方 法更新策略Q值;
步骤2.5,反向传播更新神经网络权重,更新得到新的当前策略 πi+1;
步骤2.7,最终模型的输出是8*8*5维度上的最优解。
所述的步骤3包括:
步骤3.1,专家轨迹辅助优化
步骤3.1.1第一阶段通过将已标记运动目标集合的航拍视频分割 为不同长度的视频片段,将已标记的视频片段作为专家轨迹来辅助 训练特征网络和策略网络;
步骤3.1.2,在经验回放阶段,特征网络与策略网络进行前向预 测和反向参数更新,经过20万次迭代模型收敛完成;
步骤3.2,策略提高优化
在第二阶段训练过程中,特征模型收敛与奖励函数拟合完成的 前提下,通过用未标记的航拍视频做前向预测并只反向更新策略模 型中的参数。
所述的步骤4输出运动小目标检测结果具体是:将检测准确度 与检测帧率作为对比与评估算法性能的标准,其中检测算法的准确 度P通过对检测得到的最终运动目标边框信息进行分析;如下式(22) 所示,Alabeled为已被标签的正确区域总和,Aprec为模型预测的区域总 和,Apublic为模型预测区域与已被标签的正确区域的重叠公共部分, 其中N为实验中航拍视频帧数,比如在远距离航拍足球场实验中,N 的取值为1420:
本发明通过神经网络非线性拟合得到奖励回报函数,通过专家 轨迹对特征卷积网络模型和策略全连接网络模型调整和优化。特征 网络层通过多层卷积网络提取候选目标区域,并将当前帧候选目标 与前n帧检测结果关联作为策略网络初始层。策略通过全连接层的 权重值来表现,并在专家轨迹辅助下进行特征网络模型的优化和策 略网络层的探索策略迭代更新,完成对奖励回报函数的非线性拟合 与专家策略的学习过程。通过置信域策略优化方法对策略的参数向 量进行调优,确保策略在更新迭代过程中单调不减。模型训练过程 中经历专家轨迹辅助学习专家策略阶段与策略网络自主提高策略阶 段。在航拍图像应用下,经过不同场景实验对比分析与性能评估, 实现在运动目标检测准确度提高。
本发明可以准确的检测,且满足实时飞行的航拍无人机执行任 务过程中的检测速度要求。通过将策略优化目标函数的极值问题转 化为代理函数极值问题。通过置信域策略优化方法对策略的参数向 量进行调优,引入状态空间与动作空间分布的平均KL散度作为约束 条件,确保策略在更新迭代过程中单调不减,满足实时飞行的航拍 无人机执行任务过程中的检测速度要求。
附图说明
下面结合实施例附图对本发明作进一步说明:
图1是已获取目标生成方法;
图2是特征CNN层模型;
图3(a)是中间层conv-1的特征模型可视化结果;
图3(b)中间层conv-2的特征模型可视化结果;
图4(a)是多帧检测结果关联(取n=7);
图4(b)是策略全连接网络层模型;
图5模型优化框图;
图6特征网络平均loss收敛曲线;
图7(a)策略网络平均奖励回报值收敛曲线;
图7(b)策略网络最大奖励回报值收敛曲线;
图8(a)探索策略Q值收敛曲线;
图8(b)探索策略期望值loss收敛曲线。
具体实施方式
一种深度逆强化学习的无人机航拍视频中的目标检测方法,其 特征是:至少包括如下步骤:
步骤1、建立深度逆强化学习模型;
步骤2、模型策略迭代与算法实现;
步骤3、模型关键参数选取与优化。
所述的步骤1包括如下具体步骤:
步骤1,建立深度逆强化学习模型
随机选取训练过程中已获取目标的视频片段作为模型输入,在n 帧关联检测前提下,定义视频片段最小的帧数为n+1,其中视频片段 最大的帧数不超过2n,如公式(1)所示;
n+1≤FramCount≤2n (1)
如图1所示,其中已获取目标中的视频片段通过公式(1)规则 排列存储。
将航拍视频序列图像中对应的运动目标集合看作是动作行为集 合,通过探索数据轨迹集合表示为公式(2):
Tk=(t,Otk) (2)
包含n个运动目标的探索数据轨迹运动目标集合Otk以及集合中 包含第k个运动目标otk,k的中心位置、尺寸、置信度概率值;可以表 示为公式(3);
其中集合中包含m个正确目标,n-m个误检目标;
对于航拍视频专家轨迹集合表示为公式(4):
Tkl=(t,Otl) (4)
同理,专家数据轨迹运动目标集合可以表示公式(5):
Otl={otl,1,otl,2,otl,3,...,otl,m} (5)
其中包含m个正确目标,将专家数据轨迹运动目标集合作为训 练样本优化模型;
将专家数据轨迹运动目标集合作为训练样本优化模型具体包括 如下步骤:
步骤1.1,特征卷积网络层
特征卷积神经网络(Convolutional Neural Networks,CNN) 层通过提取专家数据轨迹运动目标集合差分灰度累加图像中包含的 特征信息,计算得到运动目标候选区域的数据类型;将初始图像归 一化为438*438大小的数据类型作为模型输入,模型通过4层卷积 特征层与2层全连接层组成,为了降低模型计算复杂度且消除非极 大值的干扰,前3层卷积层通过最大池化层对数据进行整合,如图2 所示:
在特征CNN层的训练方法上,采用xavier方法初始化网络层权 重值,通过计算得到的运动目标信息差量得到损失函数对模型进行 调优,输入图像像素点稀疏性导致模型可以快速捕捉数据特征,模 型收敛较快,为了防止梯度弥散,采用线性整流(RectifiedLinear Unit,ReLU)激活函数,将模型前向预测得到的运动目标信息与专 家轨迹目标集合求差值得到损失量,包括目标中心位置坐标损失量 与目标大小尺寸损失量,以及对误检目标的惩罚量。损失函数如式 (6)所示,其中cij取值范围为(0,1),表示置信度概率值;
其中系数设置为:βx,y=0.5,βw,h=0.5,βk=2.0,βl1=0.1,βl2=2.0
在计算得到损失误差量之后,通过反向传播将其误差量作为神 经网络模型更新迭代的参照量,误差量分摊给各层单元节点并对权 重进行修正。传统随机梯度下降方法(Stochastic gradient descent)受局部最优区域干扰严重,由于在局部最优点附近的震荡 导致模型收敛缓慢,通过加入动量(Momentum)项来增大权重修正的 趋势,使得模型收敛加快,如公式(7)所示。
在特征CNN前向预测及训练阶段的反向更新参数过程中,通过 将前两层卷积层特征图谱可视化表示,不仅方便模型调优,而且可 以直观展示端到端的黑盒子中间处理过程。其中中间层conv-1和中 间层conv-2可视化结果如下图3所示。
步骤1.2,策略全连接网络层
将特征CNN层得到的运动目标信息数据做为策略全连接网络层 模型输入的一部分,由于航拍视频差分灰度累加序列间关联性较强, 故采用多帧检测结果组合的方式得到16*16*8(n+1)维度的数据类型 作为输入,如图4(a)所示。通过模型第1层的最大池化层将多帧关 联的高维度数据降低其空间复杂度,再通过2层全连接结构策略层 筛选得到最优的运动目标检测结果,如图4(b)所示。
在未知奖励回报函数的马尔科夫决策问题下,通过神经网络非线 性拟合出奖励回报函数,使其学习得到专家轨迹中的最优策略。可 以认为是C维的特征向量fc与权重θc的线性组合,其中s表征多帧运 动目标状态,a表征策略在当前状态下做的选择行为动作,通过公式 (8)表示为。
将每次通过探索得到的策略定义为探索策略(Exploration Policy,EP)。对于一个新的探索策略πi生成的探索轨迹Tk,探索策略 期望值可以表示为公式(9)。
其中γ为折扣系数,γ越大表征对历史奖励回报函数的权重越大。 q′可以通过数据轨迹集合中包含的正确目标与误检目标得到,通过 引入q′将探索策略期望值进行归一化,q′可以通过公式(10)定义。
专家期望同理可以表示为默认专家期望是局部最优量,专 家策略期望量与探索策略期望量的差值可以定义为策略期望损失量 Lt(πi),Lt(πi)≥0,迭代更新策略πi使得存在误差ε范围内满足下式, 其中期望函数最大,代表当前的策略最优,代表得到最佳 的运动目标检测效果更佳,可以通过公式(11)表示。
当前探索策略πi通过n-step时间差分回退方法得到的Q值,当 n=0时,表示策略Q值只与当前状态的奖励回报值相关,与其他状态 的奖励回报值无关,n的取值越大表示回退步数越深,参考其他状态 的奖励回报值越多,可以通过公式(12)表示。
2、模型策略迭代
依据策略网络更新方法将实验过程分为两个阶段,分别是策略 网络通过专家轨迹辅助学习专家策略与策略网络自主提高策略阶段, 如图5所示。
如果当前探索策略πi与历史探索策略πi-1具有相同的探索策略 期望值,则表示其具备相同的策略Q值,那么对于最小化策略期望 损失量的问题可以转换为最小化策略Q值的等价问题。在对权重θ的 约束过程中,由于在专家轨迹集合中依然存在大量离群数据,为了 可以在违反约束规则的情况下进行惩罚,去除离群数据对模型的干 扰,因此在原本约束条件基础上引入松弛变量ξi,最终得到的约束条 件可以表示为公式(13)。
在探索轨迹集合中,将探索策略Q值及策略期望损失量作为正 参考量来构建目标函数,以及权重θ的更新,其中λ为经验常数来平 衡违反约束规则的惩罚量,如公式(14)所示。
对于全连接层参数W1(θ)与W2(θ)的更新规则,通过将旧策略的已 知状态分布替代新策略的未知状态分布,由于新旧策略中参数很接 近,故旧的状态分布与新的状态分布可以进行替代。整理得到下式 (15)。
上式(15)中未知动作at+1同样是由新策略πi+1产生,通过重要性 采样对动作分布进行估计,得到下面公式(16)表述形式。
由于新旧策略的状态分布误差可以忽略,故η(πi+1)与L(πi+1)在旧 策略πi处一阶近似。为了得到策略更新步长,引入状态分布与动作分 布的KL散度以及惩罚因子,得到下式(17)。
其中不等式右边为η(πi+1)的下界,可以证明得到该策略的单调性。 问题可以简化为下式(18)。
因为状态空间较大,最大KL散度约束条件局限性较大,利用平 均KL散度替代最大KL散度可以解决此问题。下式(19)为替代后 的约束条件。
通过将旧策略的状态分布取代新策略的状态分布,同时动作分 布通过旧策略进行重要性采样获得,求取样本均值,将状态与动作 分布的平均KL散度作为约束条件保证策略的单调不减性。
综上所述,策略迭代与策略网络模型调优步骤如下:
(1)输入(n+1)*256候选运动目标信息,实验中设置n=7。 随机生成初始化策略π0,即通过全连接层权重W1与W2表现;
(4)计算奖励回报函数rt,k,通过n-step时间差分回退方法 更新策略Q值;
(5)反向传播更新神经网络权重,更新得到新的当前策略 πi+1;
(7)最终模型的输出是8*8*5维度上的最优解。
步骤3,模型关键参数选取与优化
由于关联帧数直接影响已获取目标中视频片段选取的帧数,并 且影响策略网络模型中作为模型输入与模型收敛情况,因此,关键 帧数的取值尤为重要。在关联帧数n取值上,将n值分别设置为0-9 作对比实验,将关联帧数n的取值为0时,代表策略模型输入只对当前检测帧结果作为参考,与历史检测帧结果无关,关联帧数取值 越大代表模型对历史检测帧数结果关联性越强。对模型做20万次迭 代实验,统计策略网络模型收敛后的平均奖励值、最大奖励回报值、 探索策略Q值、探索策略期望损失量。将上述4个统计量进行归一 化,再计算加权得分来评估关联帧数不同取值的优劣。实验结果统 计如表1所示,计算得到当关联帧数n取值为7时,归一化加权得 分为最高分96.5分,故将关联帧数的取值定义为7。
表1关联帧数验证实验结果
步骤3.1,专家轨迹辅助优化
第一阶段通过将已标记运动目标集合的航拍视频分割为不同长 度的视频片段,将已标记的视频片段作为专家轨迹来辅助训练特征 网络和策略网络,在经验回放(Experience Replay)阶段,特征网络 与策略网络进行前向预测和反向参数更新,经过20万次迭代模型收 敛完成,即策略网络模型中对专家策略的学习与奖励函数的拟合完 成。
特征卷积网络层在训练过程中,由于灰度图像的稀疏特性导致 模型收敛迅速。在关联帧数取值为7时,模型在经过20万次迭代之 后,平均loss值收敛效果明显,如图6所示。
策略网络模型训练过程中统计奖励返回值,包括每100次迭代 过程中最大的奖励回报值与平均奖励回报值的统计,如图7所示。 奖励回报值表征在探索策略下对运动目标最终决策的表现,在经过 20万次迭代之后分别收敛到5.182和20.057。
在策略网络模型训练过程中,策略Q值为固定回退步数的时间 差分方法下得到的,其意义为在当前运动目标集合状态下采取最优 决策动作行为的价值评估量,故将探索策略Q值可以作为评价策略 优劣的标准。最终探索策略Q值收敛到2.114,即策略收敛,探索策 略Q值收敛曲线如8图所示。
策略模型在学习专家策略过程中,通过将探索策略期望值与专 家策略期望值的差值来评估对专家策略的逼近和学习效果。在模型 迭代实验过程中,由于在迭代规则约束下,只允许当前探索策略不 小于历史探索策略的策略迭代更新,策略期望损失量更新规则如下 式(21)所示。
Lt(πi+1)≥Lt(πi) (21)
实验中将策略期望损失量允许的误差量ε定义为0.01,在第 198200次迭代中收敛到允许的误差量范围内。在20万次迭代完成后, 期望损失量最终收敛到0.098,下图为探索策略期望loss收敛曲线。
步骤3.2,策略提高优化
在第二阶段训练过程中,特征模型收敛与奖励函数拟合完成的 前提下,通过用未标记的航拍视频做前向预测并只反向更新策略模 型中的参数。这个阶段特征卷积网络模型不参与训练与反向参数更 新,只进行前向运动目标预选区域预测。
本实验通过未进行标记的航拍视频作为训练数据,使模型通过自 主提高、评估并更新自身策略来优化策略网络模型。实验中将关联 帧数n=6作为次优方案,通过取关联帧数n=6和n=7作为两组对比 实验,分别记录模型在第10万、第20万、第30万、第40万、第 50万、第60万、第80万和第100万次策略迭代更新的评估量。评 估量通过统计平均奖励回报值、最大奖励回报值、探索策略Q值以 及探索策略期望值损失量,实验结果如表2、表3所示。
表2n=6策略提高实验结果
表3n=7策略提高实验结果
观察以上两组实验,在策略进行50万次迭代之后,策略提升速 度缓慢,相比于训练之前的评估量值都有明显的提高,在迭代100 万次之后,策略提升速度更加缓慢甚至停止,策略模型收敛完成。 在关联帧数n取值为6的实验中,平均奖励回报值与探索策略期望损失量收敛效果更好。反之,在关联帧数n取值为7的实验中最大 奖励回报值与探索策略Q值收敛效果更加突出。策略网络模型在经 过自主提高策略阶段的训练,对运动目标的决策策略得到了提高。
步骤4,实验结果与结论
通过选取不同场景、不同飞行高度下的无人机航拍视频,在复 杂航拍场景下对不同算法性能进行对比与论证。本实验通过远距离 航拍足球场、近距离航拍足球场、航拍郊区道路、航拍沙漠等场景 下进行多组对比实验。最终将检测准确度与检测帧率作为对比与评 估算法性能的标准。
其中检测算法的准确度P通过对检测得到的最终运动目标边框 信息进行分析。如下式(22)所示,Alabeled为已被标签的正确区域总 和,Aprec为模型预测的区域总和,Apublic为模型预测区域与已被标签的 正确区域的重叠公共部分,其中N为实验中航拍视频帧数,比如在 远距离航拍足球场实验中,N的取值为1420。
通过在不同场景的航拍视频下进行实验,对比帧间差分方法、 MMP方法、SCIRL方法与本文用到的深度逆强化学习方法,统计得到 的检测准确度如表1-3所示。本文深度逆强化学习方法在不同航拍 场景下的检测精度都高于其他方法,在远距离航拍足球场(即足球 场1)及郊区场景下,图像背景复杂、运动目标较小等因素造成检测 难度增加,本文方法检测准确度依旧保持在77%以上,相比其他方法 表现出明显的优势。在近距离航拍足球场(即足球场1)场景下检测 准确度高达96.65%。
Claims (6)
1.深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:
步骤1、建立深度逆强化学习模型;
步骤2、模型策略迭代与算法实现;
步骤3、模型关键参数选取与优化;
步骤4、输出运动小目标检测结果;
所述的步骤1包括:
步骤1.1;随机选取训练过程中已获取目标的视频片段作为模型输入;
步骤1.2,策略全连接网络层;
所述的步骤1.2,策略全连接网络层具体包括:
步骤1.2.1,将特征CNN层得到的运动目标信息数据作为策略全连接网络层模型输入的一部分,采用多帧检测结果组合的方式得到16*16*8(n+1)维度的数据类型作为输入;
步骤1.2.2,通过模型第1层的最大池化层将多帧关联的高维度数据降低其空间复杂度,再通过2层全连接结构策略层筛选得到最优的运动目标检测结果;
步骤1.2.3,通过神经网络非线性拟合出奖励回报函数,使其学习得到专家轨迹中的最优策略,将C维的特征向量fc与权重θc的线性组合,其中s表征多帧运动目标状态,a表征策略在当前状态下做的选择行为动作,通过公式(8)表示为:
步骤1.2.4,将每次通过探索得到的策略定义为探索策略;对于一个新的探索策略πi生成的探索轨迹Tk,探索策略期望值可以表示为公式(9);
其中γ为折扣系数,γ越大表征对历史奖励回报函数的权重越大;q′可以通过数据轨迹集合中包含的正确目标与误检目标得到,通过引入q′将探索策略期望值进行归一化,q′可以通过公式(10)定义:
步骤1.2.5,专家期望同理可以表示为默认专家期望是局部最优量,专家策略期望量与探索策略期望量的差值可以定义为策略期望损失量Lt(πi),Lt(πi)≥0,迭代更新策略πi使得存在误差ε范围内满足下式,其中期望函数最大,代表当前的策略最优,代表得到最佳的运动目标检测效果更佳,可以通过公式(11)表示:
2.根据权利要求1所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1.1包括:
步骤1.1.1)随机选取训练过程中已获取目标的视频片段作为模型输入,在n帧关联检测前提下,定义视频片段最小的帧数为n+1,其中视频片段最大的帧数不超过2n,如公式(1)所示;
n+1≤FramCount≤2n (1)
其中已获取目标中的视频片段通过公式(1)规则排列贮存;
步骤1.1.2)将航拍视频序列图像中对应的运动目标集合看作是动作行为集合,通过探索数据轨迹集合表示为公式(2):
Tk=(t,Otk) (2)
包含n个运动目标的探索数据轨迹运动目标集合Otk以及集合中包含第k个运动目标otk,k的中心位置、尺寸、置信度概率值;可以表示为公式(3);
其中集合中包含m个正确目标,n-m个误检目标;
步骤1.1.3)对于航拍视频专家轨迹集合表示为公式(4):
Tkl=(t,Otl) (4)
同理,专家数据轨迹运动目标集合可以表示公式(5):
Otl={otl,1,otl,2,otl,3,...,otl,m} (5)
其中包含m个正确目标,将专家数据轨迹运动目标集合作为训练样本优化模型。
3.根据权利要求2所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1.1.3)中将专家数据轨迹运动目标集合作为训练样本优化模型具体包括如下步骤:
步骤1.1.31,特征卷积网络层
通过提取专家数据轨迹运动目标集合差分灰度累加图像中包含的特征信息,计算得到运动目标候选区域的数据类型;将初始图像归一化为438*438大小的数据类型作为模型输入,模型通过4层卷积特征层与2层全连接层组成,将前3层卷积层通过最大池化层对数据进行整合;
步骤1.1.32,在特征CNN层的训练方法上,采用xavier方法初始化网络层权重值,通过计算得到的运动目标信息差量得到损失函数对模型进行调优;
步骤1.1.33,采用线性整流激活函数,将模型前向预测得到的运动目标信息与专家轨迹目标集合求差值得到损失量,包括目标中心位置坐标损失量与目标大小尺寸损失量,以及对误检目标的惩罚量;损失函数如式(6)所示,其中cij取值范围为(0,1),表示置信度概率值;
其中系数设置为:βx,y=0.5,βw,h=0.5,βk=2.0,βl1=0.1,βl2=2.0;
步骤1.1.34,在计算得到损失误差量之后,通过反向传播将其误差量作为神经网络模型更新迭代的参照量,误差量分摊给各层单元节点并对权重进行修正;
步骤1.1.35,通过加入动量项来增大权重修正的趋势,使得模型收敛加快,如公式(7)所示:
在特征CNN前向预测及训练阶段的反向更新参数过程中,将前两层卷积层特征图谱可视化表示。
4.根据权利要求1所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤2具体包括:
步骤2.1,输入(n+1)*256候选运动目标信息,实验中设置n=7;随机生成初始化策略π0,即通过全连接层权重W1与W2表现;
步骤2.4,计算奖励回报函数rt,k,通过n-step时间差分回退方法更新策略Q值;
步骤2.5,反向传播更新神经网络权重,更新得到新的当前策略πi+1;
步骤2.7,最终模型的输出是8*8*5维度上的最优解。
5.根据权利要求1所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤3包括:
步骤3.1,专家轨迹辅助优化
步骤3.1.1第一阶段通过将已标记运动目标集合的航拍视频分割为不同长度的视频片段,将已标记的视频片段作为专家轨迹来辅助训练特征网络和策略网络;
步骤3.1.2,在经验回放阶段,特征网络与策略网络进行前向预测和反向参数更新,经过20万次迭代模型收敛完成;
步骤3.2,策略提高优化
在第二阶段训练过程中,特征模型收敛与奖励函数拟合完成的前提下,通过用未标记的航拍视频做前向预测并只反向更新策略模型中的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910519861.3A CN110321811B (zh) | 2019-06-17 | 2019-06-17 | 深度逆强化学习的无人机航拍视频中的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910519861.3A CN110321811B (zh) | 2019-06-17 | 2019-06-17 | 深度逆强化学习的无人机航拍视频中的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321811A CN110321811A (zh) | 2019-10-11 |
CN110321811B true CN110321811B (zh) | 2023-05-02 |
Family
ID=68119776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910519861.3A Active CN110321811B (zh) | 2019-06-17 | 2019-06-17 | 深度逆强化学习的无人机航拍视频中的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321811B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751099B (zh) * | 2019-10-22 | 2022-05-10 | 东南大学 | 一种基于深度学习的无人机航拍视频轨迹高精度提取方法 |
CN110955239B (zh) * | 2019-11-12 | 2021-03-02 | 中国地质大学(武汉) | 一种基于逆强化学习的无人船多目标轨迹规划方法及系统 |
CN110781614B (zh) * | 2019-12-06 | 2024-03-22 | 北京工业大学 | 基于深度强化学习的舰载机出动回收在线调度方法 |
CN113128323B (zh) * | 2020-01-16 | 2023-08-18 | 中国矿业大学 | 一种基于协同进化卷积神经网络学习的遥感图像分类方法及装置 |
CN111460883B (zh) * | 2020-01-22 | 2022-05-03 | 电子科技大学 | 基于深度强化学习的视频行为自动描述方法 |
CN112580537B (zh) * | 2020-12-23 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法 |
CN112791394B (zh) * | 2021-02-02 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 游戏模型训练方法、装置、电子设备及存储介质 |
CN112947430B (zh) * | 2021-02-03 | 2022-07-15 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN112949731A (zh) * | 2021-03-11 | 2021-06-11 | 江苏禹空间科技有限公司 | 基于多专家模型的目标检测方法、装置、存储介质及设备 |
CN113242469B (zh) * | 2021-04-21 | 2022-07-12 | 南京大学 | 一种自适应视频传输配置方法和系统 |
CN113591668B (zh) * | 2021-07-26 | 2023-11-21 | 南京大学 | 一种使用深度学习和空间分析的广域未知大坝自动探测方法 |
CN113688977B (zh) * | 2021-08-30 | 2023-12-05 | 浙江大学 | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 |
CN115857556B (zh) * | 2023-01-30 | 2023-07-14 | 中国人民解放军96901部队 | 一种基于强化学习的无人飞行器协同探测规划方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
CN108647665A (zh) * | 2018-05-18 | 2018-10-12 | 西安电子科技大学 | 基于深度学习的航拍车辆实时检测方法 |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN109002752A (zh) * | 2018-01-08 | 2018-12-14 | 北京图示科技发展有限公司 | 一种基于深度学习的复杂公共场景快速行人检测方法 |
CN109657541A (zh) * | 2018-11-09 | 2019-04-19 | 南京航空航天大学 | 一种基于深度学习的无人机航拍图像中的船舶检测方法 |
CN109711557A (zh) * | 2018-12-28 | 2019-05-03 | 西安航空学院 | 一种行车轨迹预测方法、系统、计算机设备及存储介质 |
CN109740463A (zh) * | 2018-12-21 | 2019-05-10 | 沈阳建筑大学 | 一种车载环境下的目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110574048B (zh) * | 2017-06-09 | 2023-07-07 | 渊慧科技有限公司 | 训练动作选择神经网络 |
-
2019
- 2019-06-17 CN CN201910519861.3A patent/CN110321811B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
CN109002752A (zh) * | 2018-01-08 | 2018-12-14 | 北京图示科技发展有限公司 | 一种基于深度学习的复杂公共场景快速行人检测方法 |
CN108647665A (zh) * | 2018-05-18 | 2018-10-12 | 西安电子科技大学 | 基于深度学习的航拍车辆实时检测方法 |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN109657541A (zh) * | 2018-11-09 | 2019-04-19 | 南京航空航天大学 | 一种基于深度学习的无人机航拍图像中的船舶检测方法 |
CN109740463A (zh) * | 2018-12-21 | 2019-05-10 | 沈阳建筑大学 | 一种车载环境下的目标检测方法 |
CN109711557A (zh) * | 2018-12-28 | 2019-05-03 | 西安航空学院 | 一种行车轨迹预测方法、系统、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
复杂条件下人脸检测方法研究与实现;梅真卿;《复杂条件下人脸检测方法研究与实现》;20180815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110321811A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321811B (zh) | 深度逆强化学习的无人机航拍视频中的目标检测方法 | |
US11182620B2 (en) | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network | |
US11461654B2 (en) | Multi-agent cooperation decision-making and training method | |
CN112949828B (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
KR20200018283A (ko) | 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법 | |
Zhao et al. | A brain-inspired decision making model based on top-down biasing of prefrontal cortex to basal ganglia and its application in autonomous UAV explorations | |
Boluki et al. | Learnable Bernoulli dropout for Bayesian deep learning | |
CN110728698B (zh) | 一种基于复合循环神经网络系统的多目标跟踪系统 | |
CN110413754B (zh) | 对话(中)奖励评估和对话方法、介质、装置和计算设备 | |
CN112597392B (zh) | 一种基于动态注意力和分层强化学习的推荐系统 | |
Bohdal et al. | Meta-calibration: Learning of model calibration using differentiable expected calibration error | |
JP7295282B2 (ja) | 適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法及びこれを利用したオンデバイス学習装置 | |
Sun et al. | Small-scale moving target detection in aerial image by deep inverse reinforcement learning | |
CN113947022B (zh) | 一种基于模型的近端策略优化方法 | |
CN114463540A (zh) | 使用神经网络对图像进行分割 | |
CN114911969A (zh) | 一种基于用户行为模型的推荐策略优化方法和系统 | |
US20230206054A1 (en) | Expedited Assessment and Ranking of Model Quality in Machine Learning | |
CN115482513A (zh) | 使预训练的机器学习系统适配于目标数据的设备和方法 | |
CN111144567A (zh) | 神经网络模型的训练方法及装置 | |
CN114137967A (zh) | 基于多网络联合学习的驾驶行为决策方法 | |
US11676027B2 (en) | Classification using hyper-opinions | |
CN116486150A (zh) | 一种基于不确定性感知的图像分类模型回归误差消减方法 | |
Liu et al. | Non-local mean filtering algorithm based on deep learning | |
CN113095328B (zh) | 一种基尼指数引导的基于自训练的语义分割方法 | |
Lee et al. | Warningnet: A deep learning platform for early warning of task failures under input perturbation for reliable autonomous platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |