CN111275171A

CN111275171A - 一种基于参数共享的多尺度超分重建的小目标检测方法

Info

Publication number: CN111275171A
Application number: CN202010060271.1A
Authority: CN
Inventors: 赵仲秋; 沈浩; 黄德双
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111275171B

Abstract

本发明公开了一种基于参数共享的多尺度超分重建的小目标检测方法，该方法包括三个步骤：（1）将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练，直到损失函数收敛；（2）然后构建基于参数共享的Skip‑Connection多尺度特征重建网络结构，在此过程中，将超分和目标检测匹配的小型数据集输入该网络，首先提取多尺度超分特征，然后对重建的超分特征进行目标检测；（3）采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练，最终得到小目标检测的训练模型。本发明不仅提升了小目标检测的识别率，而且所发明的动态协同训练方法也适用于其他的多任务训练过程中。

Description

一种基于参数共享的多尺度超分重建的小目标检测方法

技术领域

本发明涉及多尺度超分重建和小目标检测的相关算法，特别涉及一种基于参数共享的多尺度超分重建的小目标检测方法。

背景技术

随着人工智能技术的不断更新，目标检测算法的识别率正不断被刷新，并且已经应用在了很多具体的实际应用中。近年来，随着深度学习和卷积神经网络的不断兴起，计算机视觉研究及其相关技术都取得了突破性的进展，尤其针对目标识别和检测任务，实现了将检测任务与识别任务统一到一个网络结构中，并且逐渐形成了端到端的网络构建模式，在实时性与准确性方面均远远超越了传统的目标检测方法。然而，当待检测的目标位于比较复杂的场景中，或者所获得的的目标尺度过小，例如在VOC2012与MS-COCO等数据集中，当前已有的深度网络均不能有效地进行检测和识别：如具有较高精度的RetinaNet网络在MS-COCO测试数据集中对大(目标区域像素大于96×96)、中、小(目标区域像素小于32×32)目标的检测精度mAP(mean Average Precision)分别为51.2、44.2、24.1。

在实际的生活场景中，存在大量对特定小目标的检测需求，并且检测精度还存在很大的提升空间，如：在车站、机场、等人流量较多的公众场所，需要在较大视距条件下检测行人、车辆或者其它的小型物体；在工业制造或医学诊断领域，需要检测的缺陷和异常(裂痕、杂质、癌细胞等)在影像中的相对尺度非常小，等等。

通过构建多尺度特征融合的网络结构，来增强小目标的特征表示。目标检测网络如Inside Outside Net(ION)、Feature-fused SSD、Deconvolutional SSD(DSSD)等构建top-down and bottom-up形式的多尺度特征融合结构的网络模型，使其具备一定的尺度不变性，能检测到较小尺度目标。由于浅层特征并不具有很抽象的语义信息，而深层特征往往丢失了目标的纹理细节信息，因此，将深层与浅层特征直接融合并不能从低分辨率图像特征中挖掘或重建出新的细节特征，反而粗粒度语义特征与细粒度细节特征之间会互相干扰。因而，SSD、DSSD等目前检测效果较好的网络倾向于先利用不同尺度的特征进行目标检测，再将各层分支的检测结果按非极大值抑制策略进行融合。总之，多尺度特征融合方法能够一定程度上扩大网络模型检测目标的尺度范围，提高对小尺度目标的检测召回率。

目标检测网络中的多尺度特征融合虽然能有效兼顾粗粒度深层特征与细粒度浅层特征，却并非是对目标细节信息的补充与重建。然而，若将图像超分辨率作为目标检测的辅助视觉任务，构建多任务网络，必然能给小目标特征补充或重建细节特征，从而有效缓解小目标特征粗糙问题，提高小尺度目标的检测精度。构建该多任务网络的另一方面好处是，目标检测任务注重特定目标的定位与分类，它提取的卷积特征侧重于保留(激活)特定目标的特征表示而忽略背景信息，这些特征反过来又可被超分辨率任务用来重建更适合人类视觉愉悦(前景目标相对背景更加明显)的高分辨率图像。由此可见，图像超分辨率重建任务和目标检测任务互为补充和互相促进。然而，将超分和目标检测仍然存在以下问题：

(1)多任务网络模型涉及多个视觉任务，训练时要求训练集同时满足多个任务的标注条件。然而采集与制作同时满足多标注条件的大训练集需耗费大量资源。并且在当前已公布的所有数据集中，并不存在这两种任务所匹配的相关数据集，主要问题就在于目标检测训练集中的图像包含多尺度目标，但往往分辨率较低，而超分重建任务训练集中仅仅包含少量的目标，且尺度都比较大，并且没有目标的位置及类别标注。

(2)在构建多尺度特征融合的网络结构中，由于浅层特征并不具有很抽象的语义信息，而深层特征往往丢失了目标的纹理细节信息，因此，将深层与浅层特征直接融合并不能从低分辨率图像特征中挖掘或重建出新的细节特征，反而粗粒度语义特征与细粒度细节特征之间会互相干扰，因此针对超分网络所获取的的多尺度特征如何融入目标检测网络中也是需要解决的问题。

(3)当超分和小目标检测任务融合到同一个网络中如何确定多任务网络训练过程中的迭代次数以及网络分支交替训练次序是多任务训练所面临的难点。本发明针对上述问题，突破现有的目标检测识别算法，创造性地将多个任务结合在一起，提出了基于参数共享多尺度超分重建的小目标检测方法，构建了多尺度特征重建结构，提出了基于马尔可夫决策的多任务网络训练方法。

发明内容

本发明目的在于针对计算机视觉任务中的小目标检测和识别率低的问题，提出了一种基于参数共享的多尺度超分重建的小目标检测方法，首先将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练，直到损失函数收敛；然后构建基于参数共享的Skip-Connection多尺度特征重建网络结构，在此过程中，将超分和目标检测匹配的小型数据集输入该网络，并采用基于马尔可夫决策的多任务深度网络对该网络进行动态协同训练，直到网络训练完成。

本发明是通过以下技术方案实现的：

基于参数共享的多尺度超分重建的小目标检测方法，包括以下步骤：

(1)将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练，直至损失函数收敛；

(2)构建基于参数共享的Skip-Connection多尺度特征重建网络结构，一方面来提取多尺度特征，另一方面对重建的多尺度特征分别进行目标检测；

(3)采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练，最终得到小目标检测的训练模型。

所述步骤(1)的具体实现步骤为：

利用现有训练数据集，采用不同任务网络交替训练的策略，初步训练网络模型，具体是：首先利用高分辨率图像集单独训练超分辨率任务；然后利用目标检测数据集训练目标检测任务；如此交替反复，直到两任务的损失值收敛到预设值。为减小两任务训练集图像质量不一致造成的误差，可采用人工并辅以协作稀疏表示的方法，进一步采集和标注小规模的有目标位置与类别标签的高分辨率图像集(匹配数据集)，用它来fine-tuning两任务网络模型。具体的训练流程如下所示：

a)随机初始化两任务网络模型参数：θ₀ ^sr,θ₀ ^od＝random()

b)在不同任务训练集上交替训练：

其中θ^sr,θ^od分别表示超分辨率重建网络参数和目标检测网络参数。L^cls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数。D^od，D^sr分别表示目标检测、超分辨率图像训练数据集，i和j分别表示第i和j个输入数据，N表示总体样本数目，t表示任务的个数；ε表示损失的阈值。

所述步骤(2)的具体实现步骤为：

1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上，添加基于Skip-Connection的密集卷积块(Dense Block)，构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构。按照反卷积层(Deconv)上采样操作(×1,×2,×4)，多尺度特征重建结构输出特征可分为3种尺度，针对每一尺度特征，分别进行目标检测。其中×1尺度上直接划分网格进行位置回归与目标分类(采用目标分类损失函数权值调整策略平衡网格候选框的难、易检测样本)；针对×2与×4尺度特征，则先采用RPN生成候选框，再逐候选框进行位置回归与目标分类。针对三个尺度上的预测结果，采用非极大值抑制策略(NMS)进行融合。为重建×2与×4尺度特征，在Deconv上采样层之后串接超分辨率重建网络分支，输出重建图像。

2)为验证我们构造的网络结构对目标检测的性能提升作用，以未添加Skip-Connection结构的目标检测网络作为基线模型，在基线模型上逐步添加Skip-Connection得到待验证网络模型，在目标检测数据集上训练测试，通过比较目标检测结果，验证我们提出的基于Skip-Connection的多尺度特征重建结构的性能。

3)与预测大尺度目标候选框相比，目标检测网络预测的小尺度目标候选框更易受尺度误差以及中心位置偏移的影响，因此，本发明重新定义检测网络的位置回归损失函数L^reg，提高其对小尺度目标位置定位的敏感性。另外，在初始训练阶段，平方误差函数往往存在因绝对尺度与偏移误差过大导致训练不稳定的问题，相对于平方误差函数，Huber函数通过压缩因子σ与放缩节点δ可适度减小损失值，从而解决因损失值过大导致的训练失败问题。本发明定义基于Huber函数的精定位回归损失函数为：

其中，

长X_img、宽Y_img的图像均匀地划分为M×N个网格，以中心点坐标(X_m,n,l,Y_m,n,l)的网格可构造L个长W_m,n,l、宽H_m,n,l的Anchor box(候选框)；中心点坐标为(X_m,n,l,Y_m,n,l)的网格内存在的长

宽

目标标注框(Ground Truth)，记其中心点相对网格的坐标为

由定义可知，λ_cx与λ_cy能根据原始目标标注框相对候选框中心的位置偏移调整(增大)中心位置偏移损失值，从而使小尺度目标的误差损失值对中心位置偏移更敏感；候选框的绝对误差(尺度误差除以原始图像尺度)不受候选框尺度大小的约束。本发明拟在0.2≤σ≤0.7与1≤δ≤3范围内调整压缩因子与放缩节点，以获取对小目标检测误差最为敏感的基于Huber函数的损失函数。

所述步骤(3)的具体实现步骤为：

1)多任务网络分支的动态训练过程可建模为马尔可夫决策过程：记S为训练环境中的所有状态的集合，s_t∈S表示当前t时刻(epoch)所处训练状态，s_t＝(P₁,P₂)，P_i∈[0,1]表示当前t时刻各网络分支N_i的所处训练状态的概率分布；记A为训练时动态选择动作的集合，a_t∈A表示当前t时刻采取的动作，a_t＝(N₁,N₂)，N_i＝I(P_i)表示选择更新网络分支的参数，动作空间中除训练终止状态(三个网络均不训练)外共有3种动作；三个网络分支(超分辨率重建、目标检测)的参数分别记作θ_sr、θ_od；记f:S×A×S→[0,1]为状态转移概率分布函数，s_t+1～f(s_t,a_t)表示训练过程中在状态s_t执行动作a_t后转移至下一状态s_t+1的概率；记ρ(s,a)为奖励函数，r_t＝ρ(s_t,a_t)表示训练过程中当前t时刻在状态s_t执行动作a_t获得的奖励值。为从①小尺度目标的检测精度、②目标定位精度、③类别预测精度三个方面评估小目标检测的效果，目标检测网络分支t时刻训练的奖励值r_t可具体定义为：

r_t＝E_D(μ_s·r_t ^s+μ_l·r_t ^l+μ_c·r_t ^c) (1)

其中，E_D表示数据集的当前轮次的训练过程，r_t是多任务深度网络在数据集D上第t轮(epoch)训练所取得的奖励值的期望；μ_s，μ_l，μ_c为平衡参数，r_t ^s，r_t ^l，r_t ^c分别表示从三个不同方面评价小目标检测效果的立即奖励值，定义如下：

其中，IoU_i表示图像中第i个目标的预测框与标注框(Ground Truth)的交并区域的大小，IoU_i ^t表示t时刻的IoU_i值，IoU_i ^(t)表示自开始训练至t时刻所取得的最大IoU_i值，IoU_i ^max表示所有IoU_i的最大值。r_t ^s反映预测框尺度最小值为σ的小目标检测精度；r_t ^l表示t时刻与t-1时刻在目标检测IoU定位精度

上的奖励值；r_t ^c表示t时刻与t-1时刻在目标检测类别预测精度τ上的奖励值；η_l，η_c表示极端惩罚值。因此，求解多任务深度网络训练的最优路径，即训练过程中各任务网络分支的最优训练次序的问题可以转化为如下最优化问题：

其中

表示从t时刻至训练过程结束时刻T的累积奖励，γ∈[0,1]表示未来奖励对累积奖励的折扣因子；π为从状态空间S到动作空间A的一个映射，即多任务深度网络从状态s_t执行动作a_t后转移至下一状态s_t+1的训练策略序列。

2)为求解最优策略

本发明构建Deep Q-learning Network(DQN)网络来估计Q值，状态值流s与动作值流a交叉合并联结，经卷积层提取特征，再经全连接层构成的神经网络预测出Q值。当输入多任务深度网络训练所处的状态s，通过Q值预测网络遍历动作空间，选择最大Q值所对应的动作(贪心策略)来动态训练多任务深度网络。多任务深度网络连续训练时，相邻时刻的状态之间不可避免存在关联，而这种连续状态不相互独立的样本无法用来训练Q值预测网络。因此，可采用记忆回放机制(Experience Replay)随机采样预先存储至记忆单元中的状态转移样本，用以训练Q值预测网络，具体训练流程如下：

①将当前时刻t的状态动作流(s_t,a_t)输入到Q值预测网络预测出Q值；

②根据随机采样的t-i时刻状态转移样本e_t-i＝(s_t-i,a_t-i,r_t-i,s_t-i+1)，将当前时刻多任务深度网络转移后的训练状态s_t+1输入t-i时刻的Q值预测网络模型，遍历动作空间以计算出最大Q值V_t-i＝maxQ_t-i(s_t+1,a)。

③根据贝尔曼最优方程，定义DQN误差函数为：

ΔQ(s_t,a_t)＝r_t+γV_t-i(s_t+1)-Q_t(s_t,a_t) (6)

可通过反向传播和梯度算法更新Q值预测网络参数，参数更新后的Q值预测网络通过遍历动作空间计算出当前状态s_t+1下Q值最大的动作a_t+1。

④多任务深度网络则选择a_t+1动作在数据集D上完成一轮训练后，转移至下一状态s_t+2，并给出奖励r_t+1，将t+1时刻的状态转移样本e_t+1＝(s_t+1,a_t+1,r_t+1,s_t+2)保存至记忆回放单元，供随机采样以训练Q值预测网络，并在e_t+1＝(s_t+1,a_t+1,r_t+1,s_t+2)基础上执行①。

本发明的优点是：本发明基于当前小目标检测任务中的识别率和检测率较低的情况，创造性地结合多个任务，即超分辨率重建和目标检测任务，提出了一种基于参数共享的多尺度超分重建的小目标检测方法，将其有效地应用于真实的检测任务中，具有重要意义；本发明还将超分和目标检测任务融合在一个网络模型中，构建了一个基于参数共享的Skip-Connection多尺度特征重建网络结构，也是本发明的创新之一；最后针对多任务训练问题，本发明提出了使用马尔可夫决策的多任务深度网络针对两个任务进行动态协同训练，这也是本发明的重要创新之处。

附图说明

图1为本发明提出的基于参数共享的多尺度超分重建的小目标检测方法的流程图；

图2为本发明提出的基于多尺度特征重建的多任务深度网络结构示意图。

具体实施方式

如图1所示，基于参数共享的多尺度超分重建的小目标检测方法，包括以下几个步骤：

步骤(1)的具体实现步骤为：

a)随机初始化两任务网络模型参数：θ₀ ^sr,θ₀ ^od＝random()

b)在不同任务训练集上交替训练：

其中θ^sr,θ^od分别表示超分辨率重建网络参数和目标检测网络参数。L^cls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数。D^od，D^sr分别表示目标检测、超分辨率图像训练数据集，i和j分别表示第i和j个输入数据，N表示总体样本数目，t表示任务的个数；ε表示损失的阈值。。

步骤(2)的具体实现步骤为：

1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上，添加基于Skip-Connection(图2中虚线箭头表示)的密集卷积块(Dense Block)，构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构(如图2中蓝色框标记的共享卷积层所示，其参数由图像超分辨率重建网络分支与目标检测网络分支共享)。按照反卷积层(Deconv)上采样操作(×1,×2,×4)，多尺度特征重建结构输出特征可分为3种尺度，针对每一尺度特征，分别进行目标检测。其中×1尺度上直接划分网格进行位置回归与目标分类(采用目标分类损失函数权值调整策略平衡网格候选框的难、易检测样本)；针对×2与×4尺度特征，则先采用RPN生成候选框，再逐候选框进行位置回归与目标分类。针对三个尺度上的预测结果，采用非极大值抑制策略(NMS)进行融合。为重建×2与×4尺度特征，在Deconv上采样层之后串接超分辨率重建网络分支，输出重建图像。

其中，

宽

目标标注框(Ground Truth)，记其中心点相对网格的坐标为

步骤(3)的具体实现步骤为：

r_t＝E_D(μ_s·r_t ^s+μ_l·r_t ^l+μ_c·r_t ^c) (1)

其中

2)为求解最优策略

③根据贝尔曼最优方程，定义DQN误差函数为：

ΔQ(s_t,a_t)＝r_t+γV_t-i(s_t+1)-Q_t(s_t,a_t) (6)

Claims

1.一种基于参数共享的多尺度超分重建的小目标检测方法，其特征在于，包括以下步骤：

(2)构建基于参数共享的Skip-Connection多尺度特征重建网络结构，来提取多尺度特征和对重建的多尺度特征分别进行目标检测；

2.根据权利要求书1所述的一种基于参数共享的多尺度超分重建的小目标检测方法，其特征在于，步骤(1)所述的将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练，直至损失函数收敛，具体如下：

利用现有训练数据集，采用不同任务网络交替训练的策略，初步训练网络模型，首先利用高分辨率图像集单独训练超分辨率任务，然后利用目标检测数据集训练目标检测任务，如此交替反复，直到两任务的损失值收敛到预设值；为减小两任务训练集图像质量不一致造成的误差，采用人工并辅以协作稀疏表示的方法，进一步采集和标注小规模的有目标位置与类别标签的高分辨率图像集，用它来fine-tuning两任务网络模型，具体的训练流程如下：

a)随机初始化两任务网络模型参数：θ₀ ^sr,θ₀ ^od=random()

b)在不同任务训练集上交替训练：

while j≥N,or

其中θ^sr,θ^od分别表示超分辨率重建网络参数和目标检测网络参数；L^cls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数；D^od，D^sr分别表示目标检测、超分辨率图像训练数据集，i和j分别表示第i和j个输入数据，N表示总体样本数目，t表示任务的个数；ε表示损失的阈值。

3.根据权利要求书2所述的一种基于参数共享的多尺度超分重建的小目标检测方法，其特征在于，步骤(2)所述的构建基于参数共享的Skip-Connection多尺度特征重建网络结构，来提取多尺度特征和对重建的多尺度特征分别进行目标检测，具体实现步骤为：

1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上，添加基于Skip-Connection的密集卷积块，构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构；按照反卷积层上采样操作，多尺度特征重建结构输出特征分为3种尺度，针对每一尺度特征，分别进行目标检测，其中第一种尺度上直接划分网格进行位置回归与目标分类；针对第二与第三种尺度特征，则先采用RPN生成候选框，再逐候选框进行位置回归与目标分类；针对三个尺度上的预测结果，采用非极大值抑制策略进行融合，为重建第二与第三尺度特征，在Deconv上采样层之后串接超分辨率重建网络分支，输出重建图像；

2)以未添加Skip-Connection结构的目标检测网络作为基线模型，在基线模型上逐步添加Skip-Connection得到待验证网络模型，在目标检测数据集上训练测试，通过比较目标检测结果，验证基于Skip-Connection的多尺度特征重建结构的性能；

3)重新定义检测网络的位置回归损失函数L^reg，在初始训练阶段，相对于平方误差函数，Huber函数通过压缩因子σ与放缩节点δ减小损失值，定义基于Huber函数的精定位回归损失函数为：

其中，

长X_img、宽Y_img的图像均匀的划分为M×N个网格，以中心点坐标(X_m,n,l,Y_m,n,l)的网格构造L个长W_m,n,l、宽H_m,n,l的候选框；中心点坐标为(X_m,n,l,Y_m,n,l)的网格内存在的长

宽

目标标注框，记其中心点相对网格的坐标为

由定义可知，λ_cx与λ_cy能根据原始目标标注框相对候选框中心的位置偏移调整中心位置偏移损失值，从而使小尺度目标的误差损失值对中心位置偏移更敏感；候选框的绝对误差不受候选框尺度大小的约束；在0.2≤σ≤0.7与1≤δ≤3范围内调整压缩因子与放缩节点，以获取对小目标检测误差最为敏感的基于Huber函数的损失函数。

4.根据权利要求书3所述的基于参数共享的多尺度超分重建的小目标检测方法，其特征在于，步骤(3)所述的采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练，最终得到小目标检测的训练模型，具体实现步骤为：

1)多任务网络分支的动态训练过程建模为马尔可夫决策过程：记S为训练环境中的所有状态的集合，s_t∈S表示当前t时刻所处训练状态，s_t＝(P₁,P₂)，P_i∈[0,1]表示当前t时刻各网络分支N_i的所处训练状态的概率分布；记A为训练时动态选择动作的集合，a_t∈A表示当前t时刻采取的动作，a_t＝(N₁,N₂)，N_i＝I(P_i)表示选择更新网络分支的参数，动作空间中除训练终止状态外共有3种动作；三个网络分支的参数分别记作θ_sr、θ_od；记f:S×A×S→[0,1]为状态转移概率分布函数，s_t+1～f(s_t,a_t)表示训练过程中在状态s_t执行动作a_t后转移至下一状态s_t+1的概率；记ρ(s,a)为奖励函数，r_t＝ρ(s_t,a_t)表示训练过程中当前t时刻在状态s_t执行动作a_t获得的奖励值；为从①小尺度目标的检测精度、②目标定位精度、③类别预测精度三个方面评估小目标检测的效果，目标检测网络分支t时刻训练的奖励值r_t具体定义为：

r_t＝E_D(μ_s·r_t ^s+μ_l·r_t ^l+μ_c·r_t ^c) (1)

其中，E_D表示数据集的当前轮次的训练过程，r_t是多任务深度网络在数据集D上第t轮训练所取得的奖励值的期望；μ_s，μ_l，μ_c为平衡参数，r_t ^s，r_t ^l，r_t ^c分别表示从三个不同方面评价小目标检测效果的立即奖励值，定义如下：

其中，IoU_i表示图像中第i个目标的预测框与标注框的交并区域的大小，IoU_i ^t表示t时刻的IoU_i值，IoU_i ^(t)表示自开始训练至t时刻所取得的最大IoU_i值，IoU_i ^max表示所有IoU_i的最大值；r_t ^s反映预测框尺度最小值为σ的小目标检测精度；r_t ^l表示t时刻与t-1时刻在目标检测IoU定位精度

上的奖励值；r_t ^c表示t时刻与t-1时刻在目标检测类别预测精度τ上的奖励值；η_l，η_c表示极端惩罚值；因此，求解多任务深度网络训练的最优路径，即训练过程中各任务网络分支的最优训练次序的问题转化为如下最优化问题：

其中

表示从t时刻至训练过程结束时刻T的累积奖励，γ∈[0,1]表示未来奖励对累积奖励的折扣因子；π为从状态空间S到动作空间A的一个映射，即多任务深度网络从状态s_t执行动作a_t后转移至下一状态s_t+1的训练策略序列；

2)为求解最优策略

构建Deep Q-learning Network网络来估计Q值，状态值流s与动作值流a交叉合并联结，经卷积层提取特征，再经全连接层构成的神经网络预测出Q值，当输入多任务深度网络训练所处的状态s，通过Q值预测网络遍历动作空间，选择最大Q值所对应的动作来动态训练多任务深度网络，采用记忆回放机制随机采样预先存储至记忆单元中的状态转移样本，用以训练Q值预测网络，具体训练流程如下：

②根据随机采样的t-i时刻状态转移样本e_t-i＝(s_t-i,a_t-i,r_t-i,s_t-i+1)，将当前时刻多任务深度网络转移后的训练状态s_t+1输入t-i时刻的Q值预测网络模型，遍历动作空间以计算出最大Q值V_t-i＝maxQ_t-i(s_t+1,a)；

③根据贝尔曼最优方程，定义DQN误差函数为：

ΔQ(s_t,a_t)＝r_t+γV_t-i(s_t+1)-Q_t(s_t,a_t) (6)

通过反向传播和梯度算法更新Q值预测网络参数，参数更新后的Q值预测网络通过遍历动作空间计算出当前状态s_t+1下Q值最大的动作a_t+1；