CN111275171A - 一种基于参数共享的多尺度超分重建的小目标检测方法 - Google Patents
一种基于参数共享的多尺度超分重建的小目标检测方法 Download PDFInfo
- Publication number
- CN111275171A CN111275171A CN202010060271.1A CN202010060271A CN111275171A CN 111275171 A CN111275171 A CN 111275171A CN 202010060271 A CN202010060271 A CN 202010060271A CN 111275171 A CN111275171 A CN 111275171A
- Authority
- CN
- China
- Prior art keywords
- network
- target detection
- training
- value
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于参数共享的多尺度超分重建的小目标检测方法,该方法包括三个步骤:(1)将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直到损失函数收敛;(2)然后构建基于参数共享的Skip‑Connection多尺度特征重建网络结构,在此过程中,将超分和目标检测匹配的小型数据集输入该网络,首先提取多尺度超分特征,然后对重建的超分特征进行目标检测;(3)采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练,最终得到小目标检测的训练模型。本发明不仅提升了小目标检测的识别率,而且所发明的动态协同训练方法也适用于其他的多任务训练过程中。
Description
技术领域
本发明涉及多尺度超分重建和小目标检测的相关算法,特别涉及一种基于参数共享的多尺度超分重建的小目标检测方法。
背景技术
随着人工智能技术的不断更新,目标检测算法的识别率正不断被刷新,并且已经应用在了很多具体的实际应用中。近年来,随着深度学习和卷积神经网络的不断兴起,计算机视觉研究及其相关技术都取得了突破性的进展,尤其针对目标识别和检测任务,实现了将检测任务与识别任务统一到一个网络结构中,并且逐渐形成了端到端的网络构建模式,在实时性与准确性方面均远远超越了传统的目标检测方法。然而,当待检测的目标位于比较复杂的场景中,或者所获得的的目标尺度过小,例如在VOC2012与MS-COCO等数据集中,当前已有的深度网络均不能有效地进行检测和识别:如具有较高精度的RetinaNet网络在MS-COCO测试数据集中对大(目标区域像素大于96×96)、中、小(目标区域像素小于32×32)目标的检测精度mAP(mean Average Precision)分别为51.2、44.2、24.1。
在实际的生活场景中,存在大量对特定小目标的检测需求,并且检测精度还存在很大的提升空间,如:在车站、机场、等人流量较多的公众场所,需要在较大视距条件下检测行人、车辆或者其它的小型物体;在工业制造或医学诊断领域,需要检测的缺陷和异常(裂痕、杂质、癌细胞等)在影像中的相对尺度非常小,等等。
通过构建多尺度特征融合的网络结构,来增强小目标的特征表示。目标检测网络如Inside Outside Net(ION)、Feature-fused SSD、Deconvolutional SSD(DSSD)等构建top-down and bottom-up形式的多尺度特征融合结构的网络模型,使其具备一定的尺度不变性,能检测到较小尺度目标。由于浅层特征并不具有很抽象的语义信息,而深层特征往往丢失了目标的纹理细节信息,因此,将深层与浅层特征直接融合并不能从低分辨率图像特征中挖掘或重建出新的细节特征,反而粗粒度语义特征与细粒度细节特征之间会互相干扰。因而,SSD、DSSD等目前检测效果较好的网络倾向于先利用不同尺度的特征进行目标检测,再将各层分支的检测结果按非极大值抑制策略进行融合。总之,多尺度特征融合方法能够一定程度上扩大网络模型检测目标的尺度范围,提高对小尺度目标的检测召回率。
目标检测网络中的多尺度特征融合虽然能有效兼顾粗粒度深层特征与细粒度浅层特征,却并非是对目标细节信息的补充与重建。然而,若将图像超分辨率作为目标检测的辅助视觉任务,构建多任务网络,必然能给小目标特征补充或重建细节特征,从而有效缓解小目标特征粗糙问题,提高小尺度目标的检测精度。构建该多任务网络的另一方面好处是,目标检测任务注重特定目标的定位与分类,它提取的卷积特征侧重于保留(激活)特定目标的特征表示而忽略背景信息,这些特征反过来又可被超分辨率任务用来重建更适合人类视觉愉悦(前景目标相对背景更加明显)的高分辨率图像。由此可见,图像超分辨率重建任务和目标检测任务互为补充和互相促进。然而,将超分和目标检测仍然存在以下问题:
(1)多任务网络模型涉及多个视觉任务,训练时要求训练集同时满足多个任务的标注条件。然而采集与制作同时满足多标注条件的大训练集需耗费大量资源。并且在当前已公布的所有数据集中,并不存在这两种任务所匹配的相关数据集,主要问题就在于目标检测训练集中的图像包含多尺度目标,但往往分辨率较低,而超分重建任务训练集中仅仅包含少量的目标,且尺度都比较大,并且没有目标的位置及类别标注。
(2)在构建多尺度特征融合的网络结构中,由于浅层特征并不具有很抽象的语义信息,而深层特征往往丢失了目标的纹理细节信息,因此,将深层与浅层特征直接融合并不能从低分辨率图像特征中挖掘或重建出新的细节特征,反而粗粒度语义特征与细粒度细节特征之间会互相干扰,因此针对超分网络所获取的的多尺度特征如何融入目标检测网络中也是需要解决的问题。
(3)当超分和小目标检测任务融合到同一个网络中如何确定多任务网络训练过程中的迭代次数以及网络分支交替训练次序是多任务训练所面临的难点。本发明针对上述问题,突破现有的目标检测识别算法,创造性地将多个任务结合在一起,提出了基于参数共享多尺度超分重建的小目标检测方法,构建了多尺度特征重建结构,提出了基于马尔可夫决策的多任务网络训练方法。
发明内容
本发明目的在于针对计算机视觉任务中的小目标检测和识别率低的问题,提出了一种基于参数共享的多尺度超分重建的小目标检测方法,首先将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直到损失函数收敛;然后构建基于参数共享的Skip-Connection多尺度特征重建网络结构,在此过程中,将超分和目标检测匹配的小型数据集输入该网络,并采用基于马尔可夫决策的多任务深度网络对该网络进行动态协同训练,直到网络训练完成。
本发明是通过以下技术方案实现的:
基于参数共享的多尺度超分重建的小目标检测方法,包括以下步骤:
(1)将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直至损失函数收敛;
(2)构建基于参数共享的Skip-Connection多尺度特征重建网络结构,一方面来提取多尺度特征,另一方面对重建的多尺度特征分别进行目标检测;
(3)采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练,最终得到小目标检测的训练模型。
所述步骤(1)的具体实现步骤为:
利用现有训练数据集,采用不同任务网络交替训练的策略,初步训练网络模型,具体是:首先利用高分辨率图像集单独训练超分辨率任务;然后利用目标检测数据集训练目标检测任务;如此交替反复,直到两任务的损失值收敛到预设值。为减小两任务训练集图像质量不一致造成的误差,可采用人工并辅以协作稀疏表示的方法,进一步采集和标注小规模的有目标位置与类别标签的高分辨率图像集(匹配数据集),用它来fine-tuning两任务网络模型。具体的训练流程如下所示:
a)随机初始化两任务网络模型参数:θ0 sr,θ0 od=random()
b)在不同任务训练集上交替训练:
其中θsr,θod分别表示超分辨率重建网络参数和目标检测网络参数。Lcls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数。Dod,Dsr分别表示目标检测、超分辨率图像训练数据集,i和j分别表示第i和j个输入数据,N表示总体样本数目,t表示任务的个数;ε表示损失的阈值。
所述步骤(2)的具体实现步骤为:
1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上,添加基于Skip-Connection的密集卷积块(Dense Block),构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构。按照反卷积层(Deconv)上采样操作(×1,×2,×4),多尺度特征重建结构输出特征可分为3种尺度,针对每一尺度特征,分别进行目标检测。其中×1尺度上直接划分网格进行位置回归与目标分类(采用目标分类损失函数权值调整策略平衡网格候选框的难、易检测样本);针对×2与×4尺度特征,则先采用RPN生成候选框,再逐候选框进行位置回归与目标分类。针对三个尺度上的预测结果,采用非极大值抑制策略(NMS)进行融合。为重建×2与×4尺度特征,在Deconv上采样层之后串接超分辨率重建网络分支,输出重建图像。
2)为验证我们构造的网络结构对目标检测的性能提升作用,以未添加Skip-Connection结构的目标检测网络作为基线模型,在基线模型上逐步添加Skip-Connection得到待验证网络模型,在目标检测数据集上训练测试,通过比较目标检测结果,验证我们提出的基于Skip-Connection的多尺度特征重建结构的性能。
3)与预测大尺度目标候选框相比,目标检测网络预测的小尺度目标候选框更易受尺度误差以及中心位置偏移的影响,因此,本发明重新定义检测网络的位置回归损失函数Lreg,提高其对小尺度目标位置定位的敏感性。另外,在初始训练阶段,平方误差函数往往存在因绝对尺度与偏移误差过大导致训练不稳定的问题,相对于平方误差函数,Huber函数通过压缩因子σ与放缩节点δ可适度减小损失值,从而解决因损失值过大导致的训练失败问题。本发明定义基于Huber函数的精定位回归损失函数为:
其中,
长Ximg、宽Yimg的图像均匀地划分为M×N个网格,以中心点坐标(Xm,n,l,Ym,n,l)的网格可构造L个长Wm,n,l、宽Hm,n,l的Anchor box(候选框);中心点坐标为(Xm,n,l,Ym,n,l)的网格内存在的长宽目标标注框(Ground Truth),记其中心点相对网格的坐标为由定义可知,λcx与λcy能根据原始目标标注框相对候选框中心的位置偏移调整(增大)中心位置偏移损失值,从而使小尺度目标的误差损失值对中心位置偏移更敏感;候选框的绝对误差(尺度误差除以原始图像尺度)不受候选框尺度大小的约束。本发明拟在0.2≤σ≤0.7与1≤δ≤3范围内调整压缩因子与放缩节点,以获取对小目标检测误差最为敏感的基于Huber函数的损失函数。
所述步骤(3)的具体实现步骤为:
1)多任务网络分支的动态训练过程可建模为马尔可夫决策过程:记S为训练环境中的所有状态的集合,st∈S表示当前t时刻(epoch)所处训练状态,st=(P1,P2),Pi∈[0,1]表示当前t时刻各网络分支Ni的所处训练状态的概率分布;记A为训练时动态选择动作的集合,at∈A表示当前t时刻采取的动作,at=(N1,N2),Ni=I(Pi)表示选择更新网络分支的参数,动作空间中除训练终止状态(三个网络均不训练)外共有3种动作;三个网络分支(超分辨率重建、目标检测)的参数分别记作θsr、θod;记f:S×A×S→[0,1]为状态转移概率分布函数,st+1~f(st,at)表示训练过程中在状态st执行动作at后转移至下一状态st+1的概率;记ρ(s,a)为奖励函数,rt=ρ(st,at)表示训练过程中当前t时刻在状态st执行动作at获得的奖励值。为从①小尺度目标的检测精度、②目标定位精度、③类别预测精度三个方面评估小目标检测的效果,目标检测网络分支t时刻训练的奖励值rt可具体定义为:
rt=ED(μs·rt s+μl·rt l+μc·rt c) (1)
其中,ED表示数据集的当前轮次的训练过程,rt是多任务深度网络在数据集D上第t轮(epoch)训练所取得的奖励值的期望;μs,μl,μc为平衡参数,rt s,rt l,rt c分别表示从三个不同方面评价小目标检测效果的立即奖励值,定义如下:
其中,IoUi表示图像中第i个目标的预测框与标注框(Ground Truth)的交并区域的大小,IoUi t表示t时刻的IoUi值,IoUi (t)表示自开始训练至t时刻所取得的最大IoUi值,IoUi max表示所有IoUi的最大值。rt s反映预测框尺度最小值为σ的小目标检测精度;rt l表示t时刻与t-1时刻在目标检测IoU定位精度上的奖励值;rt c表示t时刻与t-1时刻在目标检测类别预测精度τ上的奖励值;ηl,ηc表示极端惩罚值。因此,求解多任务深度网络训练的最优路径,即训练过程中各任务网络分支的最优训练次序的问题可以转化为如下最优化问题:
其中表示从t时刻至训练过程结束时刻T的累积奖励,γ∈[0,1]表示未来奖励对累积奖励的折扣因子;π为从状态空间S到动作空间A的一个映射,即多任务深度网络从状态st执行动作at后转移至下一状态st+1的训练策略序列。
2)为求解最优策略本发明构建Deep Q-learning Network(DQN)网络来估计Q值,状态值流s与动作值流a交叉合并联结,经卷积层提取特征,再经全连接层构成的神经网络预测出Q值。当输入多任务深度网络训练所处的状态s,通过Q值预测网络遍历动作空间,选择最大Q值所对应的动作(贪心策略)来动态训练多任务深度网络。多任务深度网络连续训练时,相邻时刻的状态之间不可避免存在关联,而这种连续状态不相互独立的样本无法用来训练Q值预测网络。因此,可采用记忆回放机制(Experience Replay)随机采样预先存储至记忆单元中的状态转移样本,用以训练Q值预测网络,具体训练流程如下:
①将当前时刻t的状态动作流(st,at)输入到Q值预测网络预测出Q值;
②根据随机采样的t-i时刻状态转移样本et-i=(st-i,at-i,rt-i,st-i+1),将当前时刻多任务深度网络转移后的训练状态st+1输入t-i时刻的Q值预测网络模型,遍历动作空间以计算出最大Q值Vt-i=maxQt-i(st+1,a)。
③根据贝尔曼最优方程,定义DQN误差函数为:
ΔQ(st,at)=rt+γVt-i(st+1)-Qt(st,at) (6)
可通过反向传播和梯度算法更新Q值预测网络参数,参数更新后的Q值预测网络通过遍历动作空间计算出当前状态st+1下Q值最大的动作at+1。
④多任务深度网络则选择at+1动作在数据集D上完成一轮训练后,转移至下一状态st+2,并给出奖励rt+1,将t+1时刻的状态转移样本et+1=(st+1,at+1,rt+1,st+2)保存至记忆回放单元,供随机采样以训练Q值预测网络,并在et+1=(st+1,at+1,rt+1,st+2)基础上执行①。
本发明的优点是:本发明基于当前小目标检测任务中的识别率和检测率较低的情况,创造性地结合多个任务,即超分辨率重建和目标检测任务,提出了一种基于参数共享的多尺度超分重建的小目标检测方法,将其有效地应用于真实的检测任务中,具有重要意义;本发明还将超分和目标检测任务融合在一个网络模型中,构建了一个基于参数共享的Skip-Connection多尺度特征重建网络结构,也是本发明的创新之一;最后针对多任务训练问题,本发明提出了使用马尔可夫决策的多任务深度网络针对两个任务进行动态协同训练,这也是本发明的重要创新之处。
附图说明
图1为本发明提出的基于参数共享的多尺度超分重建的小目标检测方法的流程图;
图2为本发明提出的基于多尺度特征重建的多任务深度网络结构示意图。
具体实施方式
如图1所示,基于参数共享的多尺度超分重建的小目标检测方法,包括以下几个步骤:
(1)将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直至损失函数收敛;
步骤(1)的具体实现步骤为:
利用现有训练数据集,采用不同任务网络交替训练的策略,初步训练网络模型,具体是:首先利用高分辨率图像集单独训练超分辨率任务;然后利用目标检测数据集训练目标检测任务;如此交替反复,直到两任务的损失值收敛到预设值。为减小两任务训练集图像质量不一致造成的误差,可采用人工并辅以协作稀疏表示的方法,进一步采集和标注小规模的有目标位置与类别标签的高分辨率图像集(匹配数据集),用它来fine-tuning两任务网络模型。具体的训练流程如下所示:
a)随机初始化两任务网络模型参数:θ0 sr,θ0 od=random()
b)在不同任务训练集上交替训练:
其中θsr,θod分别表示超分辨率重建网络参数和目标检测网络参数。Lcls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数。Dod,Dsr分别表示目标检测、超分辨率图像训练数据集,i和j分别表示第i和j个输入数据,N表示总体样本数目,t表示任务的个数;ε表示损失的阈值。。
(2)构建基于参数共享的Skip-Connection多尺度特征重建网络结构,一方面来提取多尺度特征,另一方面对重建的多尺度特征分别进行目标检测;
步骤(2)的具体实现步骤为:
1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上,添加基于Skip-Connection(图2中虚线箭头表示)的密集卷积块(Dense Block),构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构(如图2中蓝色框标记的共享卷积层所示,其参数由图像超分辨率重建网络分支与目标检测网络分支共享)。按照反卷积层(Deconv)上采样操作(×1,×2,×4),多尺度特征重建结构输出特征可分为3种尺度,针对每一尺度特征,分别进行目标检测。其中×1尺度上直接划分网格进行位置回归与目标分类(采用目标分类损失函数权值调整策略平衡网格候选框的难、易检测样本);针对×2与×4尺度特征,则先采用RPN生成候选框,再逐候选框进行位置回归与目标分类。针对三个尺度上的预测结果,采用非极大值抑制策略(NMS)进行融合。为重建×2与×4尺度特征,在Deconv上采样层之后串接超分辨率重建网络分支,输出重建图像。
2)为验证我们构造的网络结构对目标检测的性能提升作用,以未添加Skip-Connection结构的目标检测网络作为基线模型,在基线模型上逐步添加Skip-Connection得到待验证网络模型,在目标检测数据集上训练测试,通过比较目标检测结果,验证我们提出的基于Skip-Connection的多尺度特征重建结构的性能。
3)与预测大尺度目标候选框相比,目标检测网络预测的小尺度目标候选框更易受尺度误差以及中心位置偏移的影响,因此,本发明重新定义检测网络的位置回归损失函数Lreg,提高其对小尺度目标位置定位的敏感性。另外,在初始训练阶段,平方误差函数往往存在因绝对尺度与偏移误差过大导致训练不稳定的问题,相对于平方误差函数,Huber函数通过压缩因子σ与放缩节点δ可适度减小损失值,从而解决因损失值过大导致的训练失败问题。本发明定义基于Huber函数的精定位回归损失函数为:
其中,
长Ximg、宽Yimg的图像均匀地划分为M×N个网格,以中心点坐标(Xm,n,l,Ym,n,l)的网格可构造L个长Wm,n,l、宽Hm,n,l的Anchor box(候选框);中心点坐标为(Xm,n,l,Ym,n,l)的网格内存在的长宽目标标注框(Ground Truth),记其中心点相对网格的坐标为由定义可知,λcx与λcy能根据原始目标标注框相对候选框中心的位置偏移调整(增大)中心位置偏移损失值,从而使小尺度目标的误差损失值对中心位置偏移更敏感;候选框的绝对误差(尺度误差除以原始图像尺度)不受候选框尺度大小的约束。本发明拟在0.2≤σ≤0.7与1≤δ≤3范围内调整压缩因子与放缩节点,以获取对小目标检测误差最为敏感的基于Huber函数的损失函数。
(3)采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练,最终得到小目标检测的训练模型。
步骤(3)的具体实现步骤为:
1)多任务网络分支的动态训练过程可建模为马尔可夫决策过程:记S为训练环境中的所有状态的集合,st∈S表示当前t时刻(epoch)所处训练状态,st=(P1,P2),Pi∈[0,1]表示当前t时刻各网络分支Ni的所处训练状态的概率分布;记A为训练时动态选择动作的集合,at∈A表示当前t时刻采取的动作,at=(N1,N2),Ni=I(Pi)表示选择更新网络分支的参数,动作空间中除训练终止状态(三个网络均不训练)外共有3种动作;三个网络分支(超分辨率重建、目标检测)的参数分别记作θsr、θod;记f:S×A×S→[0,1]为状态转移概率分布函数,st+1~f(st,at)表示训练过程中在状态st执行动作at后转移至下一状态st+1的概率;记ρ(s,a)为奖励函数,rt=ρ(st,at)表示训练过程中当前t时刻在状态st执行动作at获得的奖励值。为从①小尺度目标的检测精度、②目标定位精度、③类别预测精度三个方面评估小目标检测的效果,目标检测网络分支t时刻训练的奖励值rt可具体定义为:
rt=ED(μs·rt s+μl·rt l+μc·rt c) (1)
其中,ED表示数据集的当前轮次的训练过程,rt是多任务深度网络在数据集D上第t轮(epoch)训练所取得的奖励值的期望;μs,μl,μc为平衡参数,rt s,rt l,rt c分别表示从三个不同方面评价小目标检测效果的立即奖励值,定义如下:
其中,IoUi表示图像中第i个目标的预测框与标注框(Ground Truth)的交并区域的大小,IoUi t表示t时刻的IoUi值,IoUi (t)表示自开始训练至t时刻所取得的最大IoUi值,IoUi max表示所有IoUi的最大值。rt s反映预测框尺度最小值为σ的小目标检测精度;rt l表示t时刻与t-1时刻在目标检测IoU定位精度上的奖励值;rt c表示t时刻与t-1时刻在目标检测类别预测精度τ上的奖励值;ηl,ηc表示极端惩罚值。因此,求解多任务深度网络训练的最优路径,即训练过程中各任务网络分支的最优训练次序的问题可以转化为如下最优化问题:
其中表示从t时刻至训练过程结束时刻T的累积奖励,γ∈[0,1]表示未来奖励对累积奖励的折扣因子;π为从状态空间S到动作空间A的一个映射,即多任务深度网络从状态st执行动作at后转移至下一状态st+1的训练策略序列。
2)为求解最优策略本发明构建Deep Q-learning Network(DQN)网络来估计Q值,状态值流s与动作值流a交叉合并联结,经卷积层提取特征,再经全连接层构成的神经网络预测出Q值。当输入多任务深度网络训练所处的状态s,通过Q值预测网络遍历动作空间,选择最大Q值所对应的动作(贪心策略)来动态训练多任务深度网络。多任务深度网络连续训练时,相邻时刻的状态之间不可避免存在关联,而这种连续状态不相互独立的样本无法用来训练Q值预测网络。因此,可采用记忆回放机制(Experience Replay)随机采样预先存储至记忆单元中的状态转移样本,用以训练Q值预测网络,具体训练流程如下:
①将当前时刻t的状态动作流(st,at)输入到Q值预测网络预测出Q值;
②根据随机采样的t-i时刻状态转移样本et-i=(st-i,at-i,rt-i,st-i+1),将当前时刻多任务深度网络转移后的训练状态st+1输入t-i时刻的Q值预测网络模型,遍历动作空间以计算出最大Q值Vt-i=maxQt-i(st+1,a)。
③根据贝尔曼最优方程,定义DQN误差函数为:
ΔQ(st,at)=rt+γVt-i(st+1)-Qt(st,at) (6)
可通过反向传播和梯度算法更新Q值预测网络参数,参数更新后的Q值预测网络通过遍历动作空间计算出当前状态st+1下Q值最大的动作at+1。
④多任务深度网络则选择at+1动作在数据集D上完成一轮训练后,转移至下一状态st+2,并给出奖励rt+1,将t+1时刻的状态转移样本et+1=(st+1,at+1,rt+1,st+2)保存至记忆回放单元,供随机采样以训练Q值预测网络,并在et+1=(st+1,at+1,rt+1,st+2)基础上执行①。
Claims (4)
1.一种基于参数共享的多尺度超分重建的小目标检测方法,其特征在于,包括以下步骤:
(1)将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直至损失函数收敛;
(2)构建基于参数共享的Skip-Connection多尺度特征重建网络结构,来提取多尺度特征和对重建的多尺度特征分别进行目标检测;
(3)采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练,最终得到小目标检测的训练模型。
2.根据权利要求书1所述的一种基于参数共享的多尺度超分重建的小目标检测方法,其特征在于,步骤(1)所述的将现有的超分数据集和小目标检测数据集分别在超分网络和小目标检测网络上进行初步训练,直至损失函数收敛,具体如下:
利用现有训练数据集,采用不同任务网络交替训练的策略,初步训练网络模型,首先利用高分辨率图像集单独训练超分辨率任务,然后利用目标检测数据集训练目标检测任务,如此交替反复,直到两任务的损失值收敛到预设值;为减小两任务训练集图像质量不一致造成的误差,采用人工并辅以协作稀疏表示的方法,进一步采集和标注小规模的有目标位置与类别标签的高分辨率图像集,用它来fine-tuning两任务网络模型,具体的训练流程如下:
a)随机初始化两任务网络模型参数:θ0 sr,θ0 od=random()
b)在不同任务训练集上交替训练:
其中θsr,θod分别表示超分辨率重建网络参数和目标检测网络参数;Lcls,reg,sr表示目标分类、位置坐标回归、超分辨率重建的联合损失函数;Dod,Dsr分别表示目标检测、超分辨率图像训练数据集,i和j分别表示第i和j个输入数据,N表示总体样本数目,t表示任务的个数;ε表示损失的阈值。
3.根据权利要求书2所述的一种基于参数共享的多尺度超分重建的小目标检测方法,其特征在于,步骤(2)所述的构建基于参数共享的Skip-Connection多尺度特征重建网络结构,来提取多尺度特征和对重建的多尺度特征分别进行目标检测,具体实现步骤为:
1)在用于多尺度特征融合的top-down and bottom-up目标检测网络结构基础上,添加基于Skip-Connection的密集卷积块,构建适应目标检测与图像超分辨率的多尺度特征重建的参数共享结构;按照反卷积层上采样操作,多尺度特征重建结构输出特征分为3种尺度,针对每一尺度特征,分别进行目标检测,其中第一种尺度上直接划分网格进行位置回归与目标分类;针对第二与第三种尺度特征,则先采用RPN生成候选框,再逐候选框进行位置回归与目标分类;针对三个尺度上的预测结果,采用非极大值抑制策略进行融合,为重建第二与第三尺度特征,在Deconv上采样层之后串接超分辨率重建网络分支,输出重建图像;
2)以未添加Skip-Connection结构的目标检测网络作为基线模型,在基线模型上逐步添加Skip-Connection得到待验证网络模型,在目标检测数据集上训练测试,通过比较目标检测结果,验证基于Skip-Connection的多尺度特征重建结构的性能;
3)重新定义检测网络的位置回归损失函数Lreg,在初始训练阶段,相对于平方误差函数,Huber函数通过压缩因子σ与放缩节点δ减小损失值,定义基于Huber函数的精定位回归损失函数为:
其中,
4.根据权利要求书3所述的基于参数共享的多尺度超分重建的小目标检测方法,其特征在于,步骤(3)所述的采用基于马尔可夫决策的多任务深度网络对超分和小目标检测任务进行动态协同训练,最终得到小目标检测的训练模型,具体实现步骤为:
1)多任务网络分支的动态训练过程建模为马尔可夫决策过程:记S为训练环境中的所有状态的集合,st∈S表示当前t时刻所处训练状态,st=(P1,P2),Pi∈[0,1]表示当前t时刻各网络分支Ni的所处训练状态的概率分布;记A为训练时动态选择动作的集合,at∈A表示当前t时刻采取的动作,at=(N1,N2),Ni=I(Pi)表示选择更新网络分支的参数,动作空间中除训练终止状态外共有3种动作;三个网络分支的参数分别记作θsr、θod;记f:S×A×S→[0,1]为状态转移概率分布函数,st+1~f(st,at)表示训练过程中在状态st执行动作at后转移至下一状态st+1的概率;记ρ(s,a)为奖励函数,rt=ρ(st,at)表示训练过程中当前t时刻在状态st执行动作at获得的奖励值;为从①小尺度目标的检测精度、②目标定位精度、③类别预测精度三个方面评估小目标检测的效果,目标检测网络分支t时刻训练的奖励值rt具体定义为:
rt=ED(μs·rt s+μl·rt l+μc·rt c) (1)
其中,ED表示数据集的当前轮次的训练过程,rt是多任务深度网络在数据集D上第t轮训练所取得的奖励值的期望;μs,μl,μc为平衡参数,rt s,rt l,rt c分别表示从三个不同方面评价小目标检测效果的立即奖励值,定义如下:
其中,IoUi表示图像中第i个目标的预测框与标注框的交并区域的大小,IoUi t表示t时刻的IoUi值,IoUi (t)表示自开始训练至t时刻所取得的最大IoUi值,IoUi max表示所有IoUi的最大值;rt s反映预测框尺度最小值为σ的小目标检测精度;rt l表示t时刻与t-1时刻在目标检测IoU定位精度上的奖励值;rt c表示t时刻与t-1时刻在目标检测类别预测精度τ上的奖励值;ηl,ηc表示极端惩罚值;因此,求解多任务深度网络训练的最优路径,即训练过程中各任务网络分支的最优训练次序的问题转化为如下最优化问题:
其中表示从t时刻至训练过程结束时刻T的累积奖励,γ∈[0,1]表示未来奖励对累积奖励的折扣因子;π为从状态空间S到动作空间A的一个映射,即多任务深度网络从状态st执行动作at后转移至下一状态st+1的训练策略序列;
2)为求解最优策略构建Deep Q-learning Network网络来估计Q值,状态值流s与动作值流a交叉合并联结,经卷积层提取特征,再经全连接层构成的神经网络预测出Q值,当输入多任务深度网络训练所处的状态s,通过Q值预测网络遍历动作空间,选择最大Q值所对应的动作来动态训练多任务深度网络,采用记忆回放机制随机采样预先存储至记忆单元中的状态转移样本,用以训练Q值预测网络,具体训练流程如下:
①将当前时刻t的状态动作流(st,at)输入到Q值预测网络预测出Q值;
②根据随机采样的t-i时刻状态转移样本et-i=(st-i,at-i,rt-i,st-i+1),将当前时刻多任务深度网络转移后的训练状态st+1输入t-i时刻的Q值预测网络模型,遍历动作空间以计算出最大Q值Vt-i=maxQt-i(st+1,a);
③根据贝尔曼最优方程,定义DQN误差函数为:
ΔQ(st,at)=rt+γVt-i(st+1)-Qt(st,at) (6)
通过反向传播和梯度算法更新Q值预测网络参数,参数更新后的Q值预测网络通过遍历动作空间计算出当前状态st+1下Q值最大的动作at+1;
④多任务深度网络则选择at+1动作在数据集D上完成一轮训练后,转移至下一状态st+2,并给出奖励rt+1,将t+1时刻的状态转移样本et+1=(st+1,at+1,rt+1,st+2)保存至记忆回放单元,供随机采样以训练Q值预测网络,并在et+1=(st+1,at+1,rt+1,st+2)基础上执行①。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060271.1A CN111275171B (zh) | 2020-01-19 | 2020-01-19 | 一种基于参数共享的多尺度超分重建的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060271.1A CN111275171B (zh) | 2020-01-19 | 2020-01-19 | 一种基于参数共享的多尺度超分重建的小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275171A true CN111275171A (zh) | 2020-06-12 |
CN111275171B CN111275171B (zh) | 2023-07-04 |
Family
ID=71003092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010060271.1A Active CN111275171B (zh) | 2020-01-19 | 2020-01-19 | 一种基于参数共享的多尺度超分重建的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275171B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967408A (zh) * | 2020-08-20 | 2020-11-20 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统 |
CN112766259A (zh) * | 2021-01-08 | 2021-05-07 | 合肥工业大学 | 一种面向视障人士的物品智能搜索方法 |
CN112966659A (zh) * | 2021-03-31 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种基于深度学习的视频图像小目标检测方法 |
CN113159063A (zh) * | 2021-03-30 | 2021-07-23 | 电子科技大学 | 一种基于改进的RetinaNet小目标检测方法 |
CN113221662A (zh) * | 2021-04-14 | 2021-08-06 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113643228A (zh) * | 2021-05-26 | 2021-11-12 | 四川大学 | 一种基于改进的CenterNet网络的核电站设备表面缺陷检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389797A (zh) * | 2015-10-16 | 2016-03-09 | 西安电子科技大学 | 一种基于超分辨率重建的无人机视频小目标检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
-
2020
- 2020-01-19 CN CN202010060271.1A patent/CN111275171B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389797A (zh) * | 2015-10-16 | 2016-03-09 | 西安电子科技大学 | 一种基于超分辨率重建的无人机视频小目标检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
孙皓泽等: "一种基于分层多尺度卷积特征提取的坦克装甲目标图像检测方法", 《兵工学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967408A (zh) * | 2020-08-20 | 2020-11-20 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统 |
CN111967408B (zh) * | 2020-08-20 | 2022-06-21 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统 |
CN112766259A (zh) * | 2021-01-08 | 2021-05-07 | 合肥工业大学 | 一种面向视障人士的物品智能搜索方法 |
CN113159063A (zh) * | 2021-03-30 | 2021-07-23 | 电子科技大学 | 一种基于改进的RetinaNet小目标检测方法 |
CN113159063B (zh) * | 2021-03-30 | 2022-11-18 | 电子科技大学 | 一种基于改进的RetinaNet小目标检测方法 |
CN112966659A (zh) * | 2021-03-31 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种基于深度学习的视频图像小目标检测方法 |
CN112966659B (zh) * | 2021-03-31 | 2022-08-23 | 北湾科技(武汉)有限公司 | 一种基于深度学习的视频图像小目标检测方法 |
CN113221662A (zh) * | 2021-04-14 | 2021-08-06 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113221662B (zh) * | 2021-04-14 | 2022-09-27 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113643228A (zh) * | 2021-05-26 | 2021-11-12 | 四川大学 | 一种基于改进的CenterNet网络的核电站设备表面缺陷检测方法 |
CN113643228B (zh) * | 2021-05-26 | 2024-01-19 | 四川大学 | 一种基于改进的CenterNet网络的核电站设备表面缺陷检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111275171B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275171A (zh) | 一种基于参数共享的多尺度超分重建的小目标检测方法 | |
CN111126202B (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
Xu et al. | Voxel-based representation of 3D point clouds: Methods, applications, and its potential use in the construction industry | |
Zeng et al. | DSPNet: Deep scale purifier network for dense crowd counting | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110675370A (zh) | 一种基于深度学习的焊接模拟器虚拟焊缝缺陷检测方法 | |
CN114092697B (zh) | 注意力融合全局和局部深度特征的建筑立面语义分割方法 | |
CN111047078B (zh) | 交通特征预测方法、系统及存储介质 | |
WO2023131301A1 (zh) | 消化系统病理图像识别方法、系统及计算机存储介质 | |
CN112613375A (zh) | 一种轮胎受损检测识别方法和设备 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
Zhang et al. | Wide-area crowd counting: Multi-view fusion networks for counting in large scenes | |
Kastner et al. | A GAN-based surrogate model for instantaneous urban wind flow prediction | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
CN111881919B (zh) | 一种基于追踪式格网剖分的线要素智能化简方法与装置 | |
Chuang et al. | Learning-guided point cloud vectorization for building component modeling | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
Ge et al. | Point2MM: Learning medial mesh from point clouds | |
CN112818920A (zh) | 一种双时相高光谱图像空谱联合变化检测方法 | |
Buck et al. | Ignorance is bliss: flawed assumptions in simulated ground truth | |
CN113705326B (zh) | 一种基于全卷积神经网络的城市建设用地识别方法 | |
CN114782983A (zh) | 基于改进特征金字塔和边界损失的道路场景行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |