CN106934346B - 一种目标检测性能优化的方法 - Google Patents

一种目标检测性能优化的方法 Download PDF

Info

Publication number
CN106934346B
CN106934346B CN201710060366.1A CN201710060366A CN106934346B CN 106934346 B CN106934346 B CN 106934346B CN 201710060366 A CN201710060366 A CN 201710060366A CN 106934346 B CN106934346 B CN 106934346B
Authority
CN
China
Prior art keywords
candidate frame
pond
constraint condition
neural network
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710060366.1A
Other languages
English (en)
Other versions
CN106934346A (zh
Inventor
段凌宇
楼燚航
白燕
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710060366.1A priority Critical patent/CN106934346B/zh
Publication of CN106934346A publication Critical patent/CN106934346A/zh
Priority to PCT/CN2017/104396 priority patent/WO2018137357A1/zh
Application granted granted Critical
Publication of CN106934346B publication Critical patent/CN106934346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种目标检测性能优化的方法,所述方法包括:在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。本发明的方法可以提高检测能力,优化检测性能。

Description

一种目标检测性能优化的方法
技术领域
本发明涉及目标检测技术,具体涉及一种目标检测性能优化的方法。
背景技术
目标检测一直是计算机视觉领域中的一个重要的研究课题,同时目标检测也是对象识别、追踪、动作识别的基础。如今,随着深度神经网络在计算机视觉领域的成功应用,人们在目标检测领域投入了更多的研究,比如人脸检测、行人检测、车辆检测等等。
针对目标检测,现有主流的检测框架都采用似物性检测(ObjectProposal)的策略;首先,在图片中产生一系列潜在的候选框,候选框标定的区域为与类别无关的潜在物体;其次,采用检测算法对候选框提取相应的视觉特征;然后,采用分类器对提取候选框的特征进行判断,以确定为目标对象类别或是背景。比如R-CNN(Region-ConvolutionalNeural Network)局部卷积神经网络采取了SS(Selective Search)选择性搜索的方法产生图像内可能存在物体的候选框,对这些候选框内的图像内容提取深度学习特征并进行分类。应用局部候选框策略可以大幅度减少不必要的预测,同时能缓和带有迷惑性的背景对分类器的干扰。
然而,实际中由于候选框生成算法的精度有限,往往生成的候选框不能较好的覆盖图片中的物体,有不少候选框只覆盖了物体的部分或者覆盖了外表非常相似的背景进而导致分类器的误判,还可能是候选框包括一部分背景和一部分目标进而导致分类器的误判。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的一种目标检测性能优化的方法。
为此目的,第一方面,本发明提出一种目标检测性能优化的方法,包括:
在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;
查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;
若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;
在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。
可选地,所述方法还包括:
在测试之前,将训练过程的深度神经网络的池化层采用Top-K池化层替换;
其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响应值进行平均获取的;
深度神经网络的迭代训练中采用反向传播算法,需要根据计算输入对应输出的偏导数,因此在反向传播过程中,所述Top-K池化方法对应的偏导数为:
其中,Top-K池化方法取排序过的池化窗口的前K个值,K为大于1的自然数,xi,j为在第i个池化窗口的第j个元素,yi表示第i个池化窗口的输出。
可选地,所述方法还包括:
将训练过程的度量学习对应的深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;以及
将测试过程的检测模型中深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;
其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响响应值进行平均获取的。
可选地,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,包括:
针对训练图片的每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景;
当一个局部候选框与正确标注之间的IoU重叠超过50%,该候选框为正样本;当一个局部候选框与任意一个正确标注的IoU覆盖面积都在[bglow,0.5)之间时,该候选框为负样本;bglow是一个阈值;
对每一个负样本除了lclass外,额外指定一个候选框标签lproposal为与该局部候选框覆盖面积最大的类别;
针对不符合相似性约束的三元组,根据lclass和lproposal将所有局部候选框分为不同的组,得到集合(G1,G2,...,GM);
每一组Gc包括lclass=c的正样本和lproposal=c的负样本;对每个组Gc为目标对象的正确标注为lclass=c的正样本,Rn为lclass=background并且lproposal=c的负样本;
根据公式一选取每组Gc中的部分样本来构成三元组,组成规则是正确标注的特征,与正确标注特征距离最远的正样本和与正确标注征距离最近的负样本的特征,分别通过argmax和argmin操作来获得:
公式一:
分别是正确标注,正样本和负样本;
约束条件为:
为正确标注与正样本之间的特征相似度距离为正确标注与负样本的特征相似度距离;
α表示预设的之间的最小距离间隔。
可选地,查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件,包括:
迭代训练过程中的深度神经网络损失为Ltriplet,所以深度神经网络的整体优化损失函数为:
Ltotal=ω1Lcls2Lloc3Ltriplet
其中,ω1,ω2,ω3分别为预设的比例值;Lcls为分类损失,Lloc为定位损失,Ltriplet局部候选框的相似度三元组损失。
可选地,
所述
其中,分别是正确标注,正样本和负样本,α表示预设的之间的最小距离间隔。
可选地,查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件之后,所述方法还包括:
若不满足相似度约束条件,深度神经网络会产生相似度损失;损失通过反向传播算法反向传播到每一层,并通过梯度下降算法更新模型参数;如此重复迭代训练。
由上述技术方案可知,本发明提出的目标检测性能优化的方法,通过三元组约束的引入,利用相似度距离学习可以约束正负样本之间的相对距离,保持一定的最小距离间隔,进而产生更容易被分类的特征分布,提高检测器检测性能。进一步地,通过Top-K池化替换原有的极大值池化,降低背景噪声对小尺寸特征图池化的影响,进一步提升性能。
附图说明
图1为本发明一实施例提供的图像中不同候选框在特征空间中的相对距离示意图;
图2为本发明一实施例提供在网络模型训练中划分正负样本的示意图;
图3为本发明一实施例提供的增加局部相似性优化目标的FastRCNN网络结构在训练阶段的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
需要说明的是,在本文中,“第一”、“第二”、“第三”、“第四”字样仅仅用来将相同的名称区分开来,而不是暗示这些名称之间的关系或者顺序。
目标检测的目的是在图片或视频中识别并定位特定类别的对象。检测的过程可以看作是一个分类的过程,区分目标与背景。
目前,通常在检测模型训练中,需要构建正负样本集供分类器学习,划分的标准是根据与正确标注的联合交叠IoU(Intersection of Union)的比例来决定。
本发明提出了一种利用深度神经网络(深度卷积神经网络)在图片和视频中进行目标检测性能优化的方法,该方法在网络模型的训练阶段加入了相似性约束。相比目前主流的检测方法如FastRCNN,本发明训练的检测模型能产生更有区分度、更鲁棒的特征。
本发明的方法主要应用在检测模型的训练阶段,相比与FastRCNN,在训练阶段使用的Softmax与SoomthL1损失函数优化目标之外,额外增加了相似性约束的损失函数。特别地,在目标检测阶段,将待检测的图片与该图片的候选框集合输入到训练后的检测模型中,检测模型的输出即为检测到的对象的类别与相应的坐标信息。
具体地,本发明实施例提供的目标检测性能优化的方法,包括:
在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;
查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;
若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;
若不满足相似度约束条件,深度神经网络会产生相似度损失;损失通过反向传播算法反向传播到每一层,并通过梯度下降算法更新模型参数;如此重复迭代训练。
另外,在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。
在本发明实施例中,训练过程和测试过程是单独的两个过程,训练过程中检测模型也会进行检测,进而在训练过程中可根据检测模型的输出查看模型是否符合相似度约束条件。
在具体实现过程中,前述的相似度约束条件为满足整体优化损失函数中的一部分。
深度神经网络的整体优化损失函数为:
Ltotal=ω1Lcls2Lloc3Ltriplet
其中,ω1,ω2,ω3分别为预设的比例值;Lcls为分类损失,Lloc为定位损失,Ltriplet为候选框的相似度三元组损失,即迭代训练过程中总的深度神经网络损失。
其中,分别是正确标注,正样本和负样本,α表示预设的之间的最小距离间隔。
也就是说,除了检测模型在训练中的分类损失和定位损失优化目标,本实施例增加局部候选框之间的特征相似度的三元组损失。因此,在模型训练过程中,总的优化目标可表示为多个损失函数的累加和:
Ltotal=ω1Lcls2Lloc3Ltriplet
通常ω1设为1,ω2设为1,ω3设为0.5。Lcls和Lloc为分类损失和定位损失,Ltriplet局部候选框的相似度三元组损失。网络在训练阶段的输出包括对局部候选框的预测类别和坐标预测回归值。
进一步地,为更好的实现目标检测的性能优化,本发明实施例中还进行下述调整。
例如,在可选的一种实施方式中,可在测试之前,即在训练过程中进行检测时,将训练过程的深度神经网络的池化层采用Top-K池化层替换;
在可选的另一种实施方式中,可在测试之前,即在训练过程中进行检测时,将训练过程的度量学习对应的深度神经网络的池化层采用Top-K池化层替换;且在训练后的检测模型在测试时,将测试过程的检测模型中深度神经网络的池化层采用Top-K池化层替换。Top-K池化方法对特征图中的背景噪声更为鲁棒。
需要说明的是,本实施例的Top-K池化层是通过对池化窗口中获取最高的K个响应值进行平均获取的;
深度神经网络的迭代训练中采用反向传播算法,需要根据计算输入对应输出的偏导数,因此在反向传播过程中,所述Top-K池化方法对应的偏导数为:
其中,Top-K池化方法取排序过的池化窗口的前K个值,K为大于1的自然数,xi,j为在第i个池化窗口的第j个元素,yi表示第i个池化窗口的输出。
也就是说,在网络前向传播阶段,随着网络层数的加深,特征图尺寸变小,背景噪声的对池化操作的影响会更明显。
本发明中提出Top-K池化的方法。Top-K池化方法取排序过的池化窗口的前K个值,计算它们的均值:
其中,xi,j为在第i个池化窗口的第j个元素,yi表示第i个池化窗口的输出。x′i,j为第i个窗口经过排序后的第j个元素。
为了在反向传播过程中计算梯度,对每一个输出yi,维护一个长度为K的向量R(yi)={xi,j|j=1,2,...,K},代表着窗口前K个值。在网络训练过程中,权重系数的调整是通过梯度下降算法来实现,梯度下降在更新权重时,需要获取相应的输入对输出的偏导数。将Top-K池化的方法加入深度神经网络训练中,在反向传播过程中,输入关于输出的偏导数为:
传统的极大值池化方法对噪声较为敏感,而Top-K池化的方法在捕捉响应值的内在特性方面相比平均值池化方法更为有效。当K=1,Top-K池化退化成极大值池化方法,当K=池化窗口大小时,Top-K池化退化成平均值池化方法。
前述的每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,可具体说明如下:
针对训练图片的每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景;
当一个局部候选框与正确标注之间的IoU重叠超过50%,该候选框为正样本;当一个局部候选框与任意一个正确标注的IoU覆盖面积都在[bglow,0.5)之间时,该候选框为负样本;bglow是一个阈值;
对每一个负样本除了lclass外,额外指定一个候选框标签lproposal为与该局部候选框覆盖面积最大的类别;
针对不符合相似性约束的三元组,根据lclass和lproposal将所有局部候选框分为不同的组,得到集合(G1,G2,...,GM);
每一组Gc包括lclass=c的正样本和lproposal=c的负样本;对每个组Gc为目标对象的正确标注为lclass=c的正样本,Rn为lclass=background(背景)并且lproposal=c的负样本;
根据公式一选取每组Gc中的部分样本来构成三元组,组成规则是正确标注的特征,与正确标注特征距离最远的正样本和与正确标注特征距离最近的负样本的特征,分别通过argmax和argmin操作来获得:
公式一:
分别是正确标注,正样本和负样本;
约束条件为:
为正确标注与正样本之间的特征相似度距离为正确标注与负样本的特征相似度距离;
α表示预设的之间的最小距离间隔。
如图1所示的图片中不同局部候选框的特征分布。
本实施例中将三元组损失加入到目标检测模型的训练阶段中,通过优化不同候选框在特征空间中的相对距离,强化了分类器对不同物体类别的正负样本的区分能力。通过同时优化局部候选框的三元组损失函数和主流检测器优化过程中的Softmax和SmoothL1损失函数,本发明能进一步有效提升检测模型的性能。
本实施例的三元组相似度约束作用在正样本和负样本的特征在特征空间中的相对距离。具体学习目标是令相同物体类别的正样本的特征距离小于包括背景在内的不同物体类别的负样本的特征距离,并保持一个预定的最小间隔。
上述方法只作用在模型的训练阶段,作为一个额外的优化目标,上述方法可灵活地加入到其他基于候选框策略的目标检测算法如FastRCNN和FasterRCNN的训练阶段。
下面具体对上述用于目标检测的度量学习使用的深度神经网络进行描述:
在训练针对目标检测的深度网络模型时,对似物性检测生成的候选框之间根据标签与相互之间的IoU加入相似性约束。
在此,似物性检测(Object Proposal)会生成一系列候选框。主流的检测算法只对每个候选框计算两个损失函数分别是Softmax损失和SmoothL1损失,本实施例额外的增加了Triplet三元组损失。
例如,深度神经网络的输入包括训练图片,以及似物性检测生成的候选框集合(R1,R2,...,RN)。
在深度神经网络的最后一层全连接层产生了所有候选框的特征f(R)。特征经过L2归一化之后,它们之间的欧式距离可以代表候选框之间的相似度:
局部候选框的相似度约束使得正确标注(GroundTruth)与(Positive)正样本之间的特征距离小于正确标注与(Negative)负样本的特征距离并保持一个最小距离间隔:
这里α表示之间的最小距离间隔,因此关于局部候选框的三元组损失可表示为:
当采样的候选框三元组不符合相似度距离约束时,相应的损失会反向传播。因此在深度神经网络迭代训练时,优化目标为:
其中N代表三元组的个数。
以下对局部候选框的三元组采样进行说明:
在检测模型训练中,每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景。
当一个候选框与正确标注之间的IoU重叠超过50%,该候选框被指定为正样本;当一个局部候选框与任意一个正确标注的IoU覆盖面积都在[bglow,0.5)之间时,它被指定为负样本。
bglow是一个阈值,在FastRCNN中bglow为0.1,对于IoU重叠小于0.1的候选框,其兴趣候选框的标签是不确定的。
另外,对每一个负样本除了lclass外都额外指定一个候选框标签lproposal为与该候选框覆盖面积最大的类别。
这样所有的候选框都可根据lclass和lproposal被区分为不同的组(G1,G2,...,GM),每一组Gc包括lclass=c的正样本和lproposal=c的负样本。
在对三元组进行采样的时候,对每个组Gc取决于对象的正确标注,在lclass=c的正样本中选取,Rn在lclass=background并且lproposal=c的负样本中选取。
由于一张图片中实际生成的候选框数量较多,而其中大量的三元组不会违反相似约束。为了快速高效的训练网络,可选取每组中较难辨别的样本来构成三元组,在组Gc选取三元组时,选取与对象正确标注特征距离最远的正样本和与正确标注特征距离最近的负样本,形式化表述如下:
这里分别是正确标注,正样本和负样本。
本发明实施例主要是在基于局部候选框的检测器的训练阶段加上额外的损失函数,损失函数主要采用了三元组损失函数,三元组的构成主要是根据生成候选框与正确标注的IoU重合率,正确标注如图2左上角,正样本如图2左下角和正确标注的IoU重合率超过50%,负样本如图2右下角和正确标注的IoU重合率小于50%,图2右上角是距离相似度的距离约束。
本发明实施例的方法可灵活地应用到基于局部候选框的检测算法的训练中,图3是加入本发明方法的FastRCNN检测器的VGG_M网络结构简图。在检测框架中,除了原始的Softmax损失和SmoothL1损失,还加入了三元组损失函数,在对最后一层全连接层FC7的特征经过L2归一化后,送入三元组损失函数。网络中原有的池化层均替换为TopK池化。
在实际使用测试阶段,只需要通过Softmax分类器获得候选框的类别,再通过回归获得候选框的坐标。三元组损失函数仅存在训练阶段,约束网络的学习,在测试阶段此网络层将会被去除。从分类角度来看,较难分辨的候选框非常接近特征空间的分类超平面,因此容易被错分类。三元组约束的引入,利用相似度距离学习可以约束正负样本之间的相对距离,保持一定的最小距离间隔,进而产生更容易被分类的特征分布,提高检测器检测性能。进一步地,通过Top-K池化替换原有的极大值池化,降低背景噪声对小尺寸特征图池化操作的影响,进一步提升性能。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本领域技术人员可以理解,实施例中的各步骤可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (2)

1.一种目标检测性能优化的方法,其特征在于,包括:
在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;在迭代训练中,所述度量学习对应的深度神经网络每一次迭代使用的候选框为:通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;
查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;
若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;
在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息;
所述方法还包括:
在测试之前,将训练过程的深度神经网络的池化层采用Top-K池化层替换;
其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响应值进行平均获取的;
深度神经网络的迭代训练中采用反向传播算法,需要根据计算输入对应输出的偏导数,因此在反向传播过程中,所述Top-K池化方法对应的偏导数为:
其中,Top-K池化方法取排序过的池化窗口的前K个值,K为大于1的自然数,为在第i个池化窗口的第j个元素,表示第i个池化窗口的输出,E为损失函数计算得到的总体误差;
所述方法还包括:
将训练过程的度量学习对应的深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;以及
将测试过程的检测模型中深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;
其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响响应值进行平均获取的;
所述每一次迭代使用的候选框为:通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,包括:
针对训练图片的每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景;
当一个局部候选框与正确标注之间的IoU重叠超过50%,该候选框为正样本;当一个局部候选框与任意一个正确标注的IoU覆盖面积都在之间时,该候选框为负样本;是一个阈值;
对每一个负样本除了lclass外,额外指定一个候选框标签lproposal为与该局部候选框覆盖面积最大的类别;
针对不符合相似性约束的三元组,根据lclass和lproposal将所有局部候选框分为不同的组,得到集合(G1,G2,…,GM);
每一组Gc包括lclass=c的正样本和lproposal=c的负样本;对每个组Gc为目标对象的正确标注为lclass=c的正样本,Rn为lclass=background并且lproposal=c的负样本;
根据公式一选取每组Gc中的部分样本来构成三元组,组成规则是正确标注的特征,与正确标注特征距离最远的正样本和与正确标注征距离最近的负样本的特征,分别通过argmax和argmin操作来获得:
公式一:
分别是正确标注,正样本和负样本;
约束条件为:
为正确标注与正样本之间的特征相似度距离,为正确标注与负样本的特征相似度距离;
α表示预设的之间的最小距离间隔;
所述查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件,包括:
迭代训练过程中的深度神经网络损失为Ltriplet,所以深度神经网络的整体优化损失函数为:
Ltotal=ω1Lcls2Lloc3Ltriplet
其中,ω1,ω2,ω3分别为预设的比例值;Lcls为分类损失,Lloc为定位损失,Ltriplet局部候选框的相似度三元组损失;
所述
其中,分别是正确标注,正样本和负样本,α表示预设的之间的最小距离间隔。
2.根据权利要求1所述的方法,其特征在于,查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件之后,所述方法还包括:
若不满足相似度约束条件,深度神经网络会产生相似度损失;损失通过反向传播算法反向传播到每一层,并通过梯度下降算法更新模型参数;如此重复迭代训练。
CN201710060366.1A 2017-01-24 2017-01-24 一种目标检测性能优化的方法 Active CN106934346B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710060366.1A CN106934346B (zh) 2017-01-24 2017-01-24 一种目标检测性能优化的方法
PCT/CN2017/104396 WO2018137357A1 (zh) 2017-01-24 2017-09-29 一种目标检测性能优化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710060366.1A CN106934346B (zh) 2017-01-24 2017-01-24 一种目标检测性能优化的方法

Publications (2)

Publication Number Publication Date
CN106934346A CN106934346A (zh) 2017-07-07
CN106934346B true CN106934346B (zh) 2019-03-15

Family

ID=59423868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710060366.1A Active CN106934346B (zh) 2017-01-24 2017-01-24 一种目标检测性能优化的方法

Country Status (2)

Country Link
CN (1) CN106934346B (zh)
WO (1) WO2018137357A1 (zh)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法
CN107392158A (zh) * 2017-07-27 2017-11-24 济南浪潮高新科技投资发展有限公司 一种图像识别的方法及装置
CN107292886B (zh) * 2017-08-11 2019-12-31 厦门市美亚柏科信息股份有限公司 基于网格划分及神经网络的目标物入侵检测方法及装置
CN107725453B (zh) * 2017-10-09 2024-02-27 珠海格力电器股份有限公司 风扇及其控制方法和系统
CN110163224B (zh) * 2018-01-23 2023-06-20 天津大学 一种可在线学习的辅助数据标注方法
CN108399362B (zh) * 2018-01-24 2022-01-07 中山大学 一种快速行人检测方法及装置
CN108596170B (zh) * 2018-03-22 2021-08-24 杭州电子科技大学 一种自适应非极大抑制的目标检测方法
CN108491827B (zh) * 2018-04-13 2020-04-10 腾讯科技(深圳)有限公司 一种车辆检测方法、装置及存储介质
CN108665429A (zh) * 2018-04-28 2018-10-16 济南浪潮高新科技投资发展有限公司 一种深度学习训练样本优化方法
CN108776834B (zh) 2018-05-07 2021-08-06 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质
CN109101932B (zh) * 2018-08-17 2020-07-24 佛山市顺德区中山大学研究院 基于目标检测的多任务及临近信息融合的深度学习方法
CN109376584A (zh) * 2018-09-04 2019-02-22 湖南大学 一种用于畜牧业的禽畜数量统计系统和方法
US20210219384A1 (en) * 2018-09-06 2021-07-15 Nokia Technologies Oy Procedure for optimization of self-organizing network
JP7287823B2 (ja) * 2018-09-07 2023-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法及び情報処理システム
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
CN109543727B (zh) * 2018-11-07 2022-12-20 复旦大学 一种基于竞争重构学习的半监督异常检测方法
CN112912887A (zh) * 2018-11-08 2021-06-04 北京比特大陆科技有限公司 基于人脸识别的处理方法、装置、设备及可读存储介质
CN109711529B (zh) * 2018-11-13 2022-11-08 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN111199175A (zh) * 2018-11-20 2020-05-26 株式会社日立制作所 一种目标检测网络模型的训练方法及装置
CN109635695B (zh) * 2018-11-28 2022-11-08 西安理工大学 基于三元组卷积神经网络的行人再识别方法
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109784345B (zh) * 2018-12-25 2022-10-28 中国科学院合肥物质科学研究院 一种基于无尺度深度网络的农业害虫检测方法
CN111476827B (zh) * 2019-01-24 2024-02-02 曜科智能科技(上海)有限公司 目标跟踪方法、系统、电子装置及存储介质
CN109886307A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像检测方法及系统
CN110008828B (zh) * 2019-02-21 2021-12-07 上海工程技术大学 基于差异正则化的成对约束成分分析度量优化方法
CN109978017B (zh) * 2019-03-06 2021-06-01 开易(北京)科技有限公司 难样本采样方法和系统
CN109977797B (zh) * 2019-03-06 2023-06-20 上海交通大学 基于排序损失函数的一阶目标检测器的优化方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN111652254B (zh) * 2019-03-08 2023-05-23 上海铼锶信息技术有限公司 一种基于相似度的模型优化方法及系统
CN109977813B (zh) * 2019-03-13 2022-09-13 山东沐点智能科技有限公司 一种基于深度学习框架的巡检机器人目标定位方法
CN110082821B (zh) * 2019-03-26 2020-10-02 长江大学 一种无标签框微地震信号检测方法及装置
CN110059591B (zh) * 2019-04-01 2021-04-16 北京中科晶上超媒体信息技术有限公司 运动目标区域的识别方法
CN110084319B (zh) * 2019-05-07 2023-06-30 上海宝尊电子商务有限公司 基于深度神经网络的时尚图像服装领型识别方法与系统
CN110084222B (zh) * 2019-05-08 2022-10-21 大连海事大学 一种基于多目标角点池化神经网络的车辆检测方法
CN110321923B (zh) * 2019-05-10 2021-05-04 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN110427870B (zh) * 2019-06-10 2024-06-18 腾讯医疗健康(深圳)有限公司 眼部图片识别方法、目标识别模型训练方法及装置
CN110443366B (zh) * 2019-07-30 2022-08-30 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置
CN112166441A (zh) * 2019-07-31 2021-01-01 深圳市大疆创新科技有限公司 数据处理方法、装置及计算机可读存储介质
CN112348040B (zh) * 2019-08-07 2023-08-29 杭州海康威视数字技术股份有限公司 模型训练方法、装置及设备
CN110728263B (zh) * 2019-10-24 2023-10-24 中国石油大学(华东) 一种基于距离选择的强判别特征学习的行人重识别方法
CN110837865A (zh) * 2019-11-08 2020-02-25 北京计算机技术及应用研究所 一种基于表示学习和迁移学习的领域适配方法
CN111008994A (zh) * 2019-11-14 2020-04-14 山东万腾电子科技有限公司 基于MPSoC的运动目标实时检测跟踪系统及方法
CN111242951A (zh) * 2020-01-08 2020-06-05 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和存储介质
CN111310759B (zh) * 2020-02-13 2024-03-01 中科智云科技有限公司 双模式协作的目标检测抑制优化方法及设备
CN111368878B (zh) * 2020-02-14 2023-02-28 北京电子工程总体研究所 一种基于ssd目标检测的优化方法、计算机设备和介质
CN111340092B (zh) * 2020-02-21 2023-09-22 浙江大华技术股份有限公司 一种目标关联处理方法及装置
CN111275011B (zh) * 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN112749726B (zh) * 2020-02-26 2023-09-29 腾讯科技(深圳)有限公司 目标检测模型的训练方法、装置、计算机设备和存储介质
CN111368769B (zh) * 2020-03-10 2024-03-12 大连东软信息学院 基于改进锚点框生成模型的船舶多目标检测方法
CN111126515B (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 基于人工智能的模型训练方法和相关装置
CN111523421B (zh) * 2020-04-14 2023-05-19 上海交通大学 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN113569878B (zh) * 2020-04-28 2024-03-01 南京行者易智能交通科技有限公司 一种基于分数图的目标检测模型训练方法及目标检测方法
CN111652285A (zh) * 2020-05-09 2020-09-11 济南浪潮高新科技投资发展有限公司 一种茶饼类别识别方法、设备及介质
CN111723657B (zh) * 2020-05-12 2023-04-07 中国电子系统技术有限公司 一种基于YOLOv3与自优化的河道异物检测方法及装置
CN111738072A (zh) * 2020-05-15 2020-10-02 北京百度网讯科技有限公司 目标检测模型的训练方法、装置及电子设备
CN111652214B (zh) * 2020-05-26 2024-05-28 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的垃圾瓶分选方法
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
CN111860265B (zh) * 2020-07-10 2024-01-05 武汉理工大学 一种基于样本损失的多检测框损失均衡道路场景理解算法
CN111915746B (zh) * 2020-07-16 2022-09-13 北京理工大学 一种基于弱标注的三维点云目标检测方法及标注工具
CN111914944B (zh) * 2020-08-18 2022-11-08 中国科学院自动化研究所 基于动态样本选择和损失一致性的物体检测方法和系统
CN111968030B (zh) * 2020-08-19 2024-02-20 抖音视界有限公司 信息生成方法、装置、电子设备和计算机可读介质
CN112101434B (zh) * 2020-09-04 2022-09-09 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法
CN112287977B (zh) * 2020-10-06 2024-02-09 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112464989B (zh) * 2020-11-02 2024-02-20 北京科技大学 一种基于目标检测网络的闭环检测方法
CN112597994B (zh) * 2020-11-30 2024-04-30 北京迈格威科技有限公司 候选框处理方法、装置、设备及介质
CN112598163B (zh) * 2020-12-08 2022-11-22 国网河北省电力有限公司电力科学研究院 一种基于对比学习和度量学习的接地网不开挖腐蚀预测模型
CN112699776B (zh) * 2020-12-28 2022-06-21 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
CN112396067B (zh) * 2021-01-19 2021-05-18 苏州挚途科技有限公司 点云数据采样方法、装置及电子设备
CN112906685B (zh) * 2021-03-04 2024-03-26 重庆赛迪奇智人工智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质
CN113032612B (zh) * 2021-03-12 2023-04-11 西北大学 一种多目标图像检索模型的构建方法及检索方法和装置
CN112950620A (zh) * 2021-03-26 2021-06-11 国网湖北省电力公司检修公司 基于级联r-cnn算法的输电线路防振锤变形缺陷检测方法
CN113033481B (zh) * 2021-04-20 2023-06-02 湖北工业大学 基于一阶全卷积目标检测算法的手持棍棒的检测方法
CN113379718B (zh) * 2021-06-28 2024-02-02 北京百度网讯科技有限公司 一种目标检测方法、装置、电子设备以及可读存储介质
CN113361645B (zh) * 2021-07-03 2024-01-23 上海理想信息产业(集团)有限公司 基于元学习及知识记忆的目标检测模型构建方法及系统
CN113822224B (zh) * 2021-10-12 2023-12-26 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN114119989B (zh) * 2021-11-29 2023-08-11 北京百度网讯科技有限公司 图像特征提取模型的训练方法、装置及电子设备
CN114548230B (zh) * 2022-01-25 2024-03-26 西安电子科技大学广州研究院 基于rgb色彩分离双路特征融合的x射线违禁物品检测方法
CN114764899B (zh) * 2022-04-12 2024-03-22 华南理工大学 基于transformer第一视角下的下一个交互物体预测方法
CN114463603B (zh) * 2022-04-14 2022-08-23 浙江啄云智能科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN115035409B (zh) * 2022-06-20 2024-05-28 北京航空航天大学 一种基于相似性对比学习的弱监督遥感图像目标检测算法
CN115294505B (zh) * 2022-10-09 2023-06-20 平安银行股份有限公司 风险物体检测及其模型的训练方法、装置及电子设备
CN115713731B (zh) * 2023-01-10 2023-04-07 武汉图科智能科技有限公司 拥挤场景行人检测模型构建方法及拥挤场景行人检测方法
CN116228734B (zh) * 2023-03-16 2023-09-22 江苏省家禽科学研究所 一种家禽毛孔特征识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605972A (zh) * 2013-12-10 2014-02-26 康江科技(北京)有限责任公司 一种基于分块深度神经网络的非限制环境人脸验证方法
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN104978580A (zh) * 2015-06-15 2015-10-14 国网山东省电力公司电力科学研究院 一种用于无人机巡检输电线路的绝缘子识别方法
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605972A (zh) * 2013-12-10 2014-02-26 康江科技(北京)有限责任公司 一种基于分块深度神经网络的非限制环境人脸验证方法
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN104978580A (zh) * 2015-06-15 2015-10-14 国网山东省电力公司电力科学研究院 一种用于无人机巡检输电线路的绝缘子识别方法
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法

Also Published As

Publication number Publication date
CN106934346A (zh) 2017-07-07
WO2018137357A1 (zh) 2018-08-02

Similar Documents

Publication Publication Date Title
CN106934346B (zh) 一种目标检测性能优化的方法
EP3092619B1 (en) Information processing apparatus and information processing method
Nicosevici et al. Automatic visual bag-of-words for online robot navigation and mapping
CN103136504B (zh) 人脸识别方法及装置
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
US9940577B2 (en) Finding semantic parts in images
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN110555390A (zh) 基于半监督训练方式的行人重识别方法、装置及介质
CN111696128A (zh) 一种高速多目标检测跟踪和目标图像优选方法及存储介质
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN107992807B (zh) 一种基于cnn模型的人脸识别方法及装置
CN102332092A (zh) 一种基于视频分析的火焰检测方法
CN106650805B (zh) 一种视觉目标跟踪方法及装置
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN107066955A (zh) 一种从局部人脸区域还原整张人脸的方法
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN103793926A (zh) 基于样本重选择的目标跟踪方法
JP6947005B2 (ja) 属性認識装置、属性認識方法、及び機械学習装置
CN109697727A (zh) 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质
US11380133B2 (en) Domain adaptation-based object recognition apparatus and method
CN104732247B (zh) 一种人脸特征定位方法
Pandurangan et al. A novel hybrid machine learning approach for traffic sign detection using CNN-GRNN
TW202020724A (zh) 影像適應性特徵提取法及其應用
Ghadiri et al. Carried object detection based on an ensemble of contour exemplars
US20140050404A1 (en) Combining Multiple Image Detectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant