CN112116626A - 一种基于柔性卷积的单目标跟踪方法 - Google Patents

一种基于柔性卷积的单目标跟踪方法 Download PDF

Info

Publication number
CN112116626A
CN112116626A CN202010773674.0A CN202010773674A CN112116626A CN 112116626 A CN112116626 A CN 112116626A CN 202010773674 A CN202010773674 A CN 202010773674A CN 112116626 A CN112116626 A CN 112116626A
Authority
CN
China
Prior art keywords
flexible
layer
target
convolution
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010773674.0A
Other languages
English (en)
Other versions
CN112116626B (zh
Inventor
王涛
李浥东
李孟华
郎丛妍
冯松鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010773674.0A priority Critical patent/CN112116626B/zh
Publication of CN112116626A publication Critical patent/CN112116626A/zh
Application granted granted Critical
Publication of CN112116626B publication Critical patent/CN112116626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Abstract

本发明实施例提供了一种基于柔性卷积的单目标跟踪方法,构建柔性卷积网络模型,所述柔性卷积网络模型包括共享层和特定域层,利用数据集对所述柔性卷积网络模型进行训练,所述方法包括:S1、获取原始视频序列,进行预处理;S2、将预处理后的视频序列输入柔性卷积网络模型,所述共享层通过卷积操作获取目标的共享特征,将共享特征输入特定域层进行目标与背景的二分类,然后再进行柔性RoI池化选择候选目标区域,并利用损失函数提高候选目标区域的精度,从而实现单目标跟踪。本发明实施例利用了基于柔性卷积的单目标跟踪方法,有效的改善了单目标跟踪中物体容易发生形变的问题,同时RoI池化提高候选目标区域的精度。

Description

一种基于柔性卷积的单目标跟踪方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于柔性卷积的单目标跟踪方法。
背景技术
单目标跟踪技术是指在初始状态,给定任意待跟踪目标,在视频序列中识别和定位给定目标的技术。单目标跟踪技术一直是计算机视觉领域的研究热点,其能广泛应用在视频监控,无人驾驶和人机交互等多个领域。
由于物体在运动过程中容易发生形变(比如:尺度变化,旋转、姿态变化等),现有技术采用的单目标跟踪方法很难解决这一问题使得跟踪效果不佳。如:传统深度学习使用的是传统的卷积方式进行特征提取,传统卷积是规则的固定几何大小的,如3*3大小,5*5大小等,其采样出来的区域也是固定几何大小的区域,基于传统的单目标跟踪算法使用传统卷积操作进行特征提取,然后通过相应的跟踪模型进行目标跟踪,如MDNet单目标跟踪算法使用的就是传统的卷积方法实现跟踪的。传统的卷积神经网络对不同的特征图都采用相同的卷积操作,采样的像素点位置固定,使得采样出来的信息包括很多背景特征,不能自适应物体的特征。
发明内容
本发明的实施例提供了一种基于柔性卷积的单目标跟踪方法,以克服现有技术的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
一种基于柔性卷积的单目标跟踪方法,构建柔性卷积网络模型,所述柔性卷积网络模型包括共享层和特定域层,利用数据集对所述柔性卷积网络模型进行训练,所述方法包括:
S1、获取原始视频序列,进行预处理;
S2、将预处理后的视频序列输入柔性卷积网络模型,所述共享层通过卷积操作获取目标的共享特征,将共享特征输入特定域层进行目标与背景的二分类,然后再进行柔性RoI池化选择候选目标区域,并利用损失函数提高候选目标区域的精度,从而实现单目标跟踪。
优选地,所述柔性卷积网络模型包括共享层和域特定层,其中,所述共享层包括3个卷积层conv1-3和2个全连接层fc4-5,每个全连接层有512个输出单元,每两个相邻卷积层之间和两个全连接层之间分别有relu和pooling层;
所述特定域层为柔性卷积网络模型中全连接层fc61-fc6K,所述全连接层fc61-fc6K对应有K个域,每个域都包含一个具有softmax交叉熵函数的二值分类层,负责区分每个域中的目标和背景。
优选地,所述softmax交叉熵函数公式如下:
Figure BDA0002617579140000021
其中,i1为输入,j1为输入的个数,e取2.7。
优选地,所述共享层通过卷积操作获取目标的共享特征,包括:
采用柔性卷积操作,在输入特征映射x上使用规则网格R进行采样,增加位置偏移ΔPn({ΔPn=|1,...,N},N=|R|),对每一个位置P0在规则网格R中的所有位的特征点与卷积核对应的位进行加权求和,得到新特征图上对应的P0点,由于在原来规则网格R偏移量的基础上又加入了一个在x轴和y轴上的二维偏移值ΔPn,该偏移值ΔPn是一个浮点值,通过计算周围4个真实值的双线性插值得到;
柔性卷积操作后得到一个长宽与原特征图相同,通道数为2N的新特征图,新特征图上的每一个特征点P0有2N个值,2即对应的x轴、y轴的偏移量,N即对应的N个ΔPn的值。
优选地,所述进行柔性RoI池化选择候选目标区域包括:
柔性RoI池化层对w×h的RoI分割成一个k×k的bin,并输出一个k×k的特征图y,对于第(i0,j0)个存储单元,0≤i0,j0<k,i0为候选目标区域中的第i0行,j0为候选目标区域的第j0列,
Figure BDA0002617579140000031
其中,x为输入,P为规则网络中的每一个位置,
Figure BDA0002617579140000032
是bin中的像素数,进行柔性RoI池化后输出为
Figure BDA0002617579140000033
其中,
Figure BDA0002617579140000034
为偏移量且
Figure BDA0002617579140000035
优选地,所述S2中的损失函数为:
其中,
Figure BDA0002617579140000036
表示第i个区域预测为正例的概率,yi表示第i个区域的真实标签,网络的输出是正负样本的概率得分,其中设置一个阈值,若大于这个阈值就是正样本,反之,就是负样本。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供了一种基于柔性卷积的单目标跟踪方法,通过柔性卷积和柔性RoI池化,使提取到的特征和候选目标区域更加精确,效果更好,有效的改善目标跟踪过程中跟踪物体易发生形变的问题,弥补了现有技术中的不足。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于柔性卷积的单目标跟踪方法框架结构示意图;
图2为本发明实施例提供的柔性卷积网络模型训练流程示意图;
图3为本发明实施例提供的柔性卷积网络模型的测试流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种基于柔性卷积的单目标跟踪方法,如图1-3所示,具体包括以下步骤:
S1、获取原始视频序列,进行预处理,将图片裁剪为107*107大小。
S2、将预处理后的视频序列输入柔性卷积网络模型,共享层通过卷积操作获取目标的共享特征,将共享特征输入特定域层进行目标与背景的二分类,然后再进行柔性RoI池化选择候选目标区域,并利用损失函数提高候选目标区域的精度,从而实现单目标跟踪。
首先,构建柔性卷积网络模型,包括共享层和特定域层,具体如下:
基于MDNet(Multi-Domain Convolutional Neural Networks)单目标跟踪网络,将其传统卷积方法修改为柔性卷积,该柔性卷积网络模型的共享层包括五个隐含层,分别为3个卷积层(conv1-3)和2个全连接层(fc4-5),每个全连接层有512个输出单元,每两个相邻卷积层之间和两个全连接层之间分别有relu和pooling层。
特定域层用于学习特定域上的信息,为柔性卷积网络模型中与K个域对应的最后全连接层(fc61-fc6K),K个域中每个域都包含一个具有softmax交叉熵函数的二值分类层,负责区分每个域中的目标和背景,从而更加精准的学习目标特征。其中,softmax交叉商函数见如下公式:
Figure BDA0002617579140000061
式中,i1为输入,j1为输入的个数,e取2.7。
特征提取采用柔性卷积操作,在输入特征映射x上使用规则网格R进行采样,对3×3大小的网格R={(-1,-1),(-1,0),....(0,-1),(1,1)}来说传统的卷积操作为
其中,Pn是卷积核的一个位置,ω为卷积核,对每一个位置P0进行位置偏移后
其中,{ΔPn=|1,...,N},N=|R|,即对每一个位置P0,对其在规则网格R中的所有位的特征点与卷积核对应的位进行加权求和,得到新特征图上对应的P0点。由于在原来规则网格R偏移量的基础上又加入了一个二维偏移ΔPn(x轴和y轴上的偏移),该偏移值是一个浮点值,需要通过计算周围4个真实值的双线性插值得到,即
其中,g(a,b)=max(0,1-|a-b|)。柔性卷积操作后得到一个长宽与原特征图相同,通道数为2N的新特征图,新特征图上的每一个特征点P0有2N个值,2即对应的x轴、y轴的偏移量,N即对应的N个ΔPn的值。
进行柔性卷积操作之后,把提取的特征放入全连接层,进行背景与目标的二分类,最后进行RoI池化选择候选目标区域,完成目标跟踪。
进行RoI池化选择候选目标区域,首先要对输入特征图x进行一次标准RoI池化,然后通过一个全连接层,输出标准的k×k偏移
Figure BDA0002617579140000071
然后根据公式
Figure BDA0002617579140000072
计算出ΔPij,γ用来调节偏移量的大小,根据经验设置γ的值为0.1,w和h分别是RoI区域的宽和高。该偏移值ΔPij仍是一个浮点值,需要通过计算周围4个真实值的双线性插值得到。具体步骤如下:
柔性RoI池化层对w×h的RoI分割成一个k×k的区域(bin),并输出一个k×k的特征图y。对于第(i0,j0)个存储单元(0≤i,j<k)
Figure BDA0002617579140000073
其中,i0为候选目标区域中的第i0行,j0为候选目标区域的第j0列;x为输入,P为规则网络中的每一个位置,nij是bin中的像素数,进行柔性RoI池化后输出为
Figure BDA0002617579140000074
其中,ΔPij为偏移量且{ΔPij|0≤i,j<k}。
对每张视频序列进行特征提取具体包括:
视频序列为RGB图片,每张图片特征提取后表示为
x=[b,H,W,C]
其中,b是图片当前的batchsize,C是图片的通道数,取值为3,为RGB三个通道,H,W是图片像素值。
如图2所示,在跟踪开始前要先进行离线学习,离线学习的目是通过当前的训练数据训练参数,conv1、conv2、conv3层参数在在线跟踪时不更新,fc4和fc5层参数在线跟踪时更新。原始的训练数据为在包含多个视频的数据内截取的连续视频帧,每帧图像都通过人为标注的groundtruth box(后文简写成gt-box),用于表示跟踪目标在图像内所处的位置。box用向量(x,y,w,h)表示,其中(x,y)为box中心点在图像内的坐标,w表示box的列宽度,h表示box的行高度。在每个视频序列中的每帧图像内,根据gt-box使用均匀随机的办法建立50个gt-box的IoU≥0.7的box作为正样本,以及200个IoU≤0.5的box作为负样本,利用数据集对柔性卷积网络模型进行训练具体包括以下步骤:
第一步:初始化。参数{w1,w2,...w5}为MDNet模型预训练的结果,w6为随机初始化结果。
第二步:边界框回归训练。根据gt-box的位置,使用均匀随机的办法建立1000个gt-box的IoU≥0.7的box,1000个box范围内的图像经过缩放得到1000个107×107分辨率大小的训练数据作为输入样本,使用线性回归算法得到fc_box的参数。完成边框回归之后,fc_box不再更新,直到下次跟踪。
第三步:训练网络。根据gt-box的位置,使用高斯分布随机的办法建立500个gt-box的IoU≥0.7的box作为正样本,使用均匀随机的办法建立5000个gt-box的IoU≤0.3的box作为负样本。设置fc4、fc5层的学习率为0.0001,fc6层的学习率为0.001,做30次迭代训练(SGD)。每次迭代的mini batch大小为128,使用随机选择的32个正样本,以及在随机1024个负样本中选取的96个硬负样本,训练完成后fc4-6层的参数将被更新。
上述训练后,利用损失函数来进行反向传播调整参数,公式如下:
Figure BDA0002617579140000091
Figure BDA0002617579140000092
其中,
Figure BDA0002617579140000093
表示第i个区域预测为正例的概率,yi表示第i个区域的真实标签,网络的输出是正负样本的概率得分,其中设置一个阈值,若大于这个阈值就是正样本,反之,就是负样本;阈值范围是大于0.5小于1。
本发明中阈值设置为0.5,对每张有人工标注的图像序列,其标注即为对应的目标位置。预测目标区域与人工标注重叠率大于等于0.5即视为跟踪成功,否则视为跟踪失败。
利用数据集对柔性卷积网络模型进行跟踪具体包括以下步骤:
第四步:在线跟踪。根据前一帧box的输出,以高斯分布随机的方式生成256个候选box,分别经由网络计算后得到其positive score,选择数值最大的box。如果其positivescore大于0.5,则认为跟踪成功,执行以下操作:(1)用边框回归的参数调节box,得到跟踪结果(即下一帧生成256个候选box的基准box);(2)以边框回归后的box为基准,以高斯分布随机的方式生成50个IoU≥0.7的正样本和200个IoU≤0.3的负样本。如果其positivescore小于0.5,则认为跟踪失败。
本发明中按比例为60%:20%:20%将数据集分为训练集、验证集和测试集。
如图3所示,本发明实施例中使用了OTB100数据集。在OTB100数据集中用到的评价指标有准确率和成功率。
准确率曲线的横轴表示的是位置错误阈值(Location Error Threshold)的范围,位置错误值指的是目标跟踪过程中预测的目标中心位置与实际人工标注的真实目标框中心位置之间的欧式距离,横轴位置错误阈值的取值范围一般为[0,50]之间,代表区间内间隔为1个像素点的51个距离;准确度曲线的纵轴表示在对基准数据集进行预测时,求取所有待测视频序列中每一个视频序列中心位置间的欧式距离小于位置错误阈值的视频帧数,并计算其占该视频序列总帧数的百分比,最后取所有视频序列百分比值的平均值作为准确率(Precision)值。不同位置错误阈值得到的百分比平均值不同,所以可以得到一条准确度曲线,在发明中将阈值设置为20个像素点。
成功率曲线的横轴表示的是重叠率阈值(Overlap Threshold)的范围,该重叠率指的是算法在目标跟踪中预测的目标框与实际人工标注的真实目标框的交并比的大小,横轴重叠率阈值的取值范围一般在[0,1]之间,表示区间内间隔为0.05的21个IoU值的大小;成功率曲线纵轴表示的是对基准数据集进行预测时,求取所有待测视频序列中每一个视频序列预测的目标框与真实目标框IoU值大于重叠率阈值的所有视频帧,并计算其占该视频序列总帧数的百分比,最后将所有视频序列百分比值的平均值作为成功率(Success Rate)值,在本发明中将阈值设置为0.5。
IoU=(AG∩AT)/(AG∪AT)
重叠率公式如上式所示,其中AT代表跟踪算法跟踪到的目标框区域boundingbox,AG代表人工标注的真实目标区域的groundtruth。
在训练中,这些增加的用于偏移学习的卷积层和全连接层权重被初始化为零。它们的学习率被设置为现有层的学习率的β倍(β默认为1),通过双线性插值操作并反向传播进行训练。
综上所述,本发明实施例提供了一种基于柔性卷积的单目标跟踪方法,通过使用柔性方式来进行特征提取,同时利用RoI池化对候选目标区域进行选择,改善了单目标跟踪过程中物体易发生形变导致跟踪效果不佳的问题,相比传统卷积提取特征的方法,有更强的特征提取性能,更好的应对跟踪过程中物体发生的各种形变问题,提高单目标跟踪的效果。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于柔性卷积的单目标跟踪方法,其特征在于,构建柔性卷积网络模型,所述柔性卷积网络模型包括共享层和特定域层,利用数据集对所述柔性卷积网络模型进行训练,所述方法包括:
S1、获取原始视频序列,进行预处理;
S2、将预处理后的视频序列输入柔性卷积网络模型,所述共享层通过卷积操作获取目标的共享特征,将共享特征输入特定域层进行目标与背景的二分类,然后再进行柔性RoI池化选择候选目标区域,并利用损失函数提高候选目标区域的精度,从而实现单目标跟踪。
2.根据权利要求1所述的方法,其特征在于,所述柔性卷积网络模型包括共享层和域特定层,其中,所述共享层包括3个卷积层conv1-3和2个全连接层fc4-5,每个全连接层有512个输出单元,每两个相邻卷积层之间和两个全连接层之间分别有relu和pooling层;
所述特定域层为柔性卷积网络模型中全连接层fc61-fc6K,所述全连接层fc61-fc6K对应有K个域,每个域都包含一个具有softmax交叉熵函数的二值分类层,负责区分每个域中的目标和背景。
3.根据权利要求2所述的方法,其特征在于,所述softmax交叉熵函数公式如下:
Figure FDA0002617579130000011
其中,i1为输入,j1为输入的个数,e取2.7。
4.根据权利要求1所述的方法,其特征在于,所述共享层通过卷积操作获取目标的共享特征,包括:
采用柔性卷积操作,在输入特征映射x上使用规则网格R进行采样,增加位置偏移ΔPn({ΔPn=|1,...,N},N=|R|),对每一个位置P0在规则网格R中的所有位的特征点与卷积核对应的位进行加权求和,得到新特征图上对应的P0点,由于在原来规则网格R偏移量的基础上又加入了一个在x轴和y轴上的二维偏移值ΔPn,该偏移值ΔPn是一个浮点值,通过计算周围4个真实值的双线性插值得到;
柔性卷积操作后得到一个长宽与原特征图相同,通道数为2N的新特征图,新特征图上的每一个特征点P0有2N个值,2即对应的x轴、y轴的偏移量,N即对应的N个ΔPn的值。
5.根据权利要求1所述的方法,其特征在于,所述进行柔性RoI池化选择候选目标区域包括:
柔性RoI池化层对w×h的RoI分割成一个k×k的bin,并输出一个k×k的特征图y,对于第(i0,j0)个存储单元,0≤i0,j0<k,i0为候选目标区域中的第i0行,j0为候选目标区域的第j0列,
Figure FDA0002617579130000021
其中,x为输入,P为规则网络中的每一个位置,
Figure FDA0002617579130000022
是bin中的像素数,进行柔性RoI池化后输出为
Figure FDA0002617579130000023
其中,
Figure FDA0002617579130000024
为偏移量且
Figure FDA0002617579130000025
6.根据权利要求1所述的方法,其特征在于,所述S2中的损失函数为:
Figure FDA0002617579130000031
Figure FDA0002617579130000032
其中,
Figure FDA0002617579130000033
表示第i个区域预测为正例的概率,yi表示第i个区域的真实标签,网络的输出是正负样本的概率得分,其中设置一个阈值,若大于这个阈值就是正样本,反之,就是负样本。
CN202010773674.0A 2020-08-04 2020-08-04 一种基于柔性卷积的单目标跟踪方法 Active CN112116626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010773674.0A CN112116626B (zh) 2020-08-04 2020-08-04 一种基于柔性卷积的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010773674.0A CN112116626B (zh) 2020-08-04 2020-08-04 一种基于柔性卷积的单目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112116626A true CN112116626A (zh) 2020-12-22
CN112116626B CN112116626B (zh) 2024-04-26

Family

ID=73799075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010773674.0A Active CN112116626B (zh) 2020-08-04 2020-08-04 一种基于柔性卷积的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112116626B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379788A (zh) * 2021-06-29 2021-09-10 西安理工大学 一种基于三元组网络的目标跟踪稳定性方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846364A (zh) * 2016-12-30 2017-06-13 明见(厦门)技术有限公司 一种基于卷积神经网络的目标跟踪方法及装置
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN110097577A (zh) * 2019-05-06 2019-08-06 江南大学 一种基于深度学习的半离线深度目标追踪方法
US20200065976A1 (en) * 2018-08-23 2020-02-27 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846364A (zh) * 2016-12-30 2017-06-13 明见(厦门)技术有限公司 一种基于卷积神经网络的目标跟踪方法及装置
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
US20200065976A1 (en) * 2018-08-23 2020-02-27 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
CN110097577A (zh) * 2019-05-06 2019-08-06 江南大学 一种基于深度学习的半离线深度目标追踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379788A (zh) * 2021-06-29 2021-09-10 西安理工大学 一种基于三元组网络的目标跟踪稳定性方法
CN113379788B (zh) * 2021-06-29 2024-03-29 西安理工大学 一种基于三元组网络的目标跟踪稳定性方法

Also Published As

Publication number Publication date
CN112116626B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN109635744B (zh) 一种基于深度分割网络的车道线检测方法
CN108681752B (zh) 一种基于深度学习的图像场景标注方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN112330719B (zh) 基于特征图分割和自适应融合的深度学习目标跟踪方法
Zhou et al. Scale adaptive image cropping for UAV object detection
CN111612008A (zh) 基于卷积网络的图像分割方法
CN113052873B (zh) 一种在线自监督学习场景适应的单目标跟踪方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN112651998B (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
Ma et al. Multi-level knowledge distillation for low-resolution object detection and facial expression recognition
CN114782694B (zh) 无监督异常检测方法、系统、设备及存储介质
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN112183675B (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN112488128A (zh) 一种基于贝塞尔曲线的任意畸变图像线段检测方法
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN110070023B (zh) 一种基于运动顺序性回归的自监督学习方法及装置
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Li et al. A motion blur QR code identification algorithm based on feature extracting and improved adaptive thresholding
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN114693923A (zh) 一种基于上下文和注意力的三维点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant