CN109543559B - 基于孪生网络和动作选择机制的目标跟踪方法及系统 - Google Patents
基于孪生网络和动作选择机制的目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN109543559B CN109543559B CN201811286172.4A CN201811286172A CN109543559B CN 109543559 B CN109543559 B CN 109543559B CN 201811286172 A CN201811286172 A CN 201811286172A CN 109543559 B CN109543559 B CN 109543559B
- Authority
- CN
- China
- Prior art keywords
- target
- twin network
- network
- convolution
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 2
- 230000000644 propagated effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于孪生网络和动作选择机制的目标跟踪方法。该方法以孪生网络为框架,首先利用大量外部视频数据训练网络权重;训练完成后,在任意一段视频中,指定任一跟踪目标的情况下采集候选区域,输入到该孪生网络,将得到的候选区域的特征中根据动作选择机制选择与跟踪目标最相似的特征后,以矩形框的方式将其映射回原图的位置,作为当前帧的跟踪结果,最终得到的矩形框可以是任意长宽比和尺寸。本发明还提出了基于孪生网络和动作选择机制的目标跟踪系统,与传统的方法相比,本发明利用训练好的孪生网络,结合不同层的输出,能够通过匹配目标不同层次的特征,使得对目标的外观变化有更强的鲁棒性,同时本发明具有实时性、精度高等优点。
Description
技术领域
本发明涉及一种目标跟踪方法及系统,属于图像处理、计算机视觉、深度学习技术领域。
背景技术
目标跟踪通常指单目标跟踪,其任务是在一段视频中的某一帧中指定一个被跟踪的目标,在之后帧中推断出该目标的位置。目标跟踪是计算机视觉的经典问题之一,在安防监控、无人驾驶、人机交互等方面有很大的应用场景。跟踪的难点在于,我们掌握的被跟踪目标的信息过少,当目标外观发生变化,或者受到光照、遮挡、运动模糊等因素的干扰时,很容易丢失目标。
传统的目标跟踪方法鲁棒性不高,对目标外观变化的适应性也不够强。基于深度学习的目标跟踪方法在很多方面弥补了传统方法上的不足,它能够在语义层面对目标进行描述,从而对目标的外观变化具有很强的鲁棒性。经典的基于深度学习的方法在目标跟踪领域表现较好的包括MDNet、SINT、SiamFC等,但它们通常不能在精确描述目标位置和跟踪速度上达到很好的权衡,在目标发生形变时不能有效地推断出其准确的位置,从而影响了跟踪的准确度。
发明内容
本发明所要解决的技术问题是:为了克服现有技术的缺点和不足,本发明提供了一种新的孪生网络结构,在此基础上执行针对特征的动作选择机制,从而使得目标的位置更加准确。
为解决以上技术问题,本发明采用的技术方案为:
本发明首先提出一种基于孪生网络和动作选择机制的目标跟踪方法,该方法包括以下步骤:
1)、数据预处理步骤:从一段视频中随机选择包含同一个目标的两帧图像,对这两帧图像,分别裁剪出目标和以目标为中心进行裁剪;
2)、基于孪生网络构建匹配函数,包括如下子步骤:
2.1)、设计孪生网络的网络结构;
2.2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
2.3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
3)、在视频中进行目标跟踪:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
进一步的,本发明所提出的方法中,数据预处理步骤具体如下:
在训练集的每一段视频中,按照不同间隔两两配对,每对图片中,一张图片按照标记的目标框裁剪图像,作为目标图像z,另一张图片以标记的目标框为中心,裁剪出两倍大小的图像作为搜索区域图像x。
进一步的,本发明所提出的方法中,在步骤2.1)所述设计孪生网络的网络结构,具体为:
1)、基于VGG19网络,去掉所有全连接层和最后两个池化层。
2)、在conv3层后添加1×1的卷积层,用来将通道数调整到与conv5层的输出相同。将二者输出的平均值作为输出的卷积特征。将这种从输入图片得到其卷积特征的映射关系定义为f。
3)、在网络最后添加Roi池化层。
进一步的,本发明所提出的方法中,在步骤2.2)所述构建训练样本中,步骤为:
首先,将一对图片中的目标图片z输入进孪生网络中的一路,在Roi层之前得到表示目标的卷积特征图f(z)。
其次,将一堆图片中的搜索区域片x输入进孪生网络中的另一路,在Roi层之前得到表示搜索区域的卷积特征图f(x)。
进一步的,在搜索区域的卷积特征图中,采集代表正例和反例的卷积特征,采集方法为:在搜索区域的卷积特征图的中心,采集与目标区域卷积特征图尺寸相同的区域作为参考,与其重合率超过0.7的视为正例,小于0.5的视为反例,正例和反例各采集64个。
进一步的,本发明所提出的方法中,步骤2.3)设计误差函数进行反向传播,优化网络的参数,直至收敛。具体为:使用Triplet Loss,将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组。然后,使用随机梯度算法针对误差进行反向传播,优化网络参数,直至误差收敛。经过训练后可以使目标与正例之间的欧氏距离更近,与反例之间的欧氏距离更远。目标与样本间的欧氏距离为:
将要构建的匹配函数定义为g,则该函数g(z,xi)可以反映候选样本与目标的相似程度,其中xi是从搜索区域x中提取出的候选样本。构建出的匹配函数为:
g(z,xi)=d(f(z)f(xi))
其中,f(xi)为采集到的候选样本的卷积特征图。
进一步的,本发明所提出的方法中,在视频中进行目标跟踪步骤具体如下:
1)、在一段视频中,对于在某一帧中指定的目标,将其从图片中裁剪出来,输入进训练好的孪生网络的一路,得到其卷积特征图。
2)、在随后帧中,以前一帧推断出的目标位置为中心,在当前帧中裁剪出两倍于目标大小的区域作为搜索区域。将搜索区域输入进训练好的孪生网络的另一路,得到其卷积特征图。
3)、在搜索区域的卷积特征图上,执行动作选择机制的采样方法,步骤为:
A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征,将此时的位置作为候选特征框执行动作选择的起点。
B、定义初始动作集合,共包含九个动作:静止、上、下、左、右、增加长、减小长、增加宽、减小宽。其中,上、下、左、右为候选特征框在候选区域的卷积特征图上向各个方向移动一个像素,长和宽的变化为框的两端各变化一个像素。
C、候选特征框在当前位置上执行当前动作集合中的N个动作:得到N个新的特征,将它们输入进Roi层,得到与目标特征图相同的尺寸,根据匹配函数比较N个新的特征与目标特征的相似度,将最相似的特征作为候选特征,即:
D、过滤动作集合。将与上一步执行的动作相反的动作从动作集合中过滤除去,例如,执行了上,将动作下过滤除去。
E、执行剩余的动作集合中的动作,选择最优动作。
F、重复步骤C、D、E。当执行到动作静止或者执行的步数到达预设阈值(比如达到15),则停止执行动作,将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上,得到此帧的跟踪结果。
本发明还提出一种基于孪生网络和动作选择机制的目标跟踪系统,包括:
数据预处理单元,用于从一段视频中随机选择包含同一个目标的两帧图像,对于这两帧图像分别裁剪出目标和以目标为中心进行裁剪;
孪生网络训练单元,用于基于孪生网络构建匹配函数,训练设计好的孪生网络,被配置以执行以下步骤:
1)、设计孪生网络的网络结构;
2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
视频目标跟踪单元,被配置以执行以下动作:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
本发明相比现有技术,具有以下有益效果:
本发明提出的基于孪生网络和动作选择机制的目标跟踪方法可以用来在任意视频中跟踪单个任意的目标。与传统的方法相比,本发明利用训练好的孪生网络,结合不同层的输出,能够通过匹配目标不同层次的特征,使得对目标的外观变化有更强的鲁棒性。同时,本发明对传统采样方法做出改进,利用动作选择机制大大提高采样效率,并且跟踪得到的目标框更加准确,同时也能保证跟踪的实时性。
附图说明
图1是本发明所提出的基于孪生网络和动作选择机制的目标跟踪方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例和说明书附图1对本发明的技术方案进行清楚、完整的描述,显然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明首先提出一种基于孪生网络和动作选择机制的目标跟踪方法,参考图1所示,该方法包括以下步骤:
1)、数据预处理步骤:从一段视频中随机选择包含同一个目标的两帧,分别裁剪出目标和以目标为中心进行裁剪;
2)、基于孪生网络构建匹配函数,包括如下子步骤:
2.1)、设计孪生网络的网络结构;
2.2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
2.3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
3)、在视频中进行目标跟踪:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
进一步的,本发明所提出的方法中,数据预处理步骤具体如下:
在训练集的每一段视频中,按照不同间隔两两配对,每对图片中,一张图片按照标记的目标框裁剪图像,作为目标图像z,另一张图片以标记的目标框为中心,裁剪出两倍大小的图像作为搜索区域图像x。
进一步的,本发明所提出的方法中,在步骤2.1)所述设计孪生网络的网络结构,具体为:
1)、基于VGG19网络,去掉所有全连接层和最后两个池化层。
2)、在conv3层后添加1×1的卷积层,用来将通道数调整到与conv5层的输出相同。将二者输出的平均值作为输出的卷积特征。将这种从输入图片得到其卷积特征的映射关系定义为f。
3)、在网络最后添加Roi池化层。
进一步的,本发明所提出的方法中,在步骤2.2)所述构建训练样本中,步骤为:
首先,将一对图片中的目标图片z输入进孪生网络中的一路,在Roi层之前得到表示目标的卷积特征图f(z)。
其次,将一堆图片中的搜索区域片x输入进孪生网络中的另一路,在Roi层之前得到表示搜索区域的卷积特征图f(x)。
进一步的,在搜索区域的卷积特征图中,采集代表正例和反例的卷积特征,采集方法为:在搜索区域的卷积特征图的中心,采集与目标区域卷积特征图尺寸相同的区域作为参考,与其重合率超过0.7的视为正例,小于0.5的视为反例,正例和反例各采集64个。采集到的候选样本的卷积特征图为f(xi)。
进一步的,本发明所提出的方法中,步骤2.3)设计误差函数进行反向传播,优化网络的参数,直至收敛。具体为:使用Triplet Loss,将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组。使用随机梯度算法针对误差进行反向传播,优化网络参数,直至误差收敛。经过训练后可以使目标与正例之间的欧氏距离更近,与反例之间的欧氏距离更远。目标与样本间的欧氏距离为:
将要构建的匹配函数定义为g,则该函数g(z,xi)可以反映候选样本与目标的相似程度,其中xi是从搜索区域x中提取出的候选样本。构建出的匹配函数为:
g(z,xi)=d(f(z)f(xi))
进一步的,本发明所提出的方法中,在视频中进行目标跟踪步骤具体如下:
1)、在一段视频中,对于在某一帧中指定的目标,将其从图片中裁剪出来,输入进训练好的孪生网络的一路,得到其卷积特征图。
2)、在随后帧中,以前一帧推断出的目标位置为中心,在当前帧中裁剪出两倍于目标大小的区域作为搜索区域。将搜索区域输入进训练好的孪生网络的另一路,得到其卷积特征图。
3)、在搜索区域的卷积特征图上,执行动作选择机制的采样方法,步骤为:
A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征,将此时的位置作为执行动作选择的起点。
B、定义初始动作集合,共包含九个动作:静止、上、下、左、右、增加长、减小长、增加宽、减小宽。其中,上、下、左、右为候选特征框在候选区域的卷积特征图上向各个方向移动一个像素,长和宽的变化为框的两端各变化一个像素。
C、候选特征框在当前位置上执行当前动作集合中的N个动作:得到N个新的特征,将它们输入进Roi层,得到与目标特征图相同的尺寸,根据匹配函数比较N个新的特征与目标特征的相似度,将最相似的特征作为候选特征,即:
D、过滤动作集合。将与上一步执行的动作相反的动作从动作集合中过滤除去,例如,执行了上,将动作下过滤除去。
E、执行剩余的动作集合中的动作,选择最优动作。
F、重复步骤C、D、E。当执行到动作静止或者执行的步数到达15,则停止执行动作,将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上,得到此帧的跟踪结果。
本发明还提出一种基于孪生网络和动作选择机制的目标跟踪系统,包括:
数据预处理单元,从一段视频中随机选择包含同一个目标的两帧,分别裁剪出目标和以目标为中心进行裁剪;
基于孪生网络构建匹配函数单元,训练设计好的孪生网络,被配置以执行以下步骤:
1)、设计孪生网络的网络结构;
2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
视频目标跟踪单元:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
本技术领域技术人员可以理解的是,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解的是,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
上面结合附图对本发明的实施方式作了详细地说明,但是本发明并不局限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (8)
1.一种基于孪生网络和动作选择机制的目标跟踪方法,其特征在于,该方法包括以下步骤:
1)、数据预处理步骤:从一段视频中随机选择包含同一个目标的两帧图像,对这两帧图像,分别裁剪出目标和以目标为中心进行裁剪;
2)、基于孪生网络构建匹配函数,包括如下子步骤:
2.1)、设计孪生网络的网络结构;具体为:
201)、基于VGG19网络,去掉所有全连接层和最后两个池化层;
202)、在conv3层后添加1×1的卷积层,用来将通道数调整到与conv5层的输出相同,将二者输出的平均值作为输出的卷积特征,将这种从输入图片得到其卷积特征的映射关系定义为f;
203)、在网络最后添加Roi池化层;
2.2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
2.3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
3)、在视频中进行目标跟踪:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
2.根据权利要求1所述的方法,其特征在于,数据预处理步骤具体如下:
在训练集的每一段视频中,按照不同间隔两两配对,每对图片中,一张图片按照标记的目标框裁剪图像,作为目标图像z,另一张图片以标记的目标框为中心,裁剪出两倍大小的图像作为搜索区域图像x。
3.根据权利要求1所述的方法,其特征在于,在步骤2.2)所述构建训练样本中,具体为:
首先,将一对图片中的目标图片z输入进孪生网络中的一路,在Roi层之前得到表示目标的卷积特征图f(z);
其次,将一堆图片中的搜索区域片x输入进孪生网络中的另一路,在Roi层之前得到表示搜索区域的卷积特征图f(x)。
4.根据权利要求3所述的方法,其特征在于,在搜索区域的卷积特征图中,采集代表正例和反例的卷积特征。
5.根据权利要求4所述的方法,其特征在于,所述采集代表正例和反例的卷积特征,具体采集方法为:在搜索区域的卷积特征图的中心,采集与目标区域卷积特征图尺寸相同的区域作为参考,与其重合率超过0.7的视为正例,小于0.5的视为反例,正例和反例各采集64个。
6.根据权利要求4所述的方法,其特征在于,步骤2.3)所述设计误差函数进行反向传播,优化网络的参数,直至收敛,具体为:
使用Triplet Loss,将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组,然后使用随机梯度算法针对误差进行反向传播,优化网络参数,直至误差收敛;经过训练后使目标与正例之间的欧氏距离更近,与反例之间的欧氏距离更远,目标与样本间的欧氏距离为:
将要构建的匹配函数定义为g,则该函数g(z,xi)反映候选样本与目标的相似程度,其中xi是从搜索区域x中提取出的候选样本,z代表目标图像,构建出的匹配函数为:
g(z,xi)=d(f(z)f(xi))
其中,f(xi)为采集到的候选样本的卷积特征图。
7.根据权利要求1所述的方法,其特征在于,步骤3)所述在视频中进行目标跟踪步骤具体如下:
301)、在一段视频中,对于在某一帧中指定的目标,将其从图片中裁剪出来,输入进训练好的孪生网络的一路,得到其卷积特征图;
302)、在随后帧中,以前一帧推断出的目标位置为中心,在当前帧中裁剪出两倍于目标大小的区域作为搜索区域,将搜索区域输入进训练好的孪生网络的另一路,得到其卷积特征图;
303)、在搜索区域的卷积特征图上,执行动作选择机制的采样方法,步骤为:
A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征,将此时的位置作为候选特征框执行动作选择的起点;
B、定义初始动作集合,共包含九个动作:静止、上、下、左、右、增加长、减小长、增加宽、减小宽;其中,上、下、左、右为候选特征框在候选区域的卷积特征图上向各个方向移动一个像素,长和宽的变化为框的两端各变化一个像素;
C、候选特征框在当前位置上执行当前动作集合中的N个动作:得到N个新的特征,将它们输入进Roi层,得到与目标特征图相同的尺寸,根据匹配函数比较N个新的特征与目标特征的相似度,将最相似的特征作为候选特征,即:
D、过滤动作集合:将与上一步执行的动作相反的动作从动作集合中过滤除去;
E、执行剩余的动作集合中的动作,选择最优动作;
F、重复步骤C、D、E,当执行到动作静止或者执行的步数到达预设阈值,则停止执行动作,将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上,得到此帧的跟踪结果。
8.一种基于孪生网络和动作选择机制的目标跟踪系统,其特征在于,包括:
数据预处理单元,用于从一段视频中随机选择包含同一个目标的两帧图像,对于这两帧图像分别裁剪出目标和以目标为中心进行裁剪;
孪生网络训练单元,用于基于孪生网络构建匹配函数,训练设计好的孪生网络,被配置以执行以下步骤:
1)、设计孪生网络的网络结构;具体为:
基于VGG19网络,去掉所有全连接层和最后两个池化层;
在conv3层后添加1×1的卷积层,用来将通道数调整到与conv5层的输出相同,将二者输出的平均值作为输出的卷积特征,将这种从输入图片得到其卷积特征的映射关系定义为f;
在网络最后添加Roi池化层;
2)、构建训练样本,从训练集中随机抽取成对的图片,作为孪生网络两个分支的输入;
3)、设计误差函数进行反向传播,优化网络的参数,直至收敛;
视频目标跟踪单元,被配置以执行以下动作:基于训练好的孪生网络,将要跟踪的目标区域裁剪出来输入进孪生网络的一支,另一支输入当前帧的候选区域,通过动作选择机制采集候选样本,比较后得到目标在当前帧的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286172.4A CN109543559B (zh) | 2018-10-31 | 2018-10-31 | 基于孪生网络和动作选择机制的目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286172.4A CN109543559B (zh) | 2018-10-31 | 2018-10-31 | 基于孪生网络和动作选择机制的目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543559A CN109543559A (zh) | 2019-03-29 |
CN109543559B true CN109543559B (zh) | 2021-12-28 |
Family
ID=65845553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811286172.4A Active CN109543559B (zh) | 2018-10-31 | 2018-10-31 | 基于孪生网络和动作选择机制的目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543559B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070562A (zh) * | 2019-04-02 | 2019-07-30 | 西北工业大学 | 一种上下文相关的深度目标跟踪方法 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及系统 |
CN110097177B (zh) * | 2019-05-15 | 2022-11-29 | 电科瑞达(成都)科技有限公司 | 一种基于伪孪生网络的网络剪枝方法 |
CN110210551B (zh) * | 2019-05-28 | 2021-07-30 | 北京工业大学 | 一种基于自适应主体敏感的视觉目标跟踪方法 |
CN110223324B (zh) * | 2019-06-05 | 2023-06-16 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110428447B (zh) * | 2019-07-15 | 2022-04-08 | 杭州电子科技大学 | 一种基于策略梯度的目标跟踪方法与系统 |
CN110443827B (zh) * | 2019-07-22 | 2022-12-20 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
CN112417939A (zh) * | 2019-08-21 | 2021-02-26 | 南京行者易智能交通科技有限公司 | 基于图像识别的客流od数据获取方法、装置、移动端设备、服务器及模型训练方法 |
CN112446900B (zh) * | 2019-09-03 | 2024-05-17 | 中国科学院长春光学精密机械与物理研究所 | 孪生神经网络目标跟踪方法及系统 |
CN110807793B (zh) * | 2019-09-29 | 2022-04-22 | 南京大学 | 一种基于孪生网络的目标跟踪方法 |
CN110930434B (zh) * | 2019-11-21 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 目标对象跟随方法、装置、存储介质和计算机设备 |
CN111260682B (zh) | 2020-02-10 | 2023-11-17 | 深圳市铂岩科技有限公司 | 目标对象的追踪方法、装置、存储介质和电子设备 |
CN111401267B (zh) * | 2020-03-19 | 2023-06-13 | 山东大学 | 基于自学习局部特征表征的视频行人再识别方法及系统 |
CN111489361B (zh) * | 2020-03-30 | 2023-10-27 | 中南大学 | 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106875425A (zh) * | 2017-01-22 | 2017-06-20 | 北京飞搜科技有限公司 | 一种基于深度学习的多目标追踪系统及实现方法 |
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
CN108665485A (zh) * | 2018-04-16 | 2018-10-16 | 华中科技大学 | 一种基于相关滤波与孪生卷积网络融合的目标跟踪方法 |
-
2018
- 2018-10-31 CN CN201811286172.4A patent/CN109543559B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
CN106875425A (zh) * | 2017-01-22 | 2017-06-20 | 北京飞搜科技有限公司 | 一种基于深度学习的多目标追踪系统及实现方法 |
CN108665485A (zh) * | 2018-04-16 | 2018-10-16 | 华中科技大学 | 一种基于相关滤波与孪生卷积网络融合的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
Triplet Loss in Siamese Network forObject Tracking;Xingping Dong 等;《ECCV 2018: Computer Vision – ECCV 2018》;20181006;第472-488页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109543559A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543559B (zh) | 基于孪生网络和动作选择机制的目标跟踪方法及系统 | |
CN111050219B (zh) | 用于利用空间-时间记忆网络处理视频内容的方法和系统 | |
CN108765296B (zh) | 一种基于递归残差注意力网络的图像超分辨率重建方法 | |
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
WO2022257408A1 (zh) | 一种基于u型网络的医学图像分割方法 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
Mechrez et al. | Photorealistic style transfer with screened poisson equation | |
CN109214353B (zh) | 一种基于剪枝模型的人脸图像快速检测训练方法和装置 | |
CN109685831A (zh) | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 | |
CN112712546A (zh) | 一种基于孪生神经网络的目标跟踪方法 | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
US12112528B2 (en) | Method and apparatus for processing images, device and storage medium | |
CN114549985B (zh) | 一种基于自监督对比学习的目标检测方法及系统 | |
CN107945210A (zh) | 基于深度学习和环境自适应的目标跟踪算法 | |
CN113780389B (zh) | 基于一致性约束的深度学习半监督密集匹配方法及系统 | |
JP2020038666A (ja) | 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置 | |
CN110246171B (zh) | 一种实时单目视频深度估计方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN114549394A (zh) | 一种基于深度学习的肿瘤病灶区域语义分割方法及系统 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN113505885A (zh) | 基于预设的损失函数的单目深度估计网络的训练方法 | |
CN112419325A (zh) | 一种基于深度学习的超像素分割方法 | |
CN112465847A (zh) | 一种基于预测清晰边界的边缘检测方法、装置及设备 | |
CN110120009B (zh) | 基于显著物体检测和深度估计算法的背景虚化实现方法 | |
CN112084855A (zh) | 一种基于改进ransac方法对视频流的外点剔除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |