CN109949336A - 一种连续视频帧中目标快速跟踪方法及装置 - Google Patents

一种连续视频帧中目标快速跟踪方法及装置 Download PDF

Info

Publication number
CN109949336A
CN109949336A CN201910142204.1A CN201910142204A CN109949336A CN 109949336 A CN109949336 A CN 109949336A CN 201910142204 A CN201910142204 A CN 201910142204A CN 109949336 A CN109949336 A CN 109949336A
Authority
CN
China
Prior art keywords
target
current goal
preset condition
feature vector
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910142204.1A
Other languages
English (en)
Inventor
田光亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ThunderSoft Co Ltd
Original Assignee
ThunderSoft Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ThunderSoft Co Ltd filed Critical ThunderSoft Co Ltd
Priority to CN201910142204.1A priority Critical patent/CN109949336A/zh
Publication of CN109949336A publication Critical patent/CN109949336A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种连续视频帧中目标快速跟踪方法及装置,先判断当前目标与历史目标的重叠度是否满足第一预设条件;若不满足再判断距离是否满足第二预设条件;若仍不满足则通过卷积神经网络判断是否满足第三预设条件;若仍不满足则判定当前目标为一个新出现的目标,而若三个条件中有一个满足即为跟踪成功。本发明中先使用面积和距离进行跟踪,简洁高效,卷积神经网络并不是每个跟踪周期都被利用,而仅在多目标物体出现混淆时才参与运算,在复杂场景下保持了较高的鲁棒性和准确率,算法的运算开销也可以限制在有限的范围内,可以作为独立中间件快速移植至目标检测系统中,作为检测系统中提高运算性能、避免冗余计算、节约系统功耗的有效方法。

Description

一种连续视频帧中目标快速跟踪方法及装置
技术领域
本发明涉及计算机视觉和人工智能技术领域,尤其是涉及一种连续视频帧中目标快速跟踪方法及装置。
背景技术
目标检测、目标识别、目标追踪等一系列技术是计算机视觉领域中一个富有挑战性的课题,其主要目的是从静态图片或动态视频中检测、定位、追踪某个或某些特定的目标。它综合运用了图像处理、模式识别、人工智能等技术,在交通、安防等领域有着广泛的应用。其中,目标检测是指检测到图片中目标的具体位置区域;目标识别是指在所有的给定目标区域中,对其分类或计算其特征、属性等;目标追踪,其任务重要的第一点是目标检测,而且该任务涉及到的数据一般具有时间序列,常见的情况是首先目标被识别,然后算法或者系统需要在接下来时序的数据中,快速并高效地对给定目标进行再定位。
在现有技术中,IoU(Intersection over Union)是目标追踪领域中一项广泛使用的传统技术,是一种评价在特定数据集中检测相应物体准确度的标准,其核心在于比较不同视频帧中目标的重合面积,重合面积的占比一旦大于某一阈值即可标记两者为同一目标。但是该技术在小目标跟踪、运动剧烈的场景下,或其他原因导致产生丢帧的情况下,跟踪技术总是遭遇失败,因此仅使用IoU实现目标的跟踪是远远不够的。
一部分现有技术还使用传统图形图像方法提取检测对象的特征,通过特征比对提高准确率,但是这一类方法需要依赖多样的先验知识,其技术手段因待检测目标的不同,需要大量的人类先验知识的参与。判断不同待检测区域是否匹配的方法在传统图形图像技术中通常包括基于空域的图像处理技术、基于频率域的图像处理技术、基于先验知识的特征提取技术等几种。而上述任意一者都需要根据待跟踪目标的具体形态、颜色、结构、纹理频率、光照环境等进行复杂的设计和开发,使得此类系统效率低下;且不同目标同质性较强的情况下,能有效解决此类问题的传统技术往往也面临着运算复杂、实时性差等问题,如基于时空上下文的方法、小波分析、LBP特征方法等。传统图形图像方法对不同对象需要分别建立复杂的算法模型,开发周期长,可迁移能力弱,且鲁棒性相较于IoU只有有限的提升,部分频率域的图像处理算法的运算开销依然很高,因此不能满足高品质和边缘计算的要求。
为了提高目标追踪的效果,深度学习技术已逐渐取代传统图形图像技术开始被广泛使用。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。然而发明人在实现本发明的过程中发现,在IOT(物联网)、移动通信等行业中,由于很多终端设备的处理能力并不是很强,甚至性能很低,因此深度学习同样普遍面临着算法复杂度高、运算效率低、实时性差等多种问题。特别是在目标检测、特征提取技术上,低性能的边缘平台难以胜任如此规模的运算量。
发明内容
本发明实施例提供一种连续视频帧中目标快速跟踪方法及装置,以解决目标追踪时计算复杂度高、实时性差的技术问题。
根据本发明实施例的第一方面,提供一种连续视频帧中目标快速跟踪方法,所述方法包括:
判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;
如果不满足所述第一预设条件,则判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件;
如果不满足所述第二预设条件,则使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标;
如果不满足所述第三预设条件,则将所述当前目标作为一个新出现的目标加入到所述历史目标集合中;
如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
可选的,判断检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件,包括:
计算所述当前目标与所述历史目标集合中每个目标的重叠度;
判断所述重叠度的最大值是否大于第一阈值;
如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
可选的,判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件,包括:
计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离;
判断所述欧式距离的最小值是否小于第二阈值;
如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
可选的,所述卷积神经网络包括SqueezeNet;
使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,包括:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。
可选的,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,包括:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;
如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
可选的,分别计算所述当前目标特征向量与每个指定目标特征向量的相似度,包括:
对于当前目标的特征向量和一个指定目标的特征向量,使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
可选的,每个目标包括以下属性:标签号、在画面中的位置、对应的感兴趣区域的子图像;
将所述当前目标作为一个新出现的目标加入到所述历史目标集合中,包括:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像;
判定为跟踪成功之后,包括:
使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
根据本发明实施例的第二方面,提供一种连续视频帧中目标快速跟踪装置,所述装置包括:
第一判断模块,用于判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;
第二判断模块,用于判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件;
第三判断模块,用于使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标;
控制模块,用于:触发第一判断模块;当不满足所述第一预设条件时触发第二判断模块;当不满足所述第二预设条件时触发第三判断模块;当不满足所述第三预设条件时将所述当前目标作为一个新出现的目标加入到所述历史目标集合中;如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
可选的,所述第一判断模块用于:
计算所述当前目标与所述历史目标集合中每个目标的重叠度;判断所述重叠度的最大值是否大于第一阈值;如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
可选的,所述第二判断模块用于:
计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离;判断所述欧式距离的最小值是否小于第二阈值;如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
可选的,所述卷积神经网络包括SqueezeNet;所述第三判断模块在使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量时,用于:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。
可选的,所述第三判断模块在判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件时,用于:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
可选的,所述第三判断模块在分别计算所述当前目标特征向量与每个指定目标特征向量的相似度时,用于:
对于当前目标的特征向量和一个指定目标的特征向量,使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
可选的,每个目标包括以下属性:标签号、在画面中的位置、对应的感兴趣区域的子图像;所述控制模块在将所述当前目标作为一个新出现的目标加入到所述历史目标集合中时,用于:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像;
所述控制模块在判定为跟踪成功之后,还用于:
使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
本发明提供的技术方案可以包括以下有益效果:
在本发明中,先判断检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;如果不满足再判断当前目标与历史目标集合中的目标的距离是否满足第二预设条件;如果仍不满足则使用卷积神经网络计算特征向量,然后判断特征向量相似度是否满足第三预设条件;如果还不满足,则判断当前目标为一个新出现的目标,而如果三个条件中有一个满足,即可判定为跟踪成功。本发明中无需先验知识,而是依次使用了基于面积(重叠度),基于欧式距离,以及低复杂度小尺寸卷积神经网络的联合跟踪方法,先使用面积和欧式距离进行跟踪,简洁高效,卷积神经网络方法并不是每个跟踪周期都被利用,而仅在多目标物体出现混淆时才参与运算。本发明方案在复杂场景下保持了较高的鲁棒性和准确率,算法的运算开销也可以限制在有限的范围内,实时性好,准确率、召回率高,可以作为独立的中间件快速移植至目标检测系统中,广泛应用于实时目标检测,并作为检测系统中提高运算性能、避免冗余计算、节约系统功耗的有效方法。本发明的检测目标不限定于某一特殊物体,具有广泛的适应性,特别适合嵌入式计算平台等边缘侧的目标检测任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图;
图2是根据本发明一示例性实施例示出的检测场景示意图;
图3是根据本发明一示例性实施例示出的检测场景示意图;
图4是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图;
图5是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图;
图6是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图;
图7是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图。该方法可以包括如下步骤:
步骤S101,判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件。
本实施例的检测场景可参见图2和图3所示,图2、图3是连续视频帧中的两帧图像,分别代表t1、t2两个时间节点,以图2为例,(x1,y1)代表目标T1(即汽车)的位置,h1和w1代表目标的ROI区域高度和宽度。在两帧图像中分别发现了目标T1和T2的前提下,使用本发明实施例方案可以快速确定图3中的目标T2是新出现的目标,还是目标T1在t2时刻的位置,从而实现连续视频帧中目标快速跟踪。
作为示例,历史目标集合在实现时具体可以是一个目标容器,用于存放检测到的目标。每个目标例如可以包含三个属性:标签号、在画面中的位置、对应的感兴趣区域的子图像。其中感兴趣区域即ROI(region of interest),在机器视觉、图像处理等技术中,从被处理的图像中以方框、圆形或不规则多边形等方式勾勒出的需要处理的区域,称为感兴趣区域,在软件实现时常用到各种算子和函数来求得ROI,对此本实施例不再赘述。
可参见图4所示,在本实施例或本发明其他某些实施例中,判断检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件,具体可以包括:
步骤S1011,计算所述当前目标与所述历史目标集合中每个目标的重叠度。
例如,可以将两个目标区域面积的交集与其并集的比值作为两个目标的重叠度。
步骤S1012,判断所述重叠度的最大值是否大于第一阈值。
步骤S1013,如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
步骤S102,如果不满足所述第一预设条件,则判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件。
所述距离例如可以为欧式距离。
可参见图5所示,在本实施例或本发明其他某些实施例中,判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件,具体可以包括:
步骤S1021,计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离。
步骤S1022,判断所述欧式距离的最小值是否小于第二阈值。
步骤S1023,如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
步骤S103,如果不满足所述第二预设条件,则使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标。
例如,邻域可以是以目标中心为圆心、半径为tr的一个区域。
对于卷积神经网络及特征向量相似度的计算,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S104,如果不满足所述第三预设条件,则将所述当前目标作为一个新出现的目标加入到所述历史目标集合中。
以每个目标包括标签号、在画面中的位置、对应的感兴趣区域的子图像三个属性为例,则将所述当前目标作为一个新出现的目标加入到所述历史目标集合中的步骤,可以包括:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像。
步骤S105,如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
之后,便可以使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
下面再对本发明中的卷积神经网络及特征向量的相似度的计算方法进行举例说明:
卷积神经网络是一种前馈神经网络,包括卷积层和池化层,人工神经元可以响应周围单元,可以用于大型图像处理。本发明实施例具体可以采用SqueezeNet作为卷积神经网络用以计算特征向量。
SqueezeNet是一种小型化的网络模型结构,该网络能在保证不损失精度的情况下,将原始AlexNet大幅压缩。SqueezeNet的核心指导思想即在保证精度的同时使用最少的参数,而这也是所有模型压缩方法的目标。SqueezeNet体积小、层数少,同时也可以表示复杂图像特征。在准确率方面虽然不及用于识别任务的复杂网络VGG、ResNet等,但由于同一目标在相邻帧间具有高度的相似性,故该网络的准确性用于相邻帧间的关联性判断绰绰有余,且运算速度很快。鉴于此本发明提出的目标快速跟踪方法有着良好的迁移学习能力,并可以通过简单的训练和蒸馏方法即可获得高准确度、高召回率的高品质追踪效果,且运算开销极小。
SqueezeNet可作为一个多分类问题进行训练。例如识别人脸对象,即将同一人的不同人脸图片作为同一类,来自不同人的图片作为不同类,基于此准备一定规模的数据集,在一种实施例中可采用Softmax作为网络输出层,该层的维数与类别数相同。类似的可采用其他类型的损失函数,如CenterLoss,TripleLoss等,本发明对训练方法和网络模型结构不做限定。
根据给定的输入和输出标签,有监督地训练SqueezeNet网络后,将其embedding层作为特征向量输出层,一般而言特征向量的维数可以设计为512维或1024维。另外SqueezeNet的训练还可以采用迁移学习的方法,对于检测-跟踪-识别的完整系统,后端所采用的识别器可以作为监督信号,用于迁移训练SqueezeNet,此类方法属于现有技术,仅作为本发明的一种实施手段,不再赘述。
作为示例,在本实施例或本发明其他某些实施例中,使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,具体可以包括:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。例如a=b=224,c=512。
作为示例,在本实施例或本发明其他某些实施例中,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,具体可以包括:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;
如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
作为示例,对于当前目标的特征向量和一个指定目标的特征向量,在本发明实施例中可以使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
本发明实施例中无需先验知识,而是依次使用了基于面积(重叠度),基于欧式距离,以及低复杂度小尺寸卷积神经网络的联合跟踪方法,先使用面积和欧式距离进行跟踪,简洁高效,卷积神经网络方法并不是每个跟踪周期都被利用,而仅在多目标物体出现混淆时才参与运算。本发明方案在复杂场景下保持了较高的鲁棒性和准确率,算法的运算开销也可以限制在有限的范围内,实时性好,准确率、召回率高,可以作为独立的中间件快速移植至目标检测系统中,广泛应用于实时目标检测,并作为检测系统中提高运算性能、避免冗余计算、节约系统功耗的有效方法。本发明的检测目标不限定于某一特殊物体,具有广泛的适应性,特别适合嵌入式计算平台等边缘侧的目标检测任务。
图6是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪方法的流程图。该方法可以包括如下步骤:
步骤S601,遍历全部历史目标,计算当前目标与全部历史目标的IoU(重叠度)。
步骤S602,根据IoU对历史目标排序。
步骤S603,判断IoU最大值是否大于预设阈值ta。如果是,则代表IoU最大值对应的历史目标与当前目标匹配上了,进入步骤S613;如果否,则进入步骤S604。
步骤S604,遍历全部历史目标,计算当前目标与全部历史目标中心点的欧氏距离。
步骤S605,根据欧氏距离对历史目标排序。
步骤S606,判断欧式距离最小值是否小于预设阈值td1。如果否,则进入步骤S607;如果是,则进入步骤S613。
步骤S607,判断历史目标数量是否大于1。如果否,则进入步骤S609;如果是,则进入步骤S608。
步骤S608,判断欧式距离次小值是否小于预设阈值td2。如果否,则进入步骤S609;如果是,则进入步骤S613。
步骤S609,使用卷积神经网络计算待跟踪目标(即当前目标)特征向量。
步骤S610,计算待跟踪目标与最近邻内历史目标的特征相似度并排序。若历史目标的特征向量已经计算过则不必重新计算。
步骤S611,判断相似度最大值是否大于预设阈值ts。如果否,则进入步骤S612;如果是,则进入步骤S613。
步骤S612,判定为跟踪失败,标记该目标为新出现的目标。
步骤S613,标记该目标与对应的历史目标匹配,更新对应的历史目标的位置等属性。
本实施例中无需先验知识,而是依次使用了基于面积(重叠度),基于欧式距离,以及低复杂度小尺寸卷积神经网络的联合跟踪方法,先使用面积和欧式距离进行跟踪,简洁高效,卷积神经网络方法并不是每个跟踪周期都被利用,而仅在多目标物体出现混淆时才参与运算。本发明方案在复杂场景下保持了较高的鲁棒性和准确率,算法的运算开销也可以限制在有限的范围内,实时性好,准确率、召回率高,可以作为独立的中间件快速移植至目标检测系统中,广泛应用于实时目标检测,并作为检测系统中提高运算性能、避免冗余计算、节约系统功耗的有效方法。本发明的检测目标不限定于某一特殊物体,具有广泛的适应性,特别适合嵌入式计算平台等边缘侧的目标检测任务。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7是根据本发明一示例性实施例示出的一种连续视频帧中目标快速跟踪装置的示意图。该装置可以包括:
第一判断模块701,用于判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;
第二判断模块702,用于判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件;
第三判断模块703,用于使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标;
控制模块704,用于:触发第一判断模块;当不满足所述第一预设条件时触发第二判断模块;当不满足所述第二预设条件时触发第三判断模块;当不满足所述第三预设条件时将所述当前目标作为一个新出现的目标加入到所述历史目标集合中;如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
作为示例,在本实施例或本发明其他某些实施例中,所述第一判断模块具体可以用于:
计算所述当前目标与所述历史目标集合中每个目标的重叠度;判断所述重叠度的最大值是否大于第一阈值;如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
作为示例,在本实施例或本发明其他某些实施例中,所述第二判断模块具体可以用于:
计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离;判断所述欧式距离的最小值是否小于第二阈值;如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
作为示例,在本实施例或本发明其他某些实施例中,所述卷积神经网络可以包括SqueezeNet;所述第三判断模块在使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量时,具体可以用于:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。
作为示例,在本实施例或本发明其他某些实施例中,所述第三判断模块在判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件时,具体可以用于:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
所述第三判断模块在分别计算所述当前目标特征向量与每个指定目标特征向量的相似度时,具体可以用于:
对于当前目标的特征向量和一个指定目标的特征向量,使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
作为示例,在本实施例或本发明其他某些实施例中,每个目标可以包括以下属性:标签号、在画面中的位置、对应的感兴趣区域的子图像;所述控制模块在将所述当前目标作为一个新出现的目标加入到所述历史目标集合中时,具体可以用于:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像;
所述控制模块在判定为跟踪成功之后,还可以用于:
使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在相关方法的实施例中进行了详细描述,此处不再赘述。
本实施例中无需先验知识,而是依次使用了基于面积(重叠度),基于欧式距离,以及低复杂度小尺寸卷积神经网络的联合跟踪方法,先使用面积和欧式距离进行跟踪,简洁高效,卷积神经网络方法并不是每个跟踪周期都被利用,而仅在多目标物体出现混淆时才参与运算。本发明方案在复杂场景下保持了较高的鲁棒性和准确率,算法的运算开销也可以限制在有限的范围内,实时性好,准确率、召回率高,可以作为独立的中间件快速移植至目标检测系统中,广泛应用于实时目标检测,并作为检测系统中提高运算性能、避免冗余计算、节约系统功耗的有效方法。本发明的检测目标不限定于某一特殊物体,具有广泛的适应性,特别适合嵌入式计算平台等边缘侧的目标检测任务。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种连续视频帧中目标快速跟踪方法,其特征在于,所述方法包括:
判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;
如果不满足所述第一预设条件,则判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件;
如果不满足所述第二预设条件,则使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标;
如果不满足所述第三预设条件,则将所述当前目标作为一个新出现的目标加入到所述历史目标集合中;
如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
2.根据权利要求1所述的方法,其特征在于,判断检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件,包括:
计算所述当前目标与所述历史目标集合中每个目标的重叠度;
判断所述重叠度的最大值是否大于第一阈值;
如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
3.根据权利要求1所述的方法,其特征在于,判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件,包括:
计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离;
判断所述欧式距离的最小值是否小于第二阈值;
如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
4.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括SqueezeNet;
使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,包括:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。
5.根据权利要求1所述的方法,其特征在于,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,包括:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;
如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
6.根据权利要求5所述的方法,其特征在于,分别计算所述当前目标特征向量与每个指定目标特征向量的相似度,包括:
对于当前目标的特征向量和一个指定目标的特征向量,使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
7.根据权利要求1所述的方法,其特征在于,每个目标包括以下属性:标签号、在画面中的位置、对应的感兴趣区域的子图像;
将所述当前目标作为一个新出现的目标加入到所述历史目标集合中,包括:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像;
判定为跟踪成功之后,包括:
使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
8.一种连续视频帧中目标快速跟踪装置,其特征在于,所述装置包括:
第一判断模块,用于判断从连续视频帧中检测到的当前目标与历史目标集合中的目标的重叠度是否满足第一预设条件;
第二判断模块,用于判断所述当前目标与所述历史目标集合中的目标的距离是否满足第二预设条件;
第三判断模块,用于使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量,以及,判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件,其中所述指定目标为所述历史目标集合里位置处于所述当前目标的邻域内的目标;
控制模块,用于:触发第一判断模块;当不满足所述第一预设条件时触发第二判断模块;当不满足所述第二预设条件时触发第三判断模块;当不满足所述第三预设条件时将所述当前目标作为一个新出现的目标加入到所述历史目标集合中;如果所述第一预设条件、所述第二预设条件或所述第三预设条件中有一个满足,则判定为跟踪成功。
9.根据权利要求8所述的装置,其特征在于,所述第一判断模块用于:
计算所述当前目标与所述历史目标集合中每个目标的重叠度;判断所述重叠度的最大值是否大于第一阈值;如果所述重叠度的最大值大于第一阈值,则判定为满足所述第一预设条件。
10.根据权利要求8所述的装置,其特征在于,所述第二判断模块用于:
计算所述当前目标与所述历史目标集合中每个目标的中心点的欧式距离;判断所述欧式距离的最小值是否小于第二阈值;如果所述欧式距离的最小值小于第二阈值,或者,如果所述欧式距离的最小值未小于第二阈值但所述欧式距离的次小值存在且大于第三阈值,则判定为满足所述第二预设条件。
11.根据权利要求8所述的装置,其特征在于,所述卷积神经网络包括SqueezeNet;所述第三判断模块在使用卷积神经网络分别计算所述当前目标的特征向量和指定目标的特征向量时,用于:
将SqueezeNet输入张量的尺寸选择为a,b的浮点型三通道图像数据、输出向量为长度为c的特征向量,将待输入的目标的感兴趣区域裁剪或重采样到a×b大小的图像并作为SqueezeNet的输入数据,执行推理网络获得长度为c的特征向量,其中a、b、c为指定数值。
12.根据权利要求8所述的装置,其特征在于,所述第三判断模块在判断所述当前目标与所述指定目标的特征向量相似度是否满足第三预设条件时,用于:
分别计算所述当前目标特征向量与每个指定目标特征向量的相似度;如果所述相似度的最大值大于第四阈值,则判定为满足所述第三预设条件。
13.根据权利要求12所述的装置,其特征在于,所述第三判断模块在分别计算所述当前目标特征向量与每个指定目标特征向量的相似度时,用于:
对于当前目标的特征向量和一个指定目标的特征向量,使用特征向量的余弦夹角来评价两个特征向量之间的相似度Similarity:
其中F和G各代表一个特征向量。
14.根据权利要求8所述的装置,其特征在于,每个目标包括以下属性:标签号、在画面中的位置、对应的感兴趣区域的子图像;所述控制模块在将所述当前目标作为一个新出现的目标加入到所述历史目标集合中时,用于:
赋予所述当前目标一个新的唯一的标签号,并记录所述当前目标在画面中的位置以及对应的感兴趣区域的子图像;
所述控制模块在判定为跟踪成功之后,还用于:
使用当前目标的属性更新所述历史目标集合中与当前目标对应的目标的属性。
CN201910142204.1A 2019-02-26 2019-02-26 一种连续视频帧中目标快速跟踪方法及装置 Pending CN109949336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910142204.1A CN109949336A (zh) 2019-02-26 2019-02-26 一种连续视频帧中目标快速跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910142204.1A CN109949336A (zh) 2019-02-26 2019-02-26 一种连续视频帧中目标快速跟踪方法及装置

Publications (1)

Publication Number Publication Date
CN109949336A true CN109949336A (zh) 2019-06-28

Family

ID=67006888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910142204.1A Pending CN109949336A (zh) 2019-02-26 2019-02-26 一种连续视频帧中目标快速跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN109949336A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414443A (zh) * 2019-07-31 2019-11-05 苏州市科远软件技术开发有限公司 一种目标跟踪方法、装置及枪球联动跟踪方法
CN111192294A (zh) * 2019-12-30 2020-05-22 华中科技大学 一种基于目标检测的目标跟踪方法及系统
CN115063454A (zh) * 2022-08-16 2022-09-16 浙江所托瑞安科技集团有限公司 多目标跟踪匹配方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108979A (ko) * 2015-03-09 2016-09-21 한화테크윈 주식회사 표적 추적 방법 및 장치
CN107292297A (zh) * 2017-08-09 2017-10-24 电子科技大学 一种基于深度学习和重叠率跟踪的视频车流量检测方法
CN107292915A (zh) * 2017-06-15 2017-10-24 国家新闻出版广电总局广播科学研究院 基于卷积神经网络的目标跟踪方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108979A (ko) * 2015-03-09 2016-09-21 한화테크윈 주식회사 표적 추적 방법 및 장치
CN107292915A (zh) * 2017-06-15 2017-10-24 国家新闻出版广电总局广播科学研究院 基于卷积神经网络的目标跟踪方法
CN107292297A (zh) * 2017-08-09 2017-10-24 电子科技大学 一种基于深度学习和重叠率跟踪的视频车流量检测方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨秀璋等: "《Python 网络数据爬取及分析从入门到精通(分析篇)》", 31 May 2018 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414443A (zh) * 2019-07-31 2019-11-05 苏州市科远软件技术开发有限公司 一种目标跟踪方法、装置及枪球联动跟踪方法
CN111192294A (zh) * 2019-12-30 2020-05-22 华中科技大学 一种基于目标检测的目标跟踪方法及系统
CN111192294B (zh) * 2019-12-30 2022-04-22 华中科技大学 一种基于目标检测的目标跟踪方法及系统
CN115063454A (zh) * 2022-08-16 2022-09-16 浙江所托瑞安科技集团有限公司 多目标跟踪匹配方法、装置、终端及存储介质
CN115063454B (zh) * 2022-08-16 2022-11-29 浙江所托瑞安科技集团有限公司 多目标跟踪匹配方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
Adarsh et al. YOLO v3-Tiny: Object Detection and Recognition using one stage improved model
Han et al. Dynamic scene semantics SLAM based on semantic segmentation
Gopalan et al. A learning approach towards detection and tracking of lane markings
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
Blas et al. Fast color/texture segmentation for outdoor robots
US20220254157A1 (en) Video 2D Multi-Person Pose Estimation Using Multi-Frame Refinement and Optimization
KR102462934B1 (ko) 디지털 트윈 기술을 위한 영상 분석 시스템
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN102378992A (zh) 关节状区域检测装置及其方法
CN109949336A (zh) 一种连续视频帧中目标快速跟踪方法及装置
Košecka Detecting changes in images of street scenes
CN107093189A (zh) 基于自适应颜色特征和时空上下文的目标跟踪方法及系统
Wen et al. Hybrid semi-dense 3D semantic-topological mapping from stereo visual-inertial odometry SLAM with loop closure detection
Chen et al. Semantic loop closure detection with instance-level inconsistency removal in dynamic industrial scenes
Maddalena et al. Exploiting color and depth for background subtraction
Li et al. Visual slam in dynamic scenes based on object tracking and static points detection
Fan Research and realization of video target detection system based on deep learning
CN115511892A (zh) 一种语义分割模型的训练方法、语义分割方法及装置
Guzel et al. Vision based obstacle avoidance techniques
Chuang et al. Deep learning‐based panoptic segmentation: Recent advances and perspectives
CN111160170B (zh) 一种自学习的人体行为识别与异常检测方法
Xie et al. A multi-object tracking system for surveillance video analysis
Deng et al. Deep learning in crowd counting: A survey
Rituerto et al. Label propagation in videos indoors with an incremental non-parametric model update
Liu et al. Fast and consistent matching for landmark-based place recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628