CN112287906B - 一种基于深度特征融合的模板匹配跟踪方法及系统 - Google Patents

一种基于深度特征融合的模板匹配跟踪方法及系统 Download PDF

Info

Publication number
CN112287906B
CN112287906B CN202011509884.5A CN202011509884A CN112287906B CN 112287906 B CN112287906 B CN 112287906B CN 202011509884 A CN202011509884 A CN 202011509884A CN 112287906 B CN112287906 B CN 112287906B
Authority
CN
China
Prior art keywords
target
frame
module
information
template matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011509884.5A
Other languages
English (en)
Other versions
CN112287906A (zh
Inventor
陈志轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Automotive Innovation Co Ltd
Original Assignee
China Automotive Innovation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Automotive Innovation Co Ltd filed Critical China Automotive Innovation Co Ltd
Priority to CN202011509884.5A priority Critical patent/CN112287906B/zh
Publication of CN112287906A publication Critical patent/CN112287906A/zh
Application granted granted Critical
Publication of CN112287906B publication Critical patent/CN112287906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提出了一种基于深度特征融合的模板匹配跟踪方法及系统,并通过以下步骤实现:步骤一、获取视频数据,并将视频第一帧图像输入深度卷积网络;步骤二、深度卷积网络接收图像帧信息,进行特征提取并输出;步骤三、获取根据特征信息估计出的目标位置;步骤四、判断目标类别,并根据类别信息修正目标框;步骤五、提取下一帧视频数据并输入深度卷积网络,进行特征提取;步骤六、根据步骤五提取的特征图,利用上一帧的目标特征进行模板匹配;步骤七、输出当前帧中目标位置;步骤八、判断视频读取是否结束,满足结束条件时完成目标跟踪,不满足时跳转至步骤五。本发明通过对目标的检测,针对视频中目标所在位置的进行判定,实现目标跟踪。

Description

一种基于深度特征融合的模板匹配跟踪方法及系统
技术领域
本发明涉及一种基于深度特征融合的模板匹配跟踪方法及系统,特别是涉及目标跟踪技术领域。
背景技术
随着计算机技术的发展,对于目标的检测、分类、分割等领域,基于深度学习的检测方法逐渐占据主导地位。由于实际场景中,遮挡、光照、目标非刚性等因素影响,目标跟踪的准确性和鲁棒性仍然存在问题。
现有技术中,在采用深度特征流处理图像时,对过滤静止物体建立运动物体的特征采用关键帧移动物体特征传播到当前帧的措施,该技术处理过程容易出现漂移,导致鲁棒性不够。同时,在获取深度帧以及特征信息数据库需要额外的存储花销,计算所有参考轮廓的特征信息集合逐一计算匹配,导致实时性得不到实际应用过程中的满足。
发明内容
发明目的:一个目的是提出一种基于深度特征融合的模板匹配跟踪方法,以解决现有技术存在的上述问题。进一步目的是提出一种实现上述方法的模板匹配跟踪系统。
技术方案:一种基于深度特征融合的模板匹配跟踪方法,包括以下步骤:
步骤一:获取视频数据,并将视频第一帧图像输入深度卷积网络;
步骤二:深度卷积网络接收图像帧信息,进行特征提取并输出;
步骤三:获取根据特征信息估计出的目标位置;
步骤四:判断目标类别,并根据类别信息修正目标框;
步骤五:提取下一帧视频数据并输入深度卷积网络,进行特征提取;
步骤六:根据步骤五提取的特征图,利用上一帧的目标特征进行模板匹配;
步骤七:输出当前帧中目标位置;
步骤八:判断视频读取是否结束,满足结束条件时完成目标跟踪,不满足时跳转至步骤五。
在进一步的实施例中,所述步骤二进一步为:
用于提取图像帧信息特征的深度卷积网络,采用欧氏距离作为回归的损失函数,并选择focal loss作为分类损失函数对深度卷积网络进行学习能力的优化;所述欧氏距离作为回归的损失函数进一步为:
Figure DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示目标个数,
Figure DEST_PATH_IMAGE004
表示当前目标索引,上标2表示范数的平方,下标2表示向 量元素绝对值的平方和在开方,
Figure DEST_PATH_IMAGE005
表示深度卷积网络中当前图像帧作为计算样本在类别划 分中对应的位置参数,
Figure DEST_PATH_IMAGE006
表示深度卷积网络中目标图像帧作为划分类别对应的位置参数;
所述focal loss作为分类损失函数进一步引出二分类交叉损失函数,加入参数因子,并将网络关注度置于困难的、错分的样本;其中所述二分类交叉损失函数为:
Figure DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE009
表示经过激活函数后的输出;所述参数因子为alpha和gamma,即:
Figure DEST_PATH_IMAGE011
式中,
Figure DEST_PATH_IMAGE012
表示平衡因子,
Figure DEST_PATH_IMAGE013
表示样本重要性。
在进一步的实施例中,所述步骤四进一步为:
根据设定的参数类型,将步骤三中处于目标位置的跟踪目标,划分为便于区分的不同的形态、不同类型的类别;根据划分出的类别信息,输入目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框的位置。
在进一步的实施例中,所述步骤六进一步为:
根据上一帧的目标位置,在当前帧特征图对应的目标位置附近,扩大已定义大小的区域进行目标跟踪;首先,通过上一帧选定目标所在位置,确定当前帧中初始目标框的候选区位置;其次,按照预设像素值,进行目标框的移动,产生领域目标框;再次,利用相似度匹配,计算领域目标框中的图像特征与跟踪目标的图像特征相似度值;从次,将计算出的相似度值与预定阈值进行对比,当满足阈值时,将计算出的领域目标框作为当前帧目标所在位置的候选;最后,当相似度匹配不低于预定次数时,终止目标框的移动,并选取相似度值最高的领域目标框,作为当前帧中目标所在的位置框。
一种基于深度特征融合的模板匹配跟踪系统,用于实现一种基于深度特征融合的模板匹配跟踪方法,包括:
用于获取目标图像信息的第一模块;
用于提取特征信息的第二模块;
用于判断目标类型的第三模块;
用于获取目标位置第四模块;
用于进行数据处理的第五模块。
在进一步的实施例中,所述第一模块进一步包括提取模块、预处理模块;其中提取模块对视频中的目标信息进行读取。预处理模块用于对提取模块提取出的图片信息进行预处理;所述预处理进一步将待输入第二模块中的图片信息尺寸,设置为符合第二模块使用的大小。
在进一步的实施例中,所述第二模块进一步接收第一模块中进行预处理后的图片信息,并将其输入至深度卷积网络中进行特征提取。
在进一步的实施例中,所述第三模块进一步根据设定的参数类型,将跟踪目标,划分为便于区分的不同的形态、不同类型的类别;同时,利用第五模块,根据划分出的类别信息,利用目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框所在的位置。
在进一步的实施例中,所述第四模块进一步包括:初始位置获取模块、当前模块;所述初始位置获取模块用于根据第一帧在第一模块获取的特征信息,利用第五模块进行目标位置的确定;所述当前模块用于上一帧中目标位置,通过目标框的移动得到候选目标框,并采用第五模块进行数据处理,从而获取当前的帧中,目标所在位置的目标框。
在进一步的实施例中,所述第五模块用于对数据进行处理,进一步为包括相似度计算模块、比例计算模块、NMS处理模块、误差计算模块;所述相似度计算模块用于计算图片信息之间的相似程度;所述比例计算模块用于根据目标真实大小合理规划目标框的选定的大小;所述NMS处理模块用于对目标值进行处理,保留最大置信度的候选框为目标框;所述误差计算模块用于计算误差值,并将其作为检测修正的依据。
有益效果:本发明提出了一种基于深度特征融合的模板匹配跟踪方法及实现该方法的系统,针对目标跟踪中不稳定且占用耗时间长的问题,利用深度学习提取有效特征,并输出类别信息,在一定的有效区域内利用上一帧的特征以及类别信息对应的尺度,进行跟踪,在目标跟踪的鲁棒性方面产生质变的提高,且同时抑制了跟踪目标的抖动与漂移。
附图说明
图1为本发明的方法实现流程图。
图2为本发明的数据流向图。
图3为本发明的网络结构图。
具体实施方式
本发明通过一种基于深度特征融合的模板匹配跟踪方法及实现该方法的系统,实现目标跟踪的目的。下面通过实施例,并结合附图对本方案做进一步具体说明。
在本申请中,我们提出了一种基于深度特征融合的模板匹配跟踪方法及实现该方法的系统,其中包含的一种基于深度特征融合的模板匹配跟踪方法,如附图1所示,为本发明方法实现流程图,具体划分为以下步骤:
步骤一:获取视频数据,并将视频第一帧图像输入深度卷积网络;该步骤进一步对获取的视频数据进行预处理,具体为将待输入深度卷积网络中的图像尺寸,处理为深度卷积网络可接受的大小。
步骤二:深度卷积网络接收图像帧信息,进行特征提取并输出深度特征图F0;该步骤中用于提取图像帧信息特征的深度卷积网络,采用欧氏距离作为回归的损失函数,并选择focal loss作为分类损失函数对深度卷积网络进行学习能力的优化。
其中,欧氏距离作为回归的损失函数进一步为:
Figure 440533DEST_PATH_IMAGE002
式中,
Figure 888832DEST_PATH_IMAGE003
表示目标个数,
Figure 199727DEST_PATH_IMAGE004
表示当前目标索引,上标2表示范数的平方,下标2表示向 量元素绝对值的平方和在开方,
Figure 126095DEST_PATH_IMAGE005
表示深度卷积网络中当前图像帧作为计算样本在类别划 分中对应的位置参数,
Figure 222358DEST_PATH_IMAGE006
表示深度卷积网络中目标图像帧作为划分类别对应的位置参数。
所述focal loss作为分类损失函数进一步引出二分类交叉损失函数,加入参数因子,并将网络关注度置于困难的、错分的样本;其中所述二分类交叉损失函数为:
Figure DEST_PATH_IMAGE014
式中,
Figure 903875DEST_PATH_IMAGE009
表示经过激活函数后的输出,值域在0~1内,由于普通的交叉熵对于正样 本而言,输出概率越大损失越小;对于负样本而言,输出概率越小则损失越小。所以此时的 损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。为减少易分类样 本的损失,使得整个网络更关注困难的、错分的样本,引入alpha和gamma两个引子,即:
Figure 951335DEST_PATH_IMAGE011
式中,
Figure 681393DEST_PATH_IMAGE012
表示平衡因子,用来平衡正负样本重要性,
Figure 881430DEST_PATH_IMAGE013
表示样本重要性,优选为0.25。
步骤三:获取根据特征信息估计出的目标位置;该步骤进一步为根据步骤二中获取的特征图对应的anchors生成候选区域,并对生成的候选区域进行判断。当候选区域为目标时,进行位置的偏差预测。随后,对预测为目标的proposal进行遍历,并进一步做NMS处理,保留重叠阈值内最大置信度的框,将其作为目标框,从而确定当前目标的位置。
步骤四:判断目标类别;该步骤根据设定的参数类型,将步骤三中处于目标位置的跟踪目标,如附图3所示,输入至卷积神经网络中,进行分类。具体划分为便于区分的不同的形态、不同类型的类别;根据划分出的类别信息,输入目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框的位置。其中目标框的修正还包括每经历过10帧,就进行一次检测修正。
步骤五:提取下一帧视频数据并输入深度卷积网络,进行特征提取;
步骤六:根据步骤五提取的特征图,利用上一帧的目标特征进行模板匹配;匹配的过程具体为根据上一帧的目标位置,在当前帧特征图F0对应的目标位置附近,扩大已定义大小的区域进行目标跟踪。首先,通过上一帧选定目标所在位置,确定当前帧中初始目标框的候选区位置,并根据目标类型的真实宽高,距离信息估算出在图像中的尺度大小,从而对候选区位置进行精修;其次,按照预设像素值,进行目标框的移动,产生领域目标框;再次,利用相似度匹配,计算领域目标框中的图像特征与跟踪目标的图像特征相似度值;从次,将计算出的相似度值与预定阈值进行对比,当满足阈值时,将计算出的领域目标框作为当前帧目标所在位置的候选;最后,当相似度匹配不低于预定次数时,终止目标框的移动,并选取相似度值最高的领域目标框,作为当前帧中目标所在的位置框。
步骤七:输出当前帧中目标位置;
步骤八:判断视频读取是否结束,当满足结束条件时,输出目标的最终位置,并完成目标跟踪,不满足时跳转至步骤五,继续进行目标跟踪。
基于上述方法,提出一种基于深度特征融合的模板匹配跟踪系统,用于上述方法,包括:
用于获取目标图像信息的第一模块;该模块进一步包括提取模块、预处理模块;其中提取模块对视频中的目标信息进行读取。预处理模块用于对提取模块提取出的图片信息进行预处理;所述预处理进一步将待输入第二模块中的图片信息尺寸,设置为符合第二模块使用的大小。
用于提取特征信息的第二模块;该模块进一步接收第一模块中进行预处理后的图片信息,并将其输入至深度卷积网络中进行特征提取。
用于判断目标类型的第三模块;该模块根据第二模块提取出的目标特征信息,将其输入至卷积神经网络,进一步根据设定的参数类型,将跟踪目标,划分为便于区分的不同的形态、不同类型的类别;同时,利用第五模块,根据划分出的类别信息,利用目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框所在的位置。
用于获取目标位置第四模块;该模块进一步包括:初始位置获取模块、当前模块;所述初始位置获取模块用于根据第一帧在第一模块获取的特征信息,利用第五模块进行目标位置的确定;所述当前模块用于上一帧中目标位置,通过目标框的移动得到候选目标框,并采用第五模块进行数据处理,从而获取当前的帧中,目标所在位置的目标框。
用于进行数据处理的第五模块;该模块进一步为包括相似度计算模块、比例计算模块、NMS处理模块、误差计算模块;所述相似度计算模块用于计算图片信息之间的相似程度;所述比例计算模块用于根据目标真实大小合理规划目标框的选定的大小;所述NMS处理模块用于对目标值进行处理,保留最大置信度的候选框为目标框;所述误差计算模块用于计算误差值,并将其作为检测修正的依据。
为便于对本发明的理解,以下提供一具体优选实施例,对本方案做进一步具体说明,但不作为对本发明自身的限制。例如当目标为行人时,对目标人物的跟踪。
首先读取视频中目标人物在第一帧中的图片信息,并将图片缩放至深度卷积网络 可接受的
Figure DEST_PATH_IMAGE015
图片尺寸;其次,输入图片经过
Figure DEST_PATH_IMAGE016
的卷积核以及预定量的卷积层提 取特征;再次,根据提取出的图片特征信息,以及对应的anchors生成候选区域,利用NMS处 理,保留置信度最大的候选区域,圈选目标所在区域,即目标框;再次,将目标框输入分类卷 积神经网络,利用
Figure 219002DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
的卷积核以及Global average pooling,对不具有固定输出 尺寸的目标框所含信息,进行目标类型的判定,并输出;从次,接收视频下一帧的图片信息, 通过深度卷积网络提取特征,并根据上一帧中目标框的位置进行匹配;最后,根据匹配结果 输出目标位置,实现跟踪。
其中,匹配的方式具体为以上一帧目标人物的位置为中心,1像素为步长,领域为方向,进行目标框的移动,得到8个候选目标框,将获取的候选目标框与上一帧目标人物的特征图,利用余弦距离的计算方式,进行相似度的匹配。当余弦距离数值越大,则两者之间的相似度就越大。将不低于阈值的候选目标框,且同时满足当前8个领域数值最大的候选目标框,作为当前扩张中匹配成功的目标框。在扩张过程中,以8领域中数值最大的候选目标框为基准,进一步进行扩张。当满足三次以上匹配成功的时候,停止扩张,并将三次匹配成功的结果中,选取对应相似度值最大的候选目标框为当前帧中的最终目标所在位置框。
对于目标的类型判断在行人为目标的实施例中,在年龄上划分小孩,成年人,老年人;从姿态上,将行人分为站立、弯腰以及蹲着的行人,运动状态分为站立静止、弯腰静止、半蹲静止、行进;对应的行人真实身高应有区分,其中,成年人和老年人的身高在1.7m,小孩的身高在1.4m,站立的行人实际高度为1.7m,弯腰为1.2m,半蹲为1m。根据分类得到的真实身高,在根据影像中的相似三角形原理,可以推算得到:F/d=h/H,其中F为相机焦距,和相机内参相关,窄角相机的焦距在1280左右,d为利用天地消失点可以获得的行人离摄像头的距离,H为分类后实际行人高度,h为待求的图像中行人高度。依靠上述公式可以求得对应的行人高度,从而作为后续行人尺度的规范。
对于目标的框的修订在行人为目标的实施例中具体为根据上述获取的行人高度以及分类的行人状态,依据不同姿态对应的长宽比,站立行人5:1,弯腰行人3:2,半蹲行人1:1,走路行人1.8:1,推算行人宽度,得到图像中行人的长和宽。根据得到的目标位置中心,修正目标尺寸大小,将获取的最终目标所在位置框与当前分类信息推导得到的框进行融合,即判断最终目标所在位置框得到的长h2和宽w2与分类推导的到的长h3和宽w3的差值,相比检测得到的长h0和宽w0与h3和w3的差值,是否在阈值10%内,即是否满足90%*(h3-h0)<(h3-h2) <110%*(h3-h0) && 90%*(w3-w0)<(w3-w2) <110%*(w3-w0),若满足,即以当前h2和w2输出,若不满足,则利用检测进行修正。
本发明提出的跟踪技术,与现有技术相比,呈现如下表1所示的有益效果。
跟踪方法对比 OTB-100 AUC(%) Speed(FPS)
BACF 62.98% 35ms(CPU)
CREST 62.3% 1ms(GPU)
PTAV 63.5% 25ms(GPU)
EA 62.9% 23ms(CPU)
本发明 64.1% 20ms(CPU)
如附图2所示,本发明利用卷积神经网络提取特征跟踪目标的同时,额外使用分类的网络分支,对目标进行类别判断,在跟踪后续框的修正上,起到防止抖动漂移的作用,增强鲁棒性。其中,利用深度卷积网络识别的目标,在检测基础上进行目标识别,对目标跟踪位置的估算产生判决依据的作用;同时,在原有卷积神经网络做检测任务的基础上,加入分支对提取到的特征进行分类,有利于距离测算以及抑制误报和漏报的拓展。
目前大部分主流的方法,在利用深度卷积神经网络检测出第一帧之后,用粒子滤波或者卡尔曼滤波对于每个目标框进行跟踪,这种检测结果之后再加入滤波器两个独立模块的方式,跟踪时耗费的时间与目标个数呈线性相关,多个滤波器线性叠加对资源占用较大,本发明提出的方法,将多个滤波时间全部缩减到深度卷积网络提取的模版匹配上,相比于传统跟踪方法,本发明不需要针对每个检测到的目标再进行滤波或者光流映射特征矢量,直接在原图深度特征上进行匹配,节省了时间。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (5)

1.一种基于深度特征融合的模板匹配跟踪方法,其特征在于,包括:
步骤一:获取视频数据,并将视频第一帧图像输入深度卷积网络;
步骤二:深度卷积网络接收图像帧信息,进行特征提取并输出;
步骤三:获取根据特征信息估计出的目标位置;
步骤四:判断目标类别,并根据类别信息修正目标框;
步骤五:提取下一帧视频数据并输入深度卷积网络,进行特征提取;
步骤六:根据步骤五提取的特征图,利用上一帧的目标特征进行模板匹配;
步骤七:输出当前帧中目标位置;
步骤八:判断视频读取是否结束,满足结束条件时完成目标跟踪,不满足时跳转至步骤五;
所述步骤二进一步为:
用于提取图像帧信息特征的深度卷积网络,采用欧氏距离作为回归的损失函数,并选择focal loss作为分类损失函数对深度卷积网络进行学习能力的优化;所述欧氏距离作为回归的损失函数进一步为:
Figure 234014DEST_PATH_IMAGE002
式中,N表示目标个数,n表示当前目标索引,上标2表示范数的平方,下标2表示向量元素绝对值的平方和在开方,yn表示深度卷积网络中当前图像帧作为计算样本在类别划分中对应的位置参数,
Figure 241284DEST_PATH_IMAGE004
表示深度卷积网络中目标图像帧作为划分类别对应的位置参数;
所述focal loss作为分类损失函数进一步引出二分类交叉损失函数,加入参数因子,并将网络关注度置于困难的、错分的样本;其中所述二分类交叉损失函数为:
Figure 907889DEST_PATH_IMAGE006
式中,
Figure 409539DEST_PATH_IMAGE008
表示经过激活函数后的输出;所述参数因子为alpha和gamma,即:
Figure 641938DEST_PATH_IMAGE010
式中,α表示平衡因子,γ表示样本重要性;
所述步骤四进一步为:
根据设定的参数类型,将步骤三中处于目标位置的跟踪目标,划分为便于区分的不同的形态、不同类型的类别;根据划分出的类别信息,输入目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框的位置。
2.根据权利要求1所述的一种基于深度特征融合的模板匹配跟踪方法,其特征在于,所述步骤六进一步为:
根据上一帧的目标位置,在当前帧特征图对应的目标位置附近,扩大已定义大小的区域进行目标跟踪;首先,通过上一帧选定目标所在位置,确定当前帧中初始目标框的候选区位置;其次,按照预设像素值,进行目标框的移动,产生领域目标框;再次,利用相似度匹配,计算领域目标框中的图像特征与跟踪目标的图像特征相似度值;从次,将计算出的相似度值与预定阈值进行对比,当满足阈值时,将计算出的领域目标框作为当前帧目标所在位置的候选;最后,当相似度匹配不低于预定次数时,终止目标框的移动,并选取相似度值最高的领域目标框,作为当前帧中目标所在的位置框。
3.一种基于深度特征融合的模板匹配跟踪系统,用于实现权利要求1~2任意一项方法,其特征在于,包括:
用于获取目标图像信息的第一模块;
用于提取特征信息的第二模块;
用于判断目标类型的第三模块;
用于获取目标位置第四模块;
用于进行数据处理的第五模块;
所述第一模块进一步包括提取模块、预处理模块;其中所述提取模块对视频中的目标信息进行读取;所述预处理模块用于对提取模块提取出的图片信息进行预处理;所述预处理进一步将待输入第二模块中的图片信息尺寸,设置为符合第二模块使用的大小;
所述第二模块进一步接收第一模块中进行预处理后的图片信息,并将其输入至深度卷积网络中进行特征提取;
用于提取图像帧信息特征的深度卷积网络采用欧氏距离作为回归的损失函数,并选择focal loss作为分类损失函数对深度卷积网络进行学习能力的优化;所述欧氏距离作为回归的损失函数进一步为:
Figure 820109DEST_PATH_IMAGE002
式中,N表示目标个数,n表示当前目标索引,上标2表示范数的平方,下标2表示向量元素绝对值的平方和在开方,yn表示深度卷积网络中当前图像帧作为计算样本在类别划分中对应的位置参数,
Figure 770748DEST_PATH_IMAGE004
表示深度卷积网络中目标图像帧作为划分类别对应的位置参数;
所述focal loss作为分类损失函数进一步引出二分类交叉损失函数,加入参数因子,并将网络关注度置于困难的、错分的样本;其中所述二分类交叉损失函数为:
Figure 122095DEST_PATH_IMAGE006
式中,
Figure 146682DEST_PATH_IMAGE008
表示经过激活函数后的输出;所述参数因子为alpha和gamma,即:
Figure 823651DEST_PATH_IMAGE010
式中,α表示平衡因子,γ表示样本重要性;
所述第三模块进一步根据设定的参数类型,将跟踪目标,划分为便于区分的不同的形态、不同类型的类别;同时,利用第五模块,根据划分出的类别信息,利用目标真实尺寸,根据距离,估算目标长宽,模版匹配的结果,修正目标框所在的位置。
4.根据权利要求3所述的一种基于深度特征融合的模板匹配跟踪系统,其特征在于,所述第四模块进一步包括:初始位置获取模块、当前模块;所述初始位置获取模块用于根据第一帧在第一模块获取的特征信息,利用第五模块进行目标位置的确定;所述当前模块用于上一帧中目标位置,通过目标框的移动得到候选目标框,并采用第五模块进行数据处理,从而获取当前的帧中,目标所在位置的目标框。
5.根据权利要求3所述的一种基于深度特征融合的模板匹配跟踪系统,其特征在于,所述第五模块用于对数据进行处理,进一步为包括相似度计算模块、比例计算模块、NMS处理模块、误差计算模块;所述相似度计算模块用于计算图片信息之间的相似程度;所述比例计算模块用于根据目标真实大小合理规划目标框的选定的大小;所述NMS处理模块用于对目标值进行处理,保留最大置信度的候选框为目标框;所述误差计算模块用于计算误差值,并将其作为检测修正的依据。
CN202011509884.5A 2020-12-18 2020-12-18 一种基于深度特征融合的模板匹配跟踪方法及系统 Active CN112287906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011509884.5A CN112287906B (zh) 2020-12-18 2020-12-18 一种基于深度特征融合的模板匹配跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011509884.5A CN112287906B (zh) 2020-12-18 2020-12-18 一种基于深度特征融合的模板匹配跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN112287906A CN112287906A (zh) 2021-01-29
CN112287906B true CN112287906B (zh) 2021-04-09

Family

ID=74426890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011509884.5A Active CN112287906B (zh) 2020-12-18 2020-12-18 一种基于深度特征融合的模板匹配跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN112287906B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627295A (zh) * 2021-07-28 2021-11-09 中汽创智科技有限公司 一种图像处理方法、装置、设备及存储介质
CN115661720A (zh) * 2022-11-10 2023-01-31 南京智蓝芯联信息科技有限公司 一种被遮挡车辆的目标跟踪识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671102A (zh) * 2018-12-03 2019-04-23 华中科技大学 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN110472608A (zh) * 2019-08-21 2019-11-19 石翊鹏 图像识别跟踪处理方法及系统
US10552964B2 (en) * 2015-05-12 2020-02-04 Canon Kabushiki Kaisha Object tracking device and a control method for object tracking device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308693B (zh) * 2018-08-29 2023-01-24 北京航空航天大学 由一台ptz相机构建的目标检测和位姿测量单双目视觉系统
CN110033473B (zh) * 2019-04-15 2021-04-20 西安电子科技大学 基于模板匹配和深度分类网络的运动目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552964B2 (en) * 2015-05-12 2020-02-04 Canon Kabushiki Kaisha Object tracking device and a control method for object tracking device
CN109671102A (zh) * 2018-12-03 2019-04-23 华中科技大学 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN110472608A (zh) * 2019-08-21 2019-11-19 石翊鹏 图像识别跟踪处理方法及系统

Also Published As

Publication number Publication date
CN112287906A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN110335319B (zh) 一种语义驱动的相机定位与地图重建方法和系统
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN110853026B (zh) 一种融合深度学习与区域分割的遥感影像变化检测方法
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN111060115A (zh) 一种基于图像边缘特征的视觉slam方法及系统
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN106815323B (zh) 一种基于显著性检测的跨域视觉检索方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN104200495A (zh) 一种视频监控中的多目标跟踪方法
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
CN111833273B (zh) 基于长距离依赖的语义边界增强方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN111340881B (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
CN109063549B (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN113129335B (zh) 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN107798691A (zh) 一种基于视觉的无人机自主着陆地标实时检测跟踪方法
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
CN113591545A (zh) 一种基于深度学习的多级特征提取网络行人再识别方法
CN111783834B (zh) 一种基于联合图频谱特征分析的异源图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant