CN114119970B - 目标跟踪方法及装置 - Google Patents

目标跟踪方法及装置 Download PDF

Info

Publication number
CN114119970B
CN114119970B CN202210109933.9A CN202210109933A CN114119970B CN 114119970 B CN114119970 B CN 114119970B CN 202210109933 A CN202210109933 A CN 202210109933A CN 114119970 B CN114119970 B CN 114119970B
Authority
CN
China
Prior art keywords
dimension reduction
ridge regression
image
matrix
dynamic dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210109933.9A
Other languages
English (en)
Other versions
CN114119970A (zh
Inventor
王金桥
赵朝阳
于斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202210109933.9A priority Critical patent/CN114119970B/zh
Publication of CN114119970A publication Critical patent/CN114119970A/zh
Application granted granted Critical
Publication of CN114119970B publication Critical patent/CN114119970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标跟踪方法及装置,该目标跟踪方法包括:获取待检测图像和多个已标注图像;基于多个所述已标注图像,确定动态降维矩阵;基于所述已标注图像和所述动态降维矩阵,确定岭回归解析值;基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果。本发明提供的目标跟踪方法及装置,通过基于已标注图像确定动态降维矩阵,利用动态降维矩阵来优化岭回归算法的处理过程,从而能够提高利用岭回归算法的判别能力和泛化能力,提高目标跟踪的精度和鲁棒性。

Description

目标跟踪方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种目标跟踪方法及装置。
背景技术
随着计算机视觉技术的发展,利用图像识别技术进行目标跟踪和目标检测已经在各种场景下得到应用,目标跟踪是在给定初始图像帧和目标的边框信息的情况下,获得后续图像帧中目标的位置和边框信息。由于在线训练样本的有限性,目标外观的剧烈变化和复杂的背景干扰等因素,目标跟踪技术仍面临许多挑战。
目前存在采用神经网络技术进行目标跟踪的方法,但是现有的方法判别能力和泛化能力较低,得到的跟踪结果精度较低。
发明内容
本发明提供一种目标跟踪方法及装置,用以解决现有技术中判别能力和泛化能力较低,得到的跟踪结果精度较低的缺陷,实现提高利用岭回归算法的判别能力和泛化能力,提高目标跟踪的精度和鲁棒性。
本发明提供一种目标跟踪方法,该目标跟踪方法包括:
获取待检测图像和多个已标注图像;
基于多个所述已标注图像,确定动态降维矩阵;
基于所述已标注图像和所述动态降维矩阵,确定岭回归解析值;
基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果。
根据本发明提供的目标跟踪方法,所述基于多个所述已标注图像,确定动态降维矩阵,包括:
将多个所述已标注图像输入至动态降维模型中,得到所述动态降维矩阵;
其中,所述动态降维模型为以多组样本图像为样本,以与所述样本图像所对应的降维矩阵样本数据为样本标签进行训练得到的。
根据本发明提供的目标跟踪方法,所述将多个所述已标注图像输入至动态降维模型中,得到所述动态降维矩阵,包括:
将多个所述已标注图像输入至所述动态降维模型的特征提取层中,提取到多个参考特征;
将多个所述参考特征输入至所述动态降维模型的卷积层中,得到融合特征;
将所述融合特征输入至所述动态降维模型的反卷积层中,得到低层次正交基矩阵和高层次正交基矩阵;
对所述低层次正交基矩阵和所述高层次正交基矩阵进行重组,得到所述动态降维矩阵。
根据本发明提供的目标跟踪方法,所述基于所述已标注图像和所述动态降维矩阵,确定岭回归解析值,包括:
将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值;
其中,所述岭回归模型为样本图像和样本降维矩阵为样本,以与所述样本图像和所述样本降维矩阵所对应的岭回归解析值样本数据为样本标签进行训练得到的。
根据本发明提供的目标跟踪方法,所述将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值,包括:
将所述已标注图像输入至所述动态降维模型的特征提取层中,提取到待降维特征;
将所述待降维特征输入至所述动态降维模型的降维层中,将所述动态降维矩阵作为所述降维层的权重,得到岭回归解析值。
根据本发明提供的目标跟踪方法,所述基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果,包括:
提取所述待检测图像的检测特征;
基于公式:
Figure 299134DEST_PATH_IMAGE001
确定目标定位结果,其中,
Figure 992152DEST_PATH_IMAGE002
表示所述目标定位结果,
Figure 677211DEST_PATH_IMAGE003
表示所述待检测图像的检 测特征,
Figure 762979DEST_PATH_IMAGE004
表示所述检测特征的转置运算,
Figure 584305DEST_PATH_IMAGE005
表示所述动态降维矩阵,
Figure 985242DEST_PATH_IMAGE006
表示所述岭回归解 析值。
根据本发明提供的目标跟踪方法,所述多个已标注图像为在间隔目标帧数后,基于初始标注图像和所述目标定位结果进行更新得到的。
本发明还提供一种目标跟踪装置,该目标跟踪装置包括:
获取模块,用于获取待检测图像和多个已标注图像;
第一确定模块,用于基于多个所述已标注图像,确定动态降维矩阵;
第二确定模块,用于基于所述已标注图像和所述动态降维矩阵,确定岭回归解析值;
第三确定模块,用于基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标跟踪方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法的步骤。
本发明提供的目标跟踪方法及装置,通过基于已标注图像确定动态降维矩阵,利用动态降维矩阵来优化岭回归算法的处理过程,从而能够提高利用岭回归算法的判别能力和泛化能力,提高目标跟踪的精度和鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标跟踪方法的流程示意图;
图2是本发明提供的目标跟踪方法的原理示意图;
图3是本发明提供的目标跟踪装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的目标跟踪方法及装置。
该目标跟踪方法可以用于对连续帧图像中的目标进行跟踪,连续帧图像可以为视频数据,比如可以用边框的形式在待检测图像中标识出目标所处区域,当多个待检测图像以连续帧图像的形式连续出现时,就能够通过目标跟踪方法对连续帧图像中的目标所处的区域进行定位跟踪。
如图1所示,本发明提供一种目标跟踪方法,包括如下步骤110至步骤140。
步骤110、获取待检测图像和多个已标注图像。
可以理解的是,待检测图像是需要进行目标定位的当前图像,可以是从视频数据中截取出的某一帧当前图像,多个已标注图像可以是已经对图像中的目标用边框的形式标注出来目标位置的图像,此处已标注图像的数量可以为3张或者3张以上,3张已标注图像可以完全相同,当已标注图像为3张以上时,其中3张已标注图像可以完全相同。
步骤120、基于多个已标注图像,确定动态降维矩阵。
可以理解的是,动态降维矩阵为从多个已标注图像中提取出来,比如可以从3张相同的已标注图像中提取出来,动态降维矩阵用于降低从已标注图像中提取出来的高维特征的纬度,找到合适的特征纬度,从而解决图像识别过程中的过拟合风险以及泛化性能低的问题,实现获得较强的判别能力和泛化能力。
此处可以使用神经网络模型的形式来实现对多个已标注图像的动态降维处理,当然可以使用特征提取的其他非机器学习算法来实现,此处不对具体的动态降维过程进行限定。
如图2所示,在一些实施例中,上述步骤120、基于多个已标注图像,确定动态降维矩阵,包括:将多个已标注图像输入至动态降维模型中,得到动态降维矩阵;其中,动态降维模型为以多组样本图像为样本,以与样本图像所对应的降维矩阵样本数据为样本标签进行训练得到的。
可以理解的是,动态降维模型可以通过大量的多组样本图像以及预先标记的降维矩阵样本数据来进行训练,可以通过有监督学习的方式确保动态降维模型的训练准确度。
动态降维模型所使用的深度学习神经网络能够对输入的多组样本图像中的特征进行挑拣,将每个特征用于得到一个输出结果,将每个输出结果都和样本标签进行比对,经过比对符合要求的特征可以保留下来,而经过比对不符合要求的特征通过Loss参数进行忽略,经过对输入的大量多组样本图像的不断迭代训练,可以最终学会那些需要记忆的核心特征,并将不同的核心特征进行分类,最终可以根据这些核心特征来对新输入的已标注图像进行判别。
在对动态降维模型进行训练之前,深度学习神经网络的卷积层的滤波器是完全随机的,其不会对任何特征激活,也就是不能检测到任何特征,在训练的过程中,对空白的滤波器修改权重以使其能够检测特定的场景,这正是一种有监督学习方式,基于这种有监督学习方式,深度学习神经网络能够自行学习需要出核心特征,以根据这些核心特征来对新输入的已标注图像进行判别。
如图2所示,在一些实施例中,将多个已标注图像输入至动态降维模型中,得到动态降维矩阵,包括:将多个已标注图像输入至动态降维模型的特征提取层中,提取到多个参考特征;将多个参考特征输入至动态降维模型的卷积层中,得到融合特征;将融合特征输入至动态降维模型的反卷积层中,得到低层次正交基矩阵和高层次正交基矩阵;对低层次正交基矩阵和高层次正交基矩阵进行重组,得到动态降维矩阵。
该动态降维模型用于学习生成合适的正交降维矩阵,即:
Figure 626439DEST_PATH_IMAGE007
其中
Figure 515898DEST_PATH_IMAGE008
代表该动态降维模型,
Figure 440997DEST_PATH_IMAGE009
为输入的已标注图像的参考特征,
Figure 492130DEST_PATH_IMAGE011
为动态 降维模型在训练过程中需要学习的常量,参考特征
Figure 886202DEST_PATH_IMAGE009
被用来端到端地训练
Figure 563040DEST_PATH_IMAGE012
,训练目 标为最小化正交限制的回归损失,这样可用于获得有强泛化能力的模型,动态降维模型的 优化问题可以设计为:
Figure 358957DEST_PATH_IMAGE013
其中,
Figure 846571DEST_PATH_IMAGE015
,Z表示已标注图像,
Figure 711627DEST_PATH_IMAGE016
包含了N个D维度的特 征,并且:
Figure 677309DEST_PATH_IMAGE017
在利用大规模已标注图像训练完后,最优解
Figure 327733DEST_PATH_IMAGE018
将拥有较好的泛化性能且 能通过子网络和解析公式高效获得,
Figure 235515DEST_PATH_IMAGE019
表示动态降维矩阵。
为了高效获取足够数量的动态降维矩阵,可以通过动态降维矩阵在特征的每一个 空间位置预测一个动态降维矩阵。该动态降维矩阵的投影头网络部分仅包含必要的卷积和 反卷积层。来自三个已标注图像的参考特征首先通过卷积层进行特征融合,再通过反卷积 层增加特征分辨率以获得足够的动态降维矩阵,最后将低层次正交基矩阵
Figure 338601DEST_PATH_IMAGE020
和高层次正 交基矩阵
Figure 373553DEST_PATH_IMAGE021
重组构成最终的投影矩阵,即
Figure 862172DEST_PATH_IMAGE022
其中:
Figure 691588DEST_PATH_IMAGE023
Figure 531236DEST_PATH_IMAGE024
为全零矩阵,通过投影矩阵P,动态降维模型的参数 量将从1024降低到370维。
动态降维模型的训练损失采用正交损失和回归损失,其中正交损失为:
Figure 838721DEST_PATH_IMAGE025
可以同时对动态降维模型中的特征提取层进行训练,形式为:
Figure 463737DEST_PATH_IMAGE026
其中
Figure 713322DEST_PATH_IMAGE027
Figure 525420DEST_PATH_IMAGE028
得到动态降维模型的最终损失为:
Figure 167754DEST_PATH_IMAGE029
其中,
Figure 625106DEST_PATH_IMAGE030
为平衡损失的超参数。
步骤130、基于已标注图像和动态降维矩阵,确定岭回归解析值。
可以理解的是,岭回归算法能够在给定任意正交基向量的情况下得到解析值,此处动态降维矩阵就是一种正交基向量,可以利用动态降维矩阵结合岭回归算法对已标注图像进行处理,得到岭回归解析值,岭回归解析值能够用于对待检测图像的目标位置进行定位。
如图2所示,在一些实施例中,上述步骤130、基于已标注图像和动态降维矩阵,确定岭回归解析值,包括:将已标注图像和动态降维矩阵输入至岭回归模型中,得到岭回归模型输出的岭回归解析值;其中,岭回归模型为样本图像和样本降维矩阵为样本,以与样本图像和样本降维矩阵所对应的岭回归解析值样本数据为样本标签进行训练得到的。
可以理解的是,岭回归模型可以通过大量的样本图像以及预先标记的样本降维矩阵来进行训练,可以通过有监督学习的方式确保岭回归模型的训练准确度。
岭回归模型所使用的深度学习神经网络能够对输入的样本图像中的特征进行挑拣,将每个特征用于得到一个输出结果,将每个输出结果都和样本标签进行比对,经过比对符合要求的特征可以保留下来,而经过比对不符合要求的特征通过Loss参数进行忽略,经过对输入的大量样本图像的不断迭代训练,可以最终学会那些需要记忆的核心特征,并将不同的核心特征进行分类,最终可以根据这些核心特征来对新输入的已标注图像和动态降维矩阵进行判别。
在对岭回归模型进行训练之前,深度学习神经网络的卷积层的滤波器是完全随机的,其不会对任何特征激活,也就是不能检测到任何特征,在训练的过程中,对空白的滤波器修改权重以使其能够检测特定的场景,这正是一种有监督学习方式,基于这种有监督学习方式,深度学习神经网络能够自行学习需要出核心特征,以根据这些核心特征来对新输入的已标注图像和动态降维矩阵进行判别。
如图2所示,在一些实施例中,将已标注图像和动态降维矩阵输入至岭回归模型中,得到岭回归模型输出的岭回归解析值,包括:将已标注图像输入至动态降维模型的特征提取层中,提取到待降维特征;将待降维特征输入至动态降维模型的降维层中,将动态降维矩阵作为降维层的权重,得到岭回归解析值。
可以理解的是,岭回归优化问题为:
Figure 796324DEST_PATH_IMAGE031
其中,
Figure 361298DEST_PATH_IMAGE032
Figure 259853DEST_PATH_IMAGE033
由N个D维的训练样本构成,
Figure 859461DEST_PATH_IMAGE034
为高斯标签,
Figure 201581DEST_PATH_IMAGE035
为正则化参数。
可以推导出,若
Figure 237539DEST_PATH_IMAGE036
,该优化问题得到的岭回归模型将会过拟合且造成泛化力 下降。
为了找到相比原空间更低维度的子空间来提升泛化能力,该方法构造正交约束的岭回归模型如下,
Figure 956096DEST_PATH_IMAGE037
,其中动态降维矩阵
Figure 144632DEST_PATH_IMAGE038
,且
Figure 906921DEST_PATH_IMAGE039
Figure 446486DEST_PATH_IMAGE040
。此时,新的优化问题构造为:
Figure 703155DEST_PATH_IMAGE041
其中,
Figure 11777DEST_PATH_IMAGE042
是一个单位矩阵,若
Figure 944967DEST_PATH_IMAGE043
,则训练样本的特征维度通过P 矩阵的投影从D维降到了M维,P约束为列正交。这样,通过一个合适维度的岭回归解析值
Figure 440670DEST_PATH_IMAGE044
可以保持岭回归模型充足的判别力并且减少岭回归模型过拟合的风险。
为了求解新的优化问题的解
Figure 750298DEST_PATH_IMAGE045
可以构造该问题的拉格朗日形式为:
Figure 647846DEST_PATH_IMAGE046
Figure 768249DEST_PATH_IMAGE048
因此,拉格朗日问题的KKT条件为:
Figure 266095DEST_PATH_IMAGE049
也就是:
Figure 864567DEST_PATH_IMAGE050
其中,
Figure 616622DEST_PATH_IMAGE051
为单位阵,假设
Figure 422773DEST_PATH_IMAGE052
足够大,可以从上式推导出:
Figure 893069DEST_PATH_IMAGE053
容易看出,正交约束优化问题的最小值可以通过将上式带入KKT条件中获得,这是 因为
Figure 29652DEST_PATH_IMAGE054
是原优化问题的最优解,且
Figure 422499DEST_PATH_IMAGE037
另外,
Figure 884705DEST_PATH_IMAGE055
可以通过用
Figure 576717DEST_PATH_IMAGE056
代替KKT条件中的
Figure 297417DEST_PATH_IMAGE057
获得。
因此,KKT条件是正交约束的优化问题的充分必要条件,给定任意的动态降维矩阵
Figure 24065DEST_PATH_IMAGE058
,根据KKT条件对于一个足够大的
Figure 657172DEST_PATH_IMAGE052
,可以推导出:
Figure 351327DEST_PATH_IMAGE059
那么,
Figure 95292DEST_PATH_IMAGE060
即为正交约束岭回归优化问题的最优解。
然而,不同的
Figure 942025DEST_PATH_IMAGE060
不意味着岭回归模型有相同的泛化能力,因此需要获得 一个合适的
Figure 995301DEST_PATH_IMAGE058
和对应的
Figure 661906DEST_PATH_IMAGE044
来获得跟踪任务中强的泛化能力,即通过该方法提供的动态 降维模型来获得合适的动态降维矩阵。
可以先将单帧的岭回归优化问题拓展到多帧上,具体形式为
Figure 475141DEST_PATH_IMAGE061
其中T为历史帧个数,也就是已标注图像的数量,
Figure 425648DEST_PATH_IMAGE062
为第t帧的已标注图像特征矩 阵,提取出参考特征U,岭回归解析值可以通过下式和动态降维模型获得:
Figure 134978DEST_PATH_IMAGE063
Figure 820037DEST_PATH_IMAGE064
其中,
Figure 155073DEST_PATH_IMAGE065
表示岭回归解析值,
Figure 976398DEST_PATH_IMAGE067
表示动态降维矩阵。
步骤140、基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果。
可以理解的是,在确定了动态降维矩阵和岭回归解析值,就可以利用动态降维矩阵和岭回归解析值对待检测图像进行处理,从而能够从待检测图像中标注出目标定位结果,目标定位结果可以是以边框的形式从待检测图像中标注出目标位置。
如图2所示,在一些实施例中,基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果,包括:
提取待检测图像的检测特征;
基于公式:
Figure 856629DEST_PATH_IMAGE001
确定目标定位结果,其中,
Figure 747094DEST_PATH_IMAGE002
表示目标定位结果,
Figure 902132DEST_PATH_IMAGE003
表示待检测图像的检测特征,
Figure 312385DEST_PATH_IMAGE004
表示检测特征的转置运算,
Figure 878364DEST_PATH_IMAGE005
表示动态降维矩阵,
Figure 272436DEST_PATH_IMAGE006
表示岭回归解析值。
本发明提供的目标跟踪方法,通过基于已标注图像确定动态降维矩阵,利用动态降维矩阵来优化岭回归算法的处理过程,从而能够提高利用岭回归算法的判别能力和泛化能力,提高目标跟踪的精度和鲁棒性。
在一些实施例中,多个已标注图像为在间隔目标帧数后,基于初始标注图像和目标定位结果进行更新得到的。
当预测得到的目标定位结果的置信度较低时,将基于目标定位结果得到的已标注图像作为训练样本加入动态降维模型和岭回归模型的训练集中,岭回归模型的训练集,容量可以为50帧,当根据目标定位结果得到的已标注图像超过容量则舍弃最早的训练样本。
当然,也可以对动态降维模型训练集进行更新,方式如下,
Figure DEST_PATH_IMAGE068
其中,
Figure DEST_PATH_IMAGE069
Figure DEST_PATH_IMAGE070
为加权参数。
此时,用于训练动态降维模型的三张已标注图像是相同的,可以设置目标帧数为10帧,这样就能够在每间隔10帧已标注图像时更新一次动态降维模型。
对动态降维模型和岭回归模型进行训练的过程可以为:从训练数据集GOT-10k,LaSOT和TrackingNet中提取随机视频序列;从提取视频序列中随机选取五帧图像,以目标为中心裁剪出4×4倍目标区域大小的图像,也就是进行标注过程,其中三帧作为基图像用于提取参考特征,另一帧作为训练图像,剩下一帧作为测试图像,对其中的训练图像进行颜色抖动,位置抖动和尺度抖动以扩增数据降低过拟合,将训练图像和测试图像尺度归一化到256×256大小以作为特征提取层的输入,特征提取网络采用ResNet50作为主干网络,提取主干网络的block3和block4特征后对再对训练和测试图像均匀提取N=961个RoI,每个RoI特征通过一个池化层和一个全连接层获得,分别得到512维的特征向量,将特征向量串联得到1024维度的RoI特征,这些将构成训练样本特征和测试样本特征。
参考特征提取和动态降维矩阵的获得:通过对三帧基图像提取主干网络特征,对每一帧图像获得block3特征和block4特征,再利用目标RoI和一个池化层获得4×4×256和8×8×512的特征,将三帧图像的参考特征串联,再通过一个卷积层得到4×4×512和8×8×512的特征,再分别通过一个反卷积层得到9×9×256和17×17×512的特征,特征维度重组得到512×81和512×289维的两个投影矩阵,通过前述方式重组得到1024×370的动态降维矩阵。
岭回归模型的训练过程可以为:将解析求解过程嵌入到网络前向和反向操作中,降维层即为一个动态全连接层,权重即为动态降维矩阵。利用降维层对训练样本和测试样本降维,最后计算出在测试样本上的响应图,根据响应图计算训练损失,更新网络参数。
可以采用随机梯度下降法训练,每个minibatch包含32组基图像训练图像和测试图像,训练迭代次数为50,训练学习率设为0.005,每15次迭代后学习率衰减为原来的20%。
在本实施例中,在线测试阶段的具体步骤详述如下:初始化判别性跟踪模型:提取训练样本特征和目标特征,计算初始回归模型;目标位置和边框预测:给定新的测试图像,提取测试样本特征,利用回归模型计算出响应图。根据响应图选择最大的位置作为最终的目标定位结果;边框回归与模型更新:根据定位结果利用ATOM方法获得目标边框,模型的更新如前述,其中的更新参数γ设为0.01。
下面对本发明提供的目标跟踪装置进行描述,下文描述的目标跟踪装置与上文描述的目标跟踪方法可相互对应参照。
如图3所示,本发明还提供一种目标跟踪装置,该目标跟踪装置包括:获取模块310、第一确定模块320、第二确定模块330和第三确定模块340。
获取模块310,用于获取待检测图像和多个已标注图像。
第一确定模块320,用于基于多个已标注图像,确定动态降维矩阵。
第二确定模块330,用于基于已标注图像和动态降维矩阵,确定岭回归解析值。
第三确定模块340,用于基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果。
本发明提供的目标跟踪装置,通过基于已标注图像确定动态降维矩阵,利用动态降维矩阵来优化岭回归算法的处理过程,从而能够提高利用岭回归算法的判别能力和泛化能力,提高目标跟踪的精度和鲁棒性。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行目标跟踪方法,该方法包括:获取待检测图像和多个已标注图像;基于多个已标注图像,确定动态降维矩阵;基于已标注图像和动态降维矩阵,确定岭回归解析值;基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标跟踪方法,该方法包括:获取待检测图像和多个已标注图像;基于多个已标注图像,确定动态降维矩阵;基于已标注图像和动态降维矩阵,确定岭回归解析值;基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标跟踪方法,该方法包括:获取待检测图像和多个已标注图像;基于多个已标注图像,确定动态降维矩阵;基于已标注图像和动态降维矩阵,确定岭回归解析值;基于待检测图像、动态降维矩阵以及岭回归解析值,确定目标定位结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种目标跟踪方法,其特征在于,包括:
获取待检测图像和多个已标注图像,所述已标注图像是对图像中的目标用边框的形式标注出来目标位置的图像;
将多个所述已标注图像输入至动态降维模型中,得到动态降维矩阵;
将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值;
基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果;
其中,所述将多个所述已标注图像输入至动态降维模型中,得到动态降维矩阵,包括:将多个所述已标注图像输入至动态降维模型的特征提取层中,提取到多个参考特征;将多个所述参考特征输入至所述动态降维模型的卷积层中,得到融合特征;将所述融合特征输入至所述动态降维模型的反卷积层中,得到低层次正交基矩阵和高层次正交基矩阵;对所述低层次正交基矩阵和所述高层次正交基矩阵进行重组,得到所述动态降维矩阵;
所述将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值,包括:将所述已标注图像输入至岭回归模型的特征提取层中,提取到待降维特征;将所述待降维特征输入至所述岭回归模型的降维层中,将所述动态降维矩阵作为所述降维层的权重,得到岭回归解析值;
所述基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果,包括:提取所述待检测图像的检测特征;
基于公式:
Figure DEST_PATH_IMAGE001
确定目标定位结果,其中,
Figure 474604DEST_PATH_IMAGE002
表示所述目标定位结果,
Figure DEST_PATH_IMAGE003
表示所述待检测图像的检测特 征,
Figure 876767DEST_PATH_IMAGE004
表示所述检测特征的转置运算,
Figure DEST_PATH_IMAGE005
表示所述动态降维矩阵,
Figure 217749DEST_PATH_IMAGE006
表示所述岭回归解析值。
2.根据权利要求1所述的目标跟踪方法,其特征在于,所述动态降维模型为以多组样本图像为样本,以与所述样本图像所对应的降维矩阵样本数据为样本标签进行训练得到的。
3.根据权利要求1或2所述的目标跟踪方法,其特征在于,所述岭回归模型为以样本图像和样本降维矩阵为样本,以与所述样本图像和所述样本降维矩阵所对应的岭回归解析值样本数据为样本标签进行训练得到的。
4.根据权利要求1或2所述的目标跟踪方法,其特征在于,所述多个已标注图像为在间隔目标帧数后,基于初始标注图像和所述目标定位结果进行更新得到的。
5.一种目标跟踪装置,其特征在于,包括:
获取模块,用于获取待检测图像和多个已标注图像,所述已标注图像是对图像中的目标用边框的形式标注出来目标位置的图像;
第一确定模块,用于将多个所述已标注图像输入至动态降维模型中,得到动态降维矩阵;
第二确定模块,用于将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值;
第三确定模块,用于基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果;
其中,所述将多个所述已标注图像输入至动态降维模型中,得到动态降维矩阵,包括:将多个所述已标注图像输入至动态降维模型的特征提取层中,提取到多个参考特征;将多个所述参考特征输入至所述动态降维模型的卷积层中,得到融合特征;将所述融合特征输入至所述动态降维模型的反卷积层中,得到低层次正交基矩阵和高层次正交基矩阵;对所述低层次正交基矩阵和所述高层次正交基矩阵进行重组,得到所述动态降维矩阵;
所述将所述已标注图像和所述动态降维矩阵输入至岭回归模型中,得到所述岭回归模型输出的岭回归解析值,包括:将所述已标注图像输入至岭回归模型的特征提取层中,提取到待降维特征;将所述待降维特征输入至所述岭回归模型的降维层中,将所述动态降维矩阵作为所述降维层的权重,得到岭回归解析值;
所述基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值,确定目标定位结果,包括:提取所述待检测图像的检测特征;
基于公式:
Figure 883217DEST_PATH_IMAGE001
确定目标定位结果,其中,
Figure 168705DEST_PATH_IMAGE002
表示所述目标定位结果,
Figure 312241DEST_PATH_IMAGE003
表示所述待检测图像的检测特 征,
Figure 570047DEST_PATH_IMAGE004
表示所述检测特征的转置运算,
Figure 203154DEST_PATH_IMAGE005
表示所述动态降维矩阵,
Figure 179200DEST_PATH_IMAGE006
表示所述岭回归解析值。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述目标跟踪方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述目标跟踪方法的步骤。
CN202210109933.9A 2022-01-29 2022-01-29 目标跟踪方法及装置 Active CN114119970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109933.9A CN114119970B (zh) 2022-01-29 2022-01-29 目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109933.9A CN114119970B (zh) 2022-01-29 2022-01-29 目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN114119970A CN114119970A (zh) 2022-03-01
CN114119970B true CN114119970B (zh) 2022-05-03

Family

ID=80361726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109933.9A Active CN114119970B (zh) 2022-01-29 2022-01-29 目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN114119970B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147458B (zh) * 2022-07-21 2023-04-07 北京远度互联科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550161A (zh) * 2018-03-20 2018-09-18 南京邮电大学 一种尺度自适应核相关滤波快速目标跟踪方法
WO2021007984A1 (zh) * 2019-07-18 2021-01-21 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN112528817A (zh) * 2020-12-04 2021-03-19 重庆大学 一种基于神经网络的巡检机器人视觉检测及跟踪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10782095B2 (en) * 2017-11-24 2020-09-22 Huntercraft Limited Automatic target point tracing method for electro-optical sighting system
US12012127B2 (en) * 2019-10-26 2024-06-18 Zoox, Inc. Top-down view object detection and tracking
CN111612816B (zh) * 2020-04-30 2023-10-31 中国移动通信集团江苏有限公司 运动目标跟踪的方法、装置、设备及计算机存储介质
CN111815681A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于深度学习和判别式模型训练的目标跟踪方法及存储器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550161A (zh) * 2018-03-20 2018-09-18 南京邮电大学 一种尺度自适应核相关滤波快速目标跟踪方法
WO2021007984A1 (zh) * 2019-07-18 2021-01-21 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN112528817A (zh) * 2020-12-04 2021-03-19 重庆大学 一种基于神经网络的巡检机器人视觉检测及跟踪方法

Also Published As

Publication number Publication date
CN114119970A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN109284733B (zh) 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
CN113361495B (zh) 人脸图像相似度的计算方法、装置、设备及存储介质
US20120093396A1 (en) Digital image analysis utilizing multiple human labels
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN112016400B (zh) 一种基于深度学习的单类目标检测方法、设备及存储介质
CN111401387B (zh) 异常样本构建方法、装置、计算机设备和存储介质
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
CN114119970B (zh) 目标跟踪方法及装置
CN111291712B (zh) 基于插值的cn和胶囊网络的森林火灾识别方法及装置
CN114118303B (zh) 基于先验约束的人脸关键点检测方法及装置
CN111652080A (zh) 基于rgb-d图像的目标跟踪方法和装置
CN110751163B (zh) 目标定位方法及其装置、计算机可读存储介质和电子设备
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
CN115631526A (zh) 基于自监督学习技术的被遮挡的人脸表情识别方法及应用
CN111428565B (zh) 一种基于深度学习的点云标识点定位方法及装置
CN113971737A (zh) 用于机器人的物体识别方法、电子设备、介质和程序产品
KR20180082680A (ko) 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质
CN116385442B (zh) 一种基于深度学习的虚拟装配缺陷检测方法
CN115705684A (zh) 合成孔径雷达影像变化检测方法和装置
CN118262416A (zh) 行为识别方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant