CN113393494A - 模型训练及目标跟踪方法、装置、电子设备和存储介质 - Google Patents
模型训练及目标跟踪方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113393494A CN113393494A CN202110648666.8A CN202110648666A CN113393494A CN 113393494 A CN113393494 A CN 113393494A CN 202110648666 A CN202110648666 A CN 202110648666A CN 113393494 A CN113393494 A CN 113393494A
- Authority
- CN
- China
- Prior art keywords
- model
- preset
- student
- target tracking
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 116
- 238000010586 diagram Methods 0.000 claims description 62
- 230000015654 memory Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Educational Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Image Analysis (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
Abstract
本公开提供了一种模型训练及目标跟踪方法、装置、电子设备和存储介质,模型训练方法包括:获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,训练后的学生模型用于进行目标跟踪处理。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种模型训练及目标跟踪方法、装置、电子设备和存储介质。
背景技术
视觉目标跟踪,即对图像序列中的运动目标进行检测、提取、识别和跟踪,从而获得运动目标的运动轨迹等信息。
目前,视觉目标跟踪的实现主要采用基于传统滤波的目标跟踪算法或基于深度学习的目标跟踪算法。其中,基于传统滤波的目标跟踪算法,其处理速度快,运行效率高且便于实现和集成,然而,在面临密集、速度变化较大的场景时,该算法表现不稳定,难以达到实际应用需求,此外,由于传统滤波算法的局限性,难以对算法进行优化,精度较低。基于深度学习的目标跟踪算法,可以在复杂场景下准确并稳定的实现目标跟踪任务,但是,对硬件需求较高,运行效率较低。
发明内容
本公开实施例期望提供一种模型训练及目标跟踪方法、装置、电子设备和存储介质。
本公开实施例的技术方案是这样实现的:
本公开实施例提供了一种模型训练方法,所述方法包括:
获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;
利用所述至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;
利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,所述训练后的学生模型用于进行目标跟踪处理。
在上述方法中,所述利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,包括:
利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图;
计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数;
计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数;
基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型。
在上述方法中,所述预设训练样本包括:预设模板图像和预设跟踪图像,所述利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图,包括:
利用所述至少两个预训练的教师模型中每个模型,分别根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述至少两个教师特征图;
利用所述预设的学生模型,根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述学生特征图。
在上述方法中,所述计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数,包括:
对所述至少两个教师特征图进行加权求和,得到第一教师特征图;
将所述第一教师特征图调整至与所述学生特征图尺寸相同的特征图,得到第二教师特征图;
计算所述学生特征图与所述第二教师特征图之间的损失信息,得到所述第一损失函数。
在上述方法中,所述计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数,包括:
计算所述学生特征图和所述标准特征图之间的分类损失函数;
计算所述学生特征图和所述标准特征图之间的回归损失函数;
基于所述分类损失函数和所述回归损失函数,确定所述第二损失函数。
在上述方法中,所述基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型,包括:
对所述第一损失函数和所述第二损失函数进行加权求和,得到目标损失函数;
基于所述目标损失函数对所述预设的学生模型进行调整,得到所述训练后的学生模型。
本公开实施例提供了一种目标跟踪方法,包括:
获取目标跟踪图像和目标模板图像;
利用训练后的学生模型,根据所述目标跟踪图像和所述目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,所述训练后的学生模型是通过上述模型训练方法训练得到的。
本公开实施例提供了一种模型训练装置,包括:
样本获取模块,用于获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;
模型训练模块,用于利用所述至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,所述训练后的学生模型用于进行目标跟踪处理。
在上述装置中,所述模型训练模块,具体用于利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图;计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数;计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数;基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型。
在上述装置中,所述预设训练样本包括:预设模板图像和预设跟踪图像,所述模型训练模块,具体用于利用所述至少两个预训练的教师模型中每个模型,分别根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述至少两个教师特征图;利用所述预设的学生模型,根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述学生特征图。
在上述装置中,所述模型训练模块,具体用于对所述至少两个教师特征图进行加权求和,得到第一教师特征图;将所述第一教师特征图调整至与所述学生特征图尺寸相同的特征图,得到第二教师特征图;计算所述学生特征图与所述第二教师特征图之间的损失信息,得到所述第一损失函数。
在上述装置中,所述模型训练模块,具体用于计算所述学生特征图和所述标准特征图之间的分类损失函数;计算所述学生特征图和所述标准特征图之间的回归损失函数;基于所述分类损失函数和所述回归损失函数,确定所述第二损失函数。
在上述装置中,所述模型训练模块,具体用于对所述第一损失函数和所述第二损失函数进行加权求和,得到目标损失函数;基于所述目标损失函数对所述预设的学生模型进行调整,得到所述训练后的学生模型
本公开实施例提供了一种目标跟踪装置,包括:
图像获取模块,用于获取待处理图像和目标模板图像;
目标跟踪模块,用于利用训练后的学生模型,对所述目标跟踪图像和所述目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,所述训练后的学生模型是通过上述模型训练方法训练得到的。
本公开实施例提供了一种电子设备,所述电子设备包括:处理器、存储器和通信总线;其中,
所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
所述处理器,用于执行所述存储器中存储的一个或者多个程序,以实现上述模型训练方法,以及上述目标跟踪方法。
本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述模型训练方法,以及上述目标跟踪方法。
本公开实施例提供了一种模型训练方法,包括:获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,训练后的学生模型用于进行目标跟踪处理。本公开实施例提供的模型训练方法,利用不同类别的预训练的教师模型进行知识蒸馏,并结合常规训练的方式进行学生模型的训练,得到的训练后的学生模型不仅精度较高,而且运行效率较高。
附图说明
图1为本公开实施例提供的一种模型训练方法的流程示意图;
图2(a)为本申请实施例提供的一种示例性的预设的教师模型的结构示意图;
图2(b)为本申请实施例提供的一种示例性的双孪生位置建议网络的结构示意图;
图3为本申请实施例提供的一种示例性的预设的学生模型的训练过程示意图;
图4为本公开实施例提供的一种目标跟踪方法的流程示意图;
图5为本公开实施例提供的一种模型训练装置的结构示意图;
图6为本申请实施例提供的一种目标跟踪装置的结构示意图;
图7为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
本公开实施例提供了一种模型训练方法,其执行主体可以是模型训练装置,例如,模型训练方法可以由终端设备或服务器或其它电子设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
本公开实施例提供了一种模型训练方法。图1为本公开实施例一种模型训练方法的流程示意图一。如图1所示,模型训练方法主要包括以下步骤:
S101、获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集。
在本公开的实施例中,模型训练装置在进行模型训练之前,可以先获取不同目标跟踪类别对应的训练样本集,从而得到至少两个训练样本集。
需要说明的是,在本公开的实施例中,目标跟踪类别可以根据实际需求选择,针对每个目标跟踪类别,模型训练装置均可以获取到对应的训练样本集。其中,每个训练样本集中,均包括对应目标跟踪类别的样本,每个样本包括模板图像和需要进行目标跟踪的图像,具体的每个训练样本集中的样本数量本申请实施例不作限定。
需要说明的是,在本公开的实施例中,模型训练装置可以直接获取到至少两个训练样本集,也可以先获取到不同目标跟踪类别的样本,从而将同一目标跟踪类别的样本划分到一个训练样本集中,得到至少两个训练样本集。具体的至少两个训练样本集的获取方式本申请实施例不作限定。
S102、利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型。
在本公开的实施例中,模型训练装置在获得至少两个训练样本集之后,进一步的,利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,从而得到至少两个预训练的教师模型。
需要说明的是,在本公开的实施例中,模型训练装置中存储有预设的教师模型,预设的教师模型可以是resnet50模型,为重量级模型,当然,也可以是其它特定的模型,具体的预设的教师模型可以根据实际需求确定,本申请实施例不作限定。
图2(a)为本申请实施例提供的一种示例性的预设的教师模型的结构示意图。如图2所示,在本公开的实施例中,对于一个训练样本集中的一个样本,其包括对应的模板图像1和跟踪图像1,模板图像1中显示了跟踪对象,例如,人或车等,模型训练装置可以分别将其输入图2所示的网络层,进行三次特征提取,从而分别经过双孪生位置建议网络,进行多层特征的融合,并进一步进行回归和分类,将三次结果加权求和,得到最终的结果,其包括分类结果和分类结果,并与预设的标准结果进行损失函数的计算,从而进行相应模型的训练。其中,每个双孪生位置建议网络的结构如图2(b)所示,其中,F1(Z)和F1(x)为图2(a)中上下对应的一组特征提取结果,B1和S1为相应的一组分类结果和回归结果。
示例性的,在本公开的实施例中,模型训练装置可以获取目标跟踪类别为人物对应的第一训练样本集,以及为车辆对应的第二训练样本集,之后,利用第一训练样本集对预设的教师模型进行训练,从而得到用于实现人物跟踪的预训练的教师模型,此外,利用第二训练样本集对预设的教师模型训练,从而得到用于实现车辆跟踪的预训练的教师模型,
需要说明的是,在本公开的实施例中,模型训练装置利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练的方式,可以根据实际运算能力进行设置,本申请实施例不作限定。
可以理解的是,在本公开的实施例中,模型训练装置训练出的每个预训练的教师模型,在其采用的样本训练集对应的目标跟踪类别上,具有较高的精度,能够很好的实现该类别对象的跟踪。
S103、利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,训练后的学生模型用于进行目标跟踪处理。
在本公开的实施例中,模型训练装置在得到至少两个预训练的教师模型之后,可以利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏的方式,进行预设的学生模型的训练,从而得到训练后的学生模型。
需要说明的是,在本公开的实施例中,模型训练装置中存储有预设的学生模型,预设的学生模型可以根据实时性要求设计,为轻量级模型,其与教师模型相比,大小可以是教师模型的百分之一。具体的预设的学生模型本申请实施例不作限定。
具体的,在本公开的实施例中,模型训练装置利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,包括:利用至少两个预训练的教师模型和预设训练样本,确定至少两个教师特征图,并利用预设的学生模型和预设训练样本,确定学生特征图;计算学生特征图和至少两个教师特征图之间的损失信息,得到第一损失函数;计算学生特征图和预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数;基于第一损失函数和第二损失函数,对预设的学生模型进行调整,得到训练后的学生模型。而在调整(训练)学生模型的过程中,教师模型的参数处于固定状态,并不随训练的过程进行更新。
可以理解的是,在本公开的实施例中,模型训练装置,一方面在模型中间层利用至少两个预训练的教师模型作为监督,另一方面仍然以模型训练的期望结果作为监督,两者结合实现预设的学生模型的训练,从而使训练后的学生模型的性能更佳,精度更高,且训练后的学生模型为轻量级模型,能够提高目标跟踪的效率。
具体的,在本公开的实施例中,预设训练样本包括:预设模板图像和预设跟踪图像,利用至少两个预训练的教师模型,获取预设训练样本对应的至少两个教师特征图,并利用预设的学生模型,获取预设训练样本对应的学生特征图,包括:利用至少两个预训练的教师模型中每个模型,分别根据预设跟踪图像和预设模板图像进行目标跟踪处理,得到至少两个教师特征图;利用预设的学生模型,根据预设跟踪图像和预设模板图像进行目标跟踪处理,得到学生特征图。
需要说明的是,在本公开的实施例中,预设训练样本包括的预设模板图像,即包含跟踪对象的图像,例如,包含需要进行目标跟踪的车或人,预设跟踪图像,即需要进行跟踪对象跟踪的图像,也就是说,需要从中识别出预设模板图像所示的跟踪对象的图像。具体的预设模板图像和预设跟踪图像本申请实施例不作限定。
需要说明的是,在本公开的实施例中,模型训练装置对于每个预训练的教师模型和预设的学生模型,其输入的均为预设模板图像和预设跟踪图像,之后,图像将经过模型内的各个网络层进行特征提取和相关卷积等操作,从而产生相应的图像响应特征图,实现目标跟踪处理,模型训练装置最终通过每个预训练的教师模型可以得到一个教师特征图,通过预设的学生模型得到一个学生特征图,以进行后续处理。
具体的,在本公开的实施例中,模型训练装置在得到学生特征图和至少两个教师特征图之后,计算学生特征图和至少两个教师特征图之间的损失信息,得到第一损失函数,包括:对至少两个教师特征图进行加权求和,得到第一教师特征图;将第一教师特征图调整至与学生特征图尺寸相同的特征图,得到第二教师特征图;计算学生特征图与第二教师特征图之间的损失信息,得到第一损失函数。
需要说明的是,在本公开的实施例中,由于至少两个预训练的教师模型中,每个教师模型分别在一个目标跟踪类别上具有最优的性能,即每个教师模型所侧重的目标跟踪类别不同,因此,至少两个预训练的教师模型中,对于对应的目标跟踪类别,与预设模板所示的跟踪目标的类别相同或相近的模型,其输出的教师特征图对预设的学生模型在进行该目标跟踪类别跟踪性能训练的过程中,监督作用较大,因此,可以对其预设较大的权重,而对于对应的目标跟踪类别,与预设模板所示的跟踪目标的类别完全不同或相差较多的模型,其输出的教师特征图的监督作用较小,因此,可以对其预设较小的权重,甚至权重设置为0,这样,后续可以根据预设的权重对至少两个教师特征图进行加权求和,从而得到第一教师特征图。相应的,后续利用第一教师特征图进行预设的学生模型的训练,其实质上是在预设模板图像所示跟踪对象所属目标跟踪类别上进行优化训练。
示例性的,在本公开的实施例中,在预设训练样本包括的预设模板图像为一特定人物的情况下,可以对至少两个预训练的教师模型中,目标跟踪类别不是人物的模型所输出的教师特征图预设其权重为0,即不对模型训练产生任何影响。
可以理解的是,在本公开的实施例中,由于预训练的教师模型和预设的学生模型的模型大小不同,模型输出的特征图的尺寸不一致,相应的,第一教师特征图和学生特征图的尺寸也不一致,因此,在进行损失信息计算之前,模型训练装置可以将第一教师特征图调整至与学生特征图尺寸相同的特征图,从而得到第二教师特征图。具体的特征图尺寸调整的方式,可以是利用特定的神经网络卷积层,本申请实施例不作限定。
示例性的,在本公开的实施例中,用于实现第一教师特征图尺寸调整的为预设的神经网络卷积层align,第一教师特征图记为Ct,学生特征图记为Cs,因此,模型训练装置可以按照以下公式(1)实现第一损失函数的计算:
Similarity loss=F(CT,Cs)=F(align(Ct),Cs) (1)
其中,Similarity loss为第一损失函数,align(Ct)为第二教师特征图,F为计算相似性的损失函数,例如,L1损失函数,L2损失函数等,可以根据实际需求设定,本申请实施例不作限定。
具体的,在本公开的实施例中,模型训练装置计算学生特征图和标准特征图之间的损失信息,得到第二损失函数,包括:计算学生特征图和标准特征图之间的分类损失函数;计算学生特征图和标准特征图之间的回归损失函数;基于分类损失函数和回归损失函数,确定第二损失函数。
需要说明的是,在本公开的实施例中,模型训练装置中可以存储有标准特征图,该标准特征图实际上就是期望预设训练样本实现目标跟踪得到的特征图,即最优情况下所得到的特征图,因此,模型训练装置还可以基于此,进行第二损失函数的计算,以作为模型训练中另一个监督信息。
需要说明的是,在本公开的实施例中,模型训练装置可以对于学生特征图,利用标准特征图,分别计算两个类型的损失函数,即分类损失函数和回归损失函数,其中,分类损失函数表征了学生特征图和标准特征图之间所示对象类别的差异情况,回归损失函数表征了学生特征图与标准特征图之间所示信息的差异情况。模型训练装置可以基于分类损失函数和回归损失函数确定第二损失函数,例如,对分类损失函数和回归损失函数进行加权求和,或者,平均化处理,具体的确定第二损失函数的方式本申请实施例不作限定。
具体的,在本公开的实施例中,模型训练装置基于第一损失函数和第二损失函数,对预设的学生模型进行调整,得到训练后的学生模型,包括:对第一损失函数和第二损失函数进行加权求和,得到目标损失函数;基于目标损失函数对预设的学生模型进行调整,得到训练后的学生模型。
需要说明的是,在本公开的实施例中,对于第一损失函数和第二损失函数,模型训练装置可以对其均设置权重为1,则实际上目标损失函数为第一损失函数和第二损失函数之和,当然,也可以根据对第一损失函数和第二损失函数的重要性,设置不同的权重,实现目标损失函数的确定,本申请实施例不作限定。
可以理解的是,在本公开的实施例中,对于上述模型训练过程中,一方面,知识蒸馏过程所使用的预训练的教师模型是分类别的至少两个模型,并非单一一个模型,从而可以实现分类别的蒸馏训练,提高学生模型的性能,另一方面,传统的知识蒸馏往往仅采用教师模型的输出进行监督,而本申请在模型中间层采还采用了期望的学生模型的输出结果进行监督,实现模型训练,从而进一步提高了学生模型的性能。
图3为本申请实施例提供的一种示例性的预设的学生模型的训练过程示意图。如图3所示,预训练的教师模型包括:第一教师模型和第二教师模型,预设训练样本包括:预设模板图像和预设跟踪图像,模型训练装置可以将预设训练样本分别输入每个教师模型和学生模型,从而得到相应的特征图,即教师特征图Ca、教师特征图Cp和学生特征图Cs,之后,进行第一教师特征图Ct的确定,其可以是从两个教师特征图择一特定的教师特征图,即一个教师特征图的权重设置为1,需要选择的教师特征图的权重设置为0,之后,进行第一教师特征图Ct尺寸的调整,得到第二教师特征图CT,并进一步与学生特征图Cs进行第一损失函数的计算,此外,学生特征图Cs还与标准特征图进行第二损失函数的计算,从而最终两个损失函数相加,得到目标损失函数,用于进行预设的学生模型的调整。
需要说明的是,在本公开的实施例中,如图3所示,模型训练装置从教师特征图Ca和教师特征图Cp中选取一个教师特征图,作为第一教师特征图Ct,具体可以根据预设训练样本的标签确定,例如,预设训练样本的标签为人体,模型训练装置即可将教师特征图Ca和教师特征图Cp中,由用于跟踪人体的教师模型输出的特征图确定为第一教师特征图Ct,预设训练样本的标签为非人体,模型训练装置则将教师特征图Ca和教师特征图Cp中,由用于跟踪非人体的教师模型输出的特征图确定为第一教师特征图Ct。
本公开实施例提供了一种模型训练方法,包括:获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;利用至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型。本公开实施例提供的模型训练方法,利用不同类别的预训练的教师模型进行知识蒸馏,并结合常规训练的方式进行学生模型的训练,得到的训练后的学生模型不仅精度较高,而且运行效率较高。
本公开实施例提供了一种目标跟踪方法,其执行主体可以是目标跟踪装置,例如,目标跟踪方法可以由终端设备或服务器或其它电子设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,目标跟踪方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
图4为本公开实施例提供的一种目标跟踪方法的流程示意图。如图4所示,目标跟踪方法主要包括以下步骤:
S401、获取目标跟踪图像和目标模板图像。
在本公开的实施例中,目标跟踪装置可以先获取目标跟踪图像和目标模板图像。
需要说明的是,在本公开的实施例中,目标跟踪图像为需要进行目标模板图像所示跟踪对象的图像,目标跟踪图像可以是目标跟踪装置采集到的,也可以是独立的摄像头、服务器或者云端等设备获取到,并进一步传输给目标跟踪装置的图像。具体的目标跟踪图像和目标模板图像的来源本公开实施例不作限定。
S402、利用训练后的学生模型,根据目标跟踪图像和目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,训练后的学生模型是通过上述模型方法训练得到的。
在本公开的实施例中,目标跟踪装置在获取到目标跟踪图像和目标模板图像之后,即可利用训练后的学生模型,根据目标跟踪图像和目标模板图像进行目标跟踪处理,得到目标跟踪结果。
需要说明的是,在本公开的实施例中,图像处理装置利用训练后的学生模型进行目标跟踪处理,其中训练后的学生模型为通过上述模型训练方法训练得到的,能够快速准确的目标跟踪结果。
本公开实施例提供了一种模型训练装置。图5为本公开实施例提供的一种模型训练装置的结构示意图。如图5所示,模型训练装置包括:
样本获取模块501,用于获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;
模型训练模块502,用于利用所述至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,所述训练后的学生模型用于进行目标跟踪处理。
在本公开一实施例中,所述模型训练模块502,具体用于利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图;计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数;计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数;基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型。
在本公开一实施例中,所述预设训练样本包括:预设模板图像和预设跟踪图像,所述模型训练模块502,具体用于利用所述至少两个预训练的教师模型中每个模型,分别根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述至少两个教师特征图;利用所述预设的学生模型,根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述学生特征图。
在本公开一实施例中,所述模型训练模块502,具体用于对所述至少两个教师特征图进行加权求和,得到第一教师特征图;将所述第一教师特征图调整至与所述学生特征图尺寸相同的特征图,得到第二教师特征图;计算所述学生特征图与所述第二教师特征图之间的损失信息,得到所述第一损失函数。
在本公开一实施例中,所述模型训练模块502,具体用于计算所述学生特征图和所述标准特征图之间的分类损失函数;计算所述学生特征图和所述标准特征图之间的回归损失函数;基于所述分类损失函数和所述回归损失函数,确定所述第二损失函数。
在本公开一实施例中,所述模型训练模块502,具体用于对所述第一损失函数和所述第二损失函数进行加权求和,得到目标损失函数;基于所述目标损失函数对所述预设的学生模型进行调整,得到所述训练后的学生模型。
本公开实施例提供了一种目标跟踪装置。图6为本申请实施例提供的一种目标跟踪装置的结构示意图。如图6所示,目标跟踪装置包括:
图像获取模块601,用于获取待处理图像和目标模板图像;
目标跟踪模块602,用于利用训练后的学生模型,对所述目标跟踪图像和所述目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,所述训练后的学生模型是通过上述模型训练方法训练得到的。
本公开实施例提供了一种电子设备,图7为本公开实施例提供的一种电子设备的结构示意图。如图7所示,电子设备包括:处理器701、存储器702和通信总线703;其中,
所述通信总线703,用于实现所述处理器701和所述存储器702之间的连接通信;
所述处理器701,用于执行所述存储器702中存储的一个或多个程序,以实现上述模型训练方法,以及上述目标跟踪方法。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述模型训练方法,以及上述目标跟踪方法。计算机可读存储介质可以是是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);也可以是包括上述存储器之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信号处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信号处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信号处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信号处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本公开的较佳实施例而已,并非用于限定本公开的保护范围。
Claims (11)
1.一种模型训练方法,其特征在于,所述方法包括:
获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;
利用所述至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;
利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,所述训练后的学生模型用于进行目标跟踪处理。
2.根据权利要求1所述的方法,其特征在于,所述利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,包括:
利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图;
计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数;
计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数;
基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型。
3.根据权利要求2所述的方法,其特征在于,所述预设训练样本包括:预设模板图像和预设跟踪图像,所述利用所述至少两个预训练的教师模型和所述预设训练样本,确定至少两个教师特征图,并利用所述预设的学生模型和所述预设训练样本,确定学生特征图,包括:
利用所述至少两个预训练的教师模型中每个模型,分别根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述至少两个教师特征图;
利用所述预设的学生模型,根据所述预设跟踪图像和所述预设模板图像进行目标跟踪处理,得到所述学生特征图。
4.根据权利要求2或3所述的方法,其特征在于,所述计算所述学生特征图和所述至少两个教师特征图之间的损失信息,得到第一损失函数,包括:
对所述至少两个教师特征图进行加权求和,得到第一教师特征图;
将所述第一教师特征图调整至与所述学生特征图尺寸相同的特征图,得到第二教师特征图;
计算所述学生特征图与所述第二教师特征图之间的损失信息,得到所述第一损失函数。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述计算所述学生特征图和所述预设训练样本对应的标准特征图之间的损失信息,得到第二损失函数,包括:
计算所述学生特征图和所述标准特征图之间的分类损失函数;
计算所述学生特征图和所述标准特征图之间的回归损失函数;
基于所述分类损失函数和所述回归损失函数,确定所述第二损失函数。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数,对所述预设的学生模型进行调整,得到所述训练后的学生模型,包括:
对所述第一损失函数和所述第二损失函数进行加权求和,得到目标损失函数;
基于所述目标损失函数对所述预设的学生模型进行调整,得到所述训练后的学生模型。
7.一种目标跟踪方法,其特征在于,包括:
获取目标跟踪图像和目标模板图像;
利用训练后的学生模型,根据所述目标跟踪图像和所述目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,所述训练后的学生模型是通过权利要求1-6任一项所述的方法训练得到的。
8.一种模型训练装置,其特征在于,包括:
样本获取模块,用于获取不同目标跟踪类别对应的训练样本集,得到至少两个训练样本集;
模型训练模块,用于利用所述至少两个训练样本集中每个样本集,分别对预设的教师模型进行目标跟踪训练,得到至少两个预训练的教师模型;利用预设训练样本,结合所述至少两个预训练的教师模型和知识蒸馏方式,对预设的学生模型进行目标跟踪训练,得到训练后的学生模型,所述训练后的学生模型用于进行目标跟踪处理。
9.一种目标跟踪装置,其特征在于,包括:
图像获取模块,用于获取待处理图像和目标模板图像;
目标跟踪模块,用于利用训练后的学生模型,对所述目标跟踪图像和所述目标模板图像进行目标跟踪处理,得到目标跟踪结果;其中,所述训练后的学生模型是通过权利要求1-6任一项所述的方法训练得到的。
10.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和通信总线;其中,
所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
所述处理器,用于执行所述存储器中存储的一个或者多个程序,以实现权利要求1-6任一项所述的模型训练方法,以及权利要求7所述的目标跟踪方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现权利要求1-6任一项所述的模型训练方法,以及权利要求7所述的目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648666.8A CN113393494A (zh) | 2021-06-10 | 2021-06-10 | 模型训练及目标跟踪方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648666.8A CN113393494A (zh) | 2021-06-10 | 2021-06-10 | 模型训练及目标跟踪方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113393494A true CN113393494A (zh) | 2021-09-14 |
Family
ID=77620274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648666.8A Pending CN113393494A (zh) | 2021-06-10 | 2021-06-10 | 模型训练及目标跟踪方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393494A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091895A (zh) * | 2023-04-04 | 2023-05-09 | 之江实验室 | 一种面向多任务知识融合的模型训练方法及装置 |
US20230316536A1 (en) * | 2022-03-31 | 2023-10-05 | Adobe Inc. | Systems and methods for object tracking |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111242297A (zh) * | 2019-12-19 | 2020-06-05 | 北京迈格威科技有限公司 | 基于知识蒸馏的模型训练方法、图像处理方法及装置 |
CN112199535A (zh) * | 2020-09-30 | 2021-01-08 | 浙江大学 | 一种基于集成知识蒸馏的图像分类方法 |
CN112508120A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 学生模型训练方法、装置、设备、介质和程序产品 |
CN112801209A (zh) * | 2021-02-26 | 2021-05-14 | 同济大学 | 基于双特长教师模型知识融合的图像分类方法及存储介质 |
CN112819050A (zh) * | 2021-01-22 | 2021-05-18 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
-
2021
- 2021-06-10 CN CN202110648666.8A patent/CN113393494A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111242297A (zh) * | 2019-12-19 | 2020-06-05 | 北京迈格威科技有限公司 | 基于知识蒸馏的模型训练方法、图像处理方法及装置 |
CN112199535A (zh) * | 2020-09-30 | 2021-01-08 | 浙江大学 | 一种基于集成知识蒸馏的图像分类方法 |
CN112508120A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 学生模型训练方法、装置、设备、介质和程序产品 |
CN112819050A (zh) * | 2021-01-22 | 2021-05-18 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
CN112801209A (zh) * | 2021-02-26 | 2021-05-14 | 同济大学 | 基于双特长教师模型知识融合的图像分类方法及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230316536A1 (en) * | 2022-03-31 | 2023-10-05 | Adobe Inc. | Systems and methods for object tracking |
CN116091895A (zh) * | 2023-04-04 | 2023-05-09 | 之江实验室 | 一种面向多任务知识融合的模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378264B (zh) | 目标跟踪方法及装置 | |
CN108961327B (zh) | 一种单目深度估计方法及其装置、设备和存储介质 | |
CN108460362B (zh) | 一种检测人体部位的系统及方法 | |
CN109558901B (zh) | 一种语义分割训练方法及装置、电子设备、存储介质 | |
CN113393494A (zh) | 模型训练及目标跟踪方法、装置、电子设备和存储介质 | |
CN111523600A (zh) | 神经网络训练、目标检测、及智能设备控制的方法及装置 | |
CN113011364B (zh) | 神经网络训练、目标对象检测、行驶控制方法及装置 | |
CN116187398B (zh) | 一种无人机海洋图像检测用轻量神经网络搭建方法及设备 | |
CN111311485A (zh) | 图像处理方法及相关装置 | |
CN116824533A (zh) | 一种基于注意力机制的远小目标点云数据特征增强方法 | |
CN112115894A (zh) | 手部关键点检测模型的训练方法、装置及电子设备 | |
CN112967388A (zh) | 三维时序图像神经网络模型的训练方法和装置 | |
CN114359789B (zh) | 视频图像的目标检测方法、装置、设备及介质 | |
CN113409393A (zh) | 用于识别交通标志牌的方法及装置 | |
CN116894802B (zh) | 图像增强方法、装置、计算机设备和存储介质 | |
CN112990009A (zh) | 基于端到端的车道线检测方法、装置、设备及存储介质 | |
CN108874269B (zh) | 一种目标跟踪方法、装置及系统 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN111726526A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN111860287A (zh) | 一种目标检测方法及装置、存储介质 | |
CN111401335A (zh) | 一种关键点检测方法及装置、存储介质 | |
CN115170903A (zh) | 一种车辆场景图像处理方法、系统及电子设备 | |
CN115115947A (zh) | 遥感图像检测方法、装置、电子设备以及存储介质 | |
CN112818743B (zh) | 图像识别的方法、装置、电子设备及计算机存储介质 | |
CN110866535B (zh) | 视差图的获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |