CN114419105A - 多目标行人轨迹预测模型训练方法、预测方法及装置 - Google Patents
多目标行人轨迹预测模型训练方法、预测方法及装置 Download PDFInfo
- Publication number
- CN114419105A CN114419105A CN202210244026.5A CN202210244026A CN114419105A CN 114419105 A CN114419105 A CN 114419105A CN 202210244026 A CN202210244026 A CN 202210244026A CN 114419105 A CN114419105 A CN 114419105A
- Authority
- CN
- China
- Prior art keywords
- target pedestrian
- target
- model
- training
- trajectory prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种多目标行人轨迹预测模型训练方法、预测方法及装置,方法包括:将预先建立的多目标行人轨迹预测模型置于多任务学习框架下,该多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型,采用预先存储的训练数据对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型。在本申请中,在多任务学习框架下对多目标行人跟踪模型以及多目标行人检测模型进行联合训练,可以在训练过程中实现参数共享,从而可以提高模型的训练效果,进而提高多目标行人轨迹预测模型的泛化性和精确度。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种多目标行人轨迹预测模型训练方法、预测方法及装置。
背景技术
多目标跟踪是计算机视觉的重要研究方向。多目标跟踪指的是在视频的后续帧中找到在当前帧中定义的多个目标对象,实现多个目标对象的轨迹预测,其广泛应用于视频监控、人机交互、无人驾驶等领域。但是,多目标跟踪由于具有目标遮挡频繁、轨迹起始和终止时间未知、明显相似性、目标间相互作用等问题,因此对于场景复杂的多目标行人轨迹预测准确性不高。因此,可以将多目标跟踪技术与多目标检测技术共同用于多目标行人轨迹预测,提高多目标行人轨迹预测的准确性。
其中,常见的多目标行人跟踪模型为基于图神经网络的模型,常见的多目标行人检测模型为基于残差神经网络的模型。此外,在进行目标行人轨迹预测之前,需要进行模型训练,目前,常见模型训练方法为分别对多目标行人跟踪模型以及多目标行人检测模型进行训练,获得训练后的多目标行人跟踪模型以及多目标行人检测模型。
但是,上述多目标行人跟踪模型以及多目标行人检测模型的准确性较差,且采用上述方法对多目标行人跟踪模型以及多目标行人检测模型进行训练,由于无法实现参数共享,导致训练后的模型泛化性较差且精确度不高,对于实际应用场景的适用性较差。
发明内容
本申请提供一种多目标行人轨迹预测模型训练方法、预测方法及装置,用以提高多目标行人轨迹预测模型的泛化性和精确度。
第一方面,本申请实施例提供一种多目标行人轨迹预测模型训练方法,包括:
将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于通过获取重识别特征信息对行人进行多目标检测;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行多目标行人的轨迹预测;
获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
可选地,如上所述的方法,所述在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型,包括:
在所述多任务学习框架下,将所述训练数据分别输入所述多目标行人检测模型以及所述多目标行人跟踪模型中;
基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练,获得所述多目标行人检测模型输出的第一特征图,以及所述多目标行人跟踪模型输出的第二特征图;
根据所述第一特征图、所述第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得所述多目标行人检测模型的第一损失函数值,以及所述多目标行人跟踪模型的第二损失函数值;
判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值;
若否,则返回执行基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练的步骤;
若是,则保存所述多目标行人检测模型以及所述多目标行人跟踪模型当前的模型参数,获得训练后的多目标行人轨迹预测模型。
可选地,如上所述的方法,所述方法还包括:
采用不确定性函数计算所述多目标行人检测模型的第一训练权重,以及所述多目标行人跟踪模型的第二训练权重;
所述判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值,包括:
将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值;
判断所述修正后的第一损失函数值与所述修正后的第二损失函数值之和是否小于等于预设值。
可选地,如上所述的方法,所述将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,包括:
将所述第一训练权重与所述第一损失函数值进行乘法处理,获得修正后的第一损失函数值;
所述将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值,包括:
将所述第二训练权重与所述第二损失函数值进行乘法处理,获得修正后的第二损失函数值。
可选地,如上所述的方法,所述获取预先存储的训练数据之前,所述方法还包括:
获取预先采集的包含有多个目标行人的轨迹的视频数据;
对所述视频数据中的每一帧图像进行扩展处理,获得数据集;
对所述数据集中具有所述多个目标行人轨迹的图像进行标注并确定所述标注的标注信息,获得所述训练数据并存储;其中,所述标注信息中包含有所述多个目标行人的标识信息以及所述多个目标行人的目标检测边界框的坐标信息。
可选地,如上所述的方法,所述对所述视频数据中的每一帧图像进行扩展处理,获得数据集,包括:
将所述视频数据中的每一帧图像以随机角度或偏移量进行变换,获得变换后的图像;
将所述变换后的图像加入到所述视频数据中,获得数据集。
第二方面,本申请实施例提供一种基于多目标行人轨迹预测模型的多目标行人轨迹预测方法,包括:
获取待检测的视频数据;
将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用如第一方面所述的方法对多目标行人轨迹预测模型进行训练后获得的;
采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测;
将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
可选地,如上所述的方法,所述采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,包括:
采用所述多目标行人检测模型中的残差神经网络及其并行的重识别网络分支对所述待检测的视频数据中的每一帧图像进行特征提取,获得每一帧图像的重识别特征信息;
采用并行分支解码器对所述每一帧图像的重识别特征信息进行解码,确定所述多个目标行人的目标检测边界框以及所述多个目标行人的标识信息。
可选地,如上所述的方法,所述采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测,包括:
对待检测的视频数据中的每一帧图像进行特征向量化处理,并采用所述多目标行人轨迹预测模型中的图神经网络层以及注意力机制层,基于向量化后的特征确定每一帧图像中的重点区域及重点区域内的特征信息;
采用门控递归单元层基于每一帧图像中的重点区域内的特征信息进行迭代学习,并对多目标行人的轨迹进行预测。
第三方面,本申请实施例提供一种多目标行人轨迹预测模型训练装置,包括:
设置模块,用于将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于在进行目标检测的同时进行目标的重识别;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行轨迹预测;
训练模块,用于获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
第四方面,本申请实施例提供一种基于多目标行人轨迹预测模型的多目标行人轨迹预测装置,包括:
获取模块,用于获取待检测的视频数据;
输入模块,用于将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用如第三方面所述的装置对多目标行人轨迹预测模型进行训练后获得的;
处理模块,用于采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测;
输出模块,用于将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
第五方面,本申请实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面或第二方面所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面或第二方面所述的方法。
本申请提供一种多目标行人轨迹预测模型训练方法、预测方法及装置,将预先建立的多目标行人轨迹预测模型置于多任务学习框架下,该多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型,采用预先存储的训练数据对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型。其中,本申请的多目标行人检测模型相对于现有的多目标行人检测模型增加了重识别网络分支,本申请的多目标行人跟踪模型相对于现有的多目标行人跟踪模型增加了引入注意力机制层以及门控递归单元层,从而可以提高模型的准确性,并且在多任务学习框架下对多目标行人跟踪模型以及多目标行人检测模型进行联合训练,可以在训练过程中实现参数共享,从而可以提高模型的训练效果,进而提高多目标行人轨迹预测模型的泛化性和精确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种系统架构的示意图;
图2为本申请实施例提供的一种多目标行人轨迹预测模型训练方法的流程图;
图3为本申请实施例提供的多目标行人检测模型的结构示意图;
图4为本申请实施例提供的多目标行人跟踪模型的结构示意图;
图5为本申请实施例提供的又一种多目标行人轨迹预测模型训练方法的流程图;
图6为本申请实施例提供的另一种多目标行人轨迹预测模型训练方法的流程图;
图7为本申请实施例提供的一种基于多目标行人轨迹预测模型的多目标行人轨迹预测方法的流程图;
图8为本申请实施例提供的多目标行人轨迹预测模型训练装置的结构示意图;
图9为本申请实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测装置的结构示意图;
图10为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与本申请的一些方面相一致的装置和方法的例子。
随着计算机技术的发展,目标跟踪在日常生活中的应用中越来越广泛。目标跟踪包括单目标跟踪和多目标跟踪,其中,多目标跟踪指的是在视频的后续帧中找到在当前帧中定义的多个目标对象,实现多个目标对象的轨迹预测,其广泛应用于视频监控、人机交互、无人驾驶等领域。但是,多目标跟踪由于具有目标遮挡频繁、轨迹起始和终止时间未知、明显相似性、目标间相互作用等问题,因此对于场景复杂的多目标行人轨迹预测准确性不高。因此,可以将多目标跟踪技术与多目标检测技术共同用于多目标行人轨迹预测,提高多目标行人轨迹预测的准确性。
其中,常见的多目标行人跟踪模型为基于图神经网络的模型,常见的多目标行人检测模型为基于残差神经网络的模型。此外,在进行目标行人轨迹预测之前,需要进行模型训练,目前,常见模型训练方法为分别对多目标行人跟踪模型以及多目标行人检测模型进行训练,获得训练后的多目标行人跟踪模型以及多目标行人检测模型。
但是,上述多目标行人跟踪模型以及多目标行人检测模型的准确性较差,且采用上述方法对多目标行人跟踪模型以及多目标行人检测模型进行训练,由于无法实现参数共享,导致训练后的模型泛化性较差且精确度不高,对于实际应用场景的适用性较差。
本申请提供的多目标行人轨迹预测模型训练方法、预测方法及装置,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种系统架构的示意图,如图1所示,该图1所示的系统架构具体可以包括数据库1以及服务器2,其中服务器2中设置有多目标行人轨迹预测模型训练装置。
其中,数据库1中存储有训练数据。多目标行人轨迹预测模型训练装置可搭载于服务器2,用于获取数据库1中存储的训练数据,将预先建立的包括有多目标行人检测模型以及多目标行人跟踪模型的多目标行人轨迹预测模型置于多任务学习框架下,并在多任务学习框架下,采用训练数据对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型。
图2为本申请实施例提供的一种多目标行人轨迹预测模型训练方法的流程图,如图2所示,本实施例提供的多目标行人轨迹预测模型训练方法包括以下步骤:
步骤201、将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于通过获取重识别特征信息对行人进行多目标检测;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行多目标行人的轨迹预测。
步骤202、获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
需要说明的是,本实施例提供的多目标行人轨迹预测模型训练方法的执行主体可以为多目标行人轨迹预测模型训练装置。在实际应用中,该多目标行人轨迹预测模型训练装置可以通过计算机程序实现,例如应用软件等,也可以通过存储有相关计算机程序的介质实现,例如,U盘、光盘等,或者,还可以通过集成或安装有相关计算机程序的实体装置实现,例如,芯片、板卡等。
在本实施例中,为了提高多目标行人轨迹预测模型的泛化性和精确度,多目标行人轨迹预测模型训练装置可以在多任务学习框架下对多目标行人跟踪模型以及多目标行人检测模型进行联合训练,从而可以在训练过程中实现参数共享。此外,为了提高模型的准确性,在现有的多目标行人检测模型中引入了重识别网络分支,并在现有的多目标行人跟踪模型中增加了引入注意力机制层以及门控递归单元层。
具体地,多目标行人轨迹预测模型训练装置首先可以将预先建立的多目标行人轨迹预测模型置于多任务学习框架下。其中,多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型。
图3为本申请实施例提供的多目标行人检测模型的结构示意图,如图3所示,本实施例提供的多目标行人检测模型包括34层残差神经网络及其并行的重识别网络分支,以及位于网络主干的全连接层和位于网络并行分支的特征提取层,用于通过获取输入数据的重识别特征信息对行人进行多目标检测,并对检测结果进行输出。其中,图3中间输出的正方形框用于表征每个网络层获得的中间数据,该中间数据具体可以为特征图。
图4为本申请实施例提供的多目标行人跟踪模型的结构示意图,如图4所示,本实施例提供的多目标行人跟踪模型包括多个图神经网络层、多个注意力机制层以及门控递归单元层,用于在输入数据中确定重点区域并在重点区域中进行多目标行人的轨迹预测,并对预测结果进行输出。
在将多目标行人轨迹预测模型置于多任务学习框架下后,多目标行人轨迹预测模型训练装置可以获取预先存储的训练数据,并在多任务学习框架下,采用训练数据对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型。
其中,训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集,数据集为对预先采集的包含有多个目标行人的轨迹的视频数据进行扩展处理后获得的,具体处理方法将在本申请其他实施例中进行详细说明,在此不做赘述。
本实施例提供的多目标行人轨迹预测模型训练方法,将预先建立的多目标行人轨迹预测模型置于多任务学习框架下,该多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型,采用预先存储的训练数据对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型。本申请实施例中采用的多目标行人检测模型相对于现有的多目标行人检测模型增加了重识别网络分支,本申请实施例中采用的多目标行人跟踪模型相对于现有的多目标行人跟踪模型增加了引入注意力机制层以及门控递归单元层,从而可以提高模型的准确性,并且本申请实施例在多任务学习框架下对多目标行人跟踪模型以及多目标行人检测模型进行联合训练,可以在训练过程中实现参数共享,从而可以提高模型的训练效果,进而提高多目标行人轨迹预测模型的泛化性和精确度。
图5为本申请实施例提供的又一种多目标行人轨迹预测模型训练方法的流程图,如图5所示,在上述实施例的基础上,步骤202中,所述在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型,具体包括以下步骤:
步骤2021、在所述多任务学习框架下,将所述训练数据分别输入所述多目标行人检测模型以及所述多目标行人跟踪模型中。
步骤2022、基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练,获得所述多目标行人检测模型输出的第一特征图,以及所述多目标行人跟踪模型输出的第二特征图。
步骤2023、根据所述第一特征图、所述第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得所述多目标行人检测模型的第一损失函数值,以及所述多目标行人跟踪模型的第二损失函数值。
步骤2024、判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值。
步骤2025、若否,则返回执行基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练的步骤。
步骤2026、若是,则保存所述多目标行人检测模型以及所述多目标行人跟踪模型当前的模型参数,获得训练后的多目标行人轨迹预测模型。
在本实施方式中,为了在多任务学习框架下,对多目标行人检测模型以及多目标行人跟踪模型进行联合训练,多目标行人轨迹预测模型训练装置首先可以在多任务学习框架下,将训练数据分别输入多目标行人检测模型以及多目标行人跟踪模型中,继而基于训练数据,采用反向传播算法对多目标行人检测模型以及多目标行人跟踪模型的每一层进行训练,获得多目标行人检测模型输出的第一特征图,以及多目标行人跟踪模型输出的第二特征图。其中,反向传播算法的具体训练方式本实施例对此不做限定。
在一个示例中,获得的第一特征图可以包括多个目标行人的目标检测边界框以及多个目标行人的标识信息,其中,标识信息可以为ID信息,例如ID-1,ID-2等。相应地,在又一个示例中,获得的第二特征图可以包括多目标行人的预测轨迹。
在获得第一特征图以及第二特征图后,多目标行人轨迹预测模型训练装置可以根据第一特征图、第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得多目标行人检测模型的第一损失函数值,以及多目标行人跟踪模型的第二损失函数值。
在实际应用中,预设的损失函数计算公式可以为交叉熵损失函数计算公式、对数损失函数计算公式以及均方误差损失函数计算公式等,本实施例对此不做限定。
在一个示例中,预设的损失函数计算公式为交叉熵损失函数计算公式,则多目标行人轨迹预测模型训练装置可以根据第一特征图以及输入的训练数据中的多个目标行人的标识信息以及多个目标行人的目标检测边界框的坐标信息,采用预设的交叉熵损失函数计算公式计算获得多目标行人检测模型的第一交叉熵损失函数值。
相应地,多目标行人轨迹预测模型训练装置还可以根据第二特征图以及输入的训练数据中标注的多个目标行人轨迹图像,采用预设的交叉熵损失函数计算公式计算获得多目标行人跟踪模型的第二交叉熵损失函数值。
在实际应用中,由于损失函数值是用于判断模型的预测值和真实值的区别程度的值,因此损失函数值越小,则表明模型的训练结果越好。因此,在获得第一损失函数值以及第二损失函数值后,多目标行人轨迹预测模型训练装置可以判断该第一损失函数值与第二损失函数值之和是否小于等于预设值。
在一种可能的情况中,若第一损失函数值与第二损失函数值之和不小于等于预设值,则表明模型的训练结果还未达到预期,则多目标行人轨迹预测模型训练装置可以返回执行基于训练数据,采用反向传播算法对多目标行人检测模型以及多目标行人跟踪模型的每一层进行训练的步骤,以对多目标行人检测模型以及多目标行人跟踪模型进行进一步训练。
在又一种可能的情况中,若第一损失函数值与第二损失函数值之和小于等于预设值,则表明模型的训练结果已达到预期,则多目标行人轨迹预测模型训练装置可以保存多目标行人检测模型以及多目标行人跟踪模型当前的模型参数,即可获得训练后的多目标行人轨迹预测模型。
本实施例中,在多任务学习框架下,将训练数据分别输入多目标行人检测模型以及多目标行人跟踪模型中,并基于训练数据,采用反向传播算法对多目标行人检测模型以及多目标行人跟踪模型的每一层进行训练,获得多目标行人检测模型输出的第一特征图,以及多目标行人跟踪模型输出的第二特征图,根据第一特征图、第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得多目标行人检测模型的第一损失函数值,以及多目标行人跟踪模型的第二损失函数值,判断第一损失函数值与第二损失函数值之和是否小于等于预设值,若否,则返回执行基于训练数据,采用反向传播算法对多目标行人检测模型以及多目标行人跟踪模型的每一层进行训练的步骤,若是,则保存多目标行人检测模型以及多目标行人跟踪模型当前的模型参数,获得训练后的多目标行人轨迹预测模型。由于多任务学习框架下可以实现参数共享,因此可以采用同一损失函数计算公式对多目标行人检测模型以及多目标行人跟踪模型的损失函数值进行计算,并且可以针对两个模型共同预设损失函数值,只有当两个模型的损失函数值之和小于等于预设值时,才结束对模型的训练,从而可以有效提高模型的训练效果。
在上述实施方式的基础上,在一种可选的实施方式中,所述方法还包括:采用不确定性函数计算所述多目标行人检测模型的第一训练权重,以及所述多目标行人跟踪模型的第二训练权重。相应地,步骤2024中,判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值,具体包括:
将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值;判断所述修正后的第一损失函数值与所述修正后的第二损失函数值之和是否小于等于预设值。
在实际应用中,由于模型在进行训练的过程中,每一层的输出数据都是以概率的形式获得的,因此可能导致训练出现偏差,通过引入不确定性,可以对误差大的模型(也即训练困难的模型)加大训练权重,对误差小的模型(也即容易训练的模型)减小训练权重,从而进一步提高模型的训练效果。
具体地,多目标行人轨迹预测模型训练装置可以采用不确定性函数计算多目标行人检测模型的第一训练权重,以及多目标行人跟踪模型的第二训练权重,具体计算方法本实施例对此不做限定。
其中,第一训练权重与第二训练权重可以相同也可以不同,且第一训练权重与第二训练权重的值均在0到1之间,第一训练权重与第二训练权重的和为1。
在获得第一训练权重和第二训练权重后,多目标行人轨迹预测模型训练装置可以将第一训练权重作用于第一损失函数值获得修正后的第一损失函数值,将第二训练权重作用于第二损失函数值获得修正后的第二损失函数值,并判断修正后的第一损失函数值与修正后的第二损失函数值之和是否小于等于预设值。
在上述实施方式的基础上,在一种可选的实施方式中,所述将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,包括:将所述第一训练权重与所述第一损失函数值进行乘法处理,获得修正后的第一损失函数值。相应地,所述将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值,包括:将所述第二训练权重与所述第二损失函数值进行乘法处理,获得修正后的第二损失函数值。
具体地,多目标行人轨迹预测模型训练装置可以将第一训练权重与第一损失函数值进行乘法处理,获得修正后的第一损失函数值。相应地,多目标行人轨迹预测模型训练装置还可以将第二训练权重与第二损失函数值进行乘法处理,获得修正后的第二损失函数值。
举例来说,若多目标行人检测模型的第一训练权重为0.4,多目标行人跟踪模型的第二训练权重为0.6,多目标行人检测模型的第一损失函数值为x,多目标行人跟踪模型的第二损失函数值为y,则获得的修正后的第一损失函数值为0.4x,相应地,获得的修正后的第二损失函数值为0.6y。
在本实施例中,采用不确定性函数计算多目标行人检测模型的第一训练权重,以及多目标行人跟踪模型的第二训练权重,将第一训练权重作用于第一损失函数值获得修正后的第一损失函数值,将第二训练权重作用于第二损失函数值获得修正后的第二损失函数值,判断修正后的第一损失函数值与修正后的第二损失函数值之和是否小于等于预设值。由于通过引入不确定性,可以确定不同模型的训练权重,训练困难的模型对应的训练权重大,容易训练的模型对应的训练权重小,采用不同的训练权重对相应的损失函数值进行修正,可以保证每个模型的训练效果都可以达到预期,进一步提高各模型的训练效果。
图6为本申请实施例提供的另一种多目标行人轨迹预测模型训练方法的流程图,在上述任一实施方式的基础上,在步骤202之前,所述方法还包括以下步骤:
步骤601、获取预先采集的包含有多个目标行人的轨迹的视频数据。
步骤602、对所述视频数据中的每一帧图像进行扩展处理,获得数据集。
步骤603、对所述数据集中具有所述多个目标行人轨迹的图像进行标注并确定所述标注的标注信息,获得所述训练数据并存储;其中,所述标注信息中包含有所述多个目标行人的标识信息以及所述多个目标行人的目标检测边界框的坐标信息。
在本实施例中,在获取用于进行模型训练的训练数据之前,目标行人轨迹预测模型训练装置需要对训练数据进行构建。
具体地,目标行人轨迹预测模型训练装置首先可以获取预先采集的包含有多个目标行人的轨迹的视频数据。其中,该包含有多个目标行人的轨迹的视频数据可以为采用高速摄像机在多个复杂场景中采集获得的。
在获得视频数据后,目标行人轨迹预测模型训练装置可以对视频数据中的每一帧图像进行扩展处理,获得数据集。其中,扩展处理的方法具体可以为图像扩展法、光学微扰法、随机裁剪法和随机镜像法中的一种或多种,本实施例对此不做限定。
在获得数据集后,由于数据集中包含有多帧图像,其中一些图像中具有预先指定的多个目标行人的轨迹,一些图像中不具有预先指定的多个目标行人的轨迹,因此为了获得训练数据,目标行人轨迹预测模型训练装置可以对数据集中具有多个目标行人轨迹的图像进行标注并确定标注的标注信息,从而可以获得训练数据,并对该训练数据进行存储。
在一个示例中,可以将具有预先指定的多个目标行人的轨迹的第一帧图像标注为1,将具有预先指定的多个目标行人的轨迹的第二帧图像标注为2,依此类推,直到完成对具有预先指定的多个目标行人的轨迹的最后一帧图像的标注。
其中,标注信息中可以包含有多个目标行人的标识信息以及多个目标行人的目标检测边界框的坐标信息。在一个示例中,标识信息可以为ID信息,例如ID-1,ID-2等。在又一个示例中,目标检测边界框的坐标信息可以为目标检测边界框四个顶点的平面坐标信息。
在上述实施方式的基础上,在一种可选的实施方式中,步骤602具体包括:将所述视频数据中的每一帧图像以随机角度或偏移量进行变换,获得变换后的图像;将所述变换后的图像加入到所述视频数据中,获得数据集。
在本实施方式中, 可以采用图像扩展法对视频数据中的每一帧图像进行扩展处理。具体地,目标行人轨迹预测模型训练装置可以将视频数据中的每一帧图像以随机角度或偏移量进行变换,获得变换后的图像,并将变换后的图像加入到视频数据中,获得数据集。
举例来说,目标行人轨迹预测模型训练装置可以将视频数据中的第一帧图像随机向左旋转15度,将视频数据中的第二帧图像随机向右旋转9度,将视频数据中的第三帧图像随机向右旋转20度,直到将视频数据中的最后一帧图像随机向某一方向旋转某一角度后,将变换后的图像逐帧加入到视频数据的相应位置中,即可获得数据集。
在本实施例中,获取预先采集的包含有多个目标行人的轨迹的视频数据,对视频数据中的每一帧图像进行扩展处理,获得数据集,对数据集中具有多个目标行人轨迹的图像进行标注并确定标注的标注信息,获得训练数据并存储,其中,标注信息中包含有多个目标行人的标识信息以及多个目标行人的目标检测边界框的坐标信息。由于采集的视频数据可能会具有相邻帧的图像信息基本一致的问题,从而会导致训练数据缺乏多样性,影响训练效果,因此对视频数据中的每一帧图像进行扩展处理可以使训练数据更加丰富,为后续进行模型训练奠定基础。
图7为本申请实施例提供的一种基于多目标行人轨迹预测模型的多目标行人轨迹预测方法的流程图,如图7所示,本实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测方法包括以下步骤:
步骤701、获取待检测的视频数据。
步骤702、将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用上述任一实施例所述的方法对多目标行人轨迹预测模型进行训练后获得的。
步骤703、采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测。
步骤704、将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
需要说明的是,本实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测方法的执行主体可以为基于多目标行人轨迹预测模型的多目标行人轨迹预测装置。在实际应用中,该多目标行人轨迹预测装置可以通过计算机程序实现,例如应用软件等,也可以通过存储有相关计算机程序的介质实现,例如,U盘、光盘等,或者,还可以通过集成或安装有相关计算机程序的实体装置实现,例如,芯片、板卡等。
在本实施例中,在获得训练后的多目标行人轨迹预测模型后,可以使用该训练后的多目标行人轨迹预测模型进行多目标行人的轨迹预测。
具体地,多目标行人轨迹预测装置首先可以获取待检测的视频数据。其中,该待检测的视频数据可以为通过高速摄像机实时采集的视频数据,也可以为预先通过高速摄像机采集并存储的视频数据,本实施例对此不做限定。
在获取待检测的视频数据后,多目标行人轨迹预测装置可以将待检测的视频数据输入训练后的多目标行人轨迹预测模型中。其中,训练后的多目标行人轨迹预测模型为采用上述任一实施例所述的方法对多目标行人轨迹预测模型进行训练后获得的。
在将待检测的视频数据输入训练后的多目标行人轨迹预测模型中之后,多目标行人轨迹预测装置可以采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,获得多个目标行人目标检测结果,具体检测方法将在本申请其他实施例中进行详细说明,在此不做赘述。其中,目标检测结果可以包括多个目标行人目标检测边界框顶点的坐标信息以及多个目标行人的标识信息。
相应地,多目标行人轨迹预测装置还可以采用训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对多个目标行人的轨迹进行预测,获得多个目标行人的轨迹预测结果,具体预测方法将在本申请其他实施例中进行详细说明,在此不做赘述。其中,该多个目标行人的轨迹预测结果可以为包含有多个目标行人的预测轨迹的图片。
在获得目标检测结果以及轨迹预测结果后,多目标行人轨迹预测装置可以将多目标行人检测模型的目标检测结果以及多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
在一个示例中,多目标行人轨迹预测装置可以将多目标行人检测模型的目标检测结果与多目标行人跟踪模型的轨迹预测结果进行叠加,也即将多个目标行人目标检测边界框顶点的坐标信息以及多个目标行人的标识信息叠加到包含有多个目标行人的预测轨迹的图片中,从而可以获得包含有多个目标行人的目标检测边界框以及多个目标行人的标识信息的多个目标行人的轨迹预测结果图。
在本实施例中,获取待检测的视频数据,将待检测的视频数据输入训练后的多目标行人轨迹预测模型中,其中,训练后的多目标行人轨迹预测模型为采用上述任一实施例所述的方法对多目标行人轨迹预测模型进行训练后获得的,采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对多个目标行人的轨迹进行预测,将多目标行人检测模型的目标检测结果以及多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。由于训练后的多目标行人轨迹预测模型为在多任务学习框架下对多目标行人跟踪模型以及多目标行人检测模型进行联合训练后获得的,这种训练方法可以在训练过程中实现参数共享,从而可以提高模型的训练效果,因此采用以此训练获得的多目标行人轨迹预测模型对待检测的视频数据进行轨迹预测,有效提高了轨迹预测结果的准确性。
在上述实施方式的基础上,在一种可选的实施方式中,步骤703中,采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,具体包括:采用所述多目标行人检测模型中的残差神经网络及其并行的重识别网络分支对所述待检测的视频数据中的每一帧图像进行特征提取,获得每一帧图像的重识别特征信息;采用并行分支解码器对所述每一帧图像的重识别特征信息进行解码,确定所述多个目标行人的目标检测边界框以及所述多个目标行人的标识信息。
在本实施例中,多目标行人轨迹预测装置可以采用训练后的如图3所示的多目标行人检测模型对多个目标行人进行目标检测。
具体地,可以采用34层残差神经网络及其并行的重识别网络分支对待检测的视频数据中的每一帧图像进行特征提取,获得每一帧图像的重识别特征信息,并将位于网络主干的全连接层和位于网络并行分支的特征提取层作为并行分支解码器,对每一帧图像的重识别特征信息进行解码,确定多个目标行人的目标检测边界框以及多个目标行人的标识信息。由于引入了重识别网络分支,因此可以获得更精准的特征信息,从而提高了目标检测结果的精确度。
在上述实施方式的基础上,在又一种可选的实施方式中,步骤703中,采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测,具体包括:对待检测的视频数据中的每一帧图像进行特征向量化处理,并采用所述多目标行人轨迹预测模型中的图神经网络层以及注意力机制层,基于向量化后的特征确定每一帧图像中的重点区域及重点区域内的特征信息;采用门控递归单元层基于每一帧图像中的重点区域内的特征信息进行迭代学习,并对多目标行人的轨迹进行预测。
在本实施例中,多目标行人轨迹预测装置可以采用训练后的如图4所示的多目标行人跟踪模型对多目标行人的轨迹进行预测。
具体地,在进行轨迹预测之前,为了将待检测的视频数据转换为模型可识别的数据,首先需要对待检测的视频数据中的每一帧图像进行特征向量化处理,具体处理方法本实施例对此不做限定。接下来可以采用多目标行人轨迹预测模型中的多个图神经网络层以及多个注意力机制层,基于向量化后的特征确定每一帧图像中的重点区域及重点区域内的特征信息,并采用门控递归单元层基于每一帧图像中的重点区域内的特征信息进行迭代学习,对多目标行人的轨迹进行预测。由于引入了注意力机制层以及门控递归单元层,从而可以获取每一帧图像中的重点区域内的特征信息进行重点学习,从而可以有效提高轨迹预测结果的准确性。
图8为本申请实施例提供的多目标行人轨迹预测模型训练装置的结构示意图,如图8所示,本实施例提供的多目标行人轨迹预测模型训练装置包括:设置模块81以及训练模块82。其中,设置模块81,用于将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于在进行目标检测的同时进行目标的重识别;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行轨迹预测。训练模块82,用于获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
可选实施方式中,训练模块82包括输入单元、训练单元、计算单元、判断单元、返回单元以及保存单元。其中,输入单元,用于在所述多任务学习框架下,将所述训练数据分别输入所述多目标行人检测模型以及所述多目标行人跟踪模型中。训练单元,用于基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练,获得所述多目标行人检测模型输出的第一特征图,以及所述多目标行人跟踪模型输出的第二特征图。计算单元,用于根据所述第一特征图、所述第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得所述多目标行人检测模型的第一损失函数值,以及所述多目标行人跟踪模型的第二损失函数值。判断单元,用于判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值。返回单元,用于若所述第一损失函数值与所述第二损失函数值之和不小于等于预设值,则返回执行基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练的步骤。保存单元,用于若所述第一损失函数值与所述第二损失函数值之和小于等于预设值,则保存所述多目标行人检测模型以及所述多目标行人跟踪模型当前的模型参数,获得训练后的多目标行人轨迹预测模型。
可选实施方式中,所述计算单元,还用于采用不确定性函数计算所述多目标行人检测模型的第一训练权重,以及所述多目标行人跟踪模型的第二训练权重。所述判断单元包括处理单元,用于将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值。所述判断单元,用于判断所述修正后的第一损失函数值与所述修正后的第二损失函数值之和是否小于等于预设值。
可选实施方式中,所述处理单元,具体用于将所述第一训练权重与所述第一损失函数值进行乘法处理,获得修正后的第一损失函数值;将所述第二训练权重与所述第二损失函数值进行乘法处理,获得修正后的第二损失函数值。
可选实施方式中,所述装置还包括:第一获取模块、第一处理模块以及标注模块。其中,第一获取模块,用于获取预先采集的包含有多个目标行人的轨迹的视频数据。第一处理模块,用于对所述视频数据中的每一帧图像进行扩展处理,获得数据集。标注模块,用于对所述数据集中具有所述多个目标行人轨迹的图像进行标注并确定所述标注的标注信息,获得所述训练数据并存储;其中,所述标注信息中包含有所述多个目标行人的标识信息以及所述多个目标行人的目标检测边界框的坐标信息。
可选实施方式中,所述第一处理模块,具体用于将所述视频数据中的每一帧图像以随机角度或偏移量进行变换,获得变换后的图像;将所述变换后的图像加入到所述视频数据中,获得数据集。
需要说明的是,本实施例提供的多目标行人轨迹预测模型训练装置执行的技术方案和效果可以参见前述方法实施例的相关内容,在此不再赘述。
图9为本申请实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测装置的结构示意图,如图9所示,本实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测装置包括:第二获取模块91、输入模块92、第二处理模块93以及输出模块94。其中,第二获取模块91,用于获取待检测的视频数据。输入模块92,用于将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用如本申请实施例四所述的装置对多目标行人轨迹预测模型进行训练后获得的。第二处理模块93,用于采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测。输出模块94,用于将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
可选实施方式中,第二处理模块93,具体用于采用所述多目标行人检测模型中的残差神经网络及其并行的重识别网络分支对所述待检测的视频数据中的每一帧图像进行特征提取,获得每一帧图像的重识别特征信息;采用并行分支解码器对所述每一帧图像的重识别特征信息进行解码,确定所述多个目标行人的目标检测边界框以及所述多个目标行人的标识信息。
可选实施方式中,第二处理模块93,还具体用于对待检测的视频数据中的每一帧图像进行特征向量化处理,并采用所述多目标行人轨迹预测模型中的图神经网络层以及注意力机制层,基于向量化后的特征确定每一帧图像中的重点区域及重点区域内的特征信息;采用门控递归单元层基于每一帧图像中的重点区域内的特征信息进行迭代学习,并对多目标行人的轨迹进行预测。
需要说明的是,本实施例提供的基于多目标行人轨迹预测模型的多目标行人轨迹预测装置执行的技术方案和效果可以参见前述方法实施例的相关内容,在此不再赘述。
图10为本申请实施例提供的电子设备的结构示意图,如图10所示,本申请还提供了一种电子设备1000,包括:存储器1001和处理器1002。
存储器1001,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机执行指令。存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行存储器1001存放的程序。
其中,计算机程序存储在存储器1001中,并被配置为由处理器1002执行以实现本申请任意一个实施例提供的多目标行人轨迹预测模型训练方法或基于多目标行人轨迹预测模型的多目标行人轨迹预测方法。相关说明可以对应参见附图中的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
其中,本实施例中,存储器1001和处理器1002通过总线连接。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component Interconnect,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本申请任意一个实施例提供的多目标行人轨迹预测模型训练方法或基于多目标行人轨迹预测模型的多目标行人轨迹预测方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例提供多目标行人轨迹预测模型训练方法或基于多目标行人轨迹预测模型的多目标行人轨迹预测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程多目标行人轨迹预测模型训练装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (13)
1.一种多目标行人轨迹预测模型训练方法,其特征在于,包括:
将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于通过获取重识别特征信息对行人进行多目标检测;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行多目标行人的轨迹预测;
获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
2.根据权利要求1所述的方法,其特征在于,所述在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型,包括:
在所述多任务学习框架下,将所述训练数据分别输入所述多目标行人检测模型以及所述多目标行人跟踪模型中;
基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练,获得所述多目标行人检测模型输出的第一特征图,以及所述多目标行人跟踪模型输出的第二特征图;
根据所述第一特征图、所述第二特征图以及输入的训练数据,采用预设的损失函数计算公式对损失函数进行计算,获得所述多目标行人检测模型的第一损失函数值,以及所述多目标行人跟踪模型的第二损失函数值;
判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值;
若否,则返回执行基于所述训练数据,采用反向传播算法对所述多目标行人检测模型以及所述多目标行人跟踪模型的每一层进行训练的步骤;
若是,则保存所述多目标行人检测模型以及所述多目标行人跟踪模型当前的模型参数,获得训练后的多目标行人轨迹预测模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
采用不确定性函数计算所述多目标行人检测模型的第一训练权重,以及所述多目标行人跟踪模型的第二训练权重;
所述判断所述第一损失函数值与所述第二损失函数值之和是否小于等于预设值,包括:
将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值;
判断所述修正后的第一损失函数值与所述修正后的第二损失函数值之和是否小于等于预设值。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一训练权重作用于所述第一损失函数值获得修正后的第一损失函数值,包括:
将所述第一训练权重与所述第一损失函数值进行乘法处理,获得修正后的第一损失函数值;
所述将所述第二训练权重作用于所述第二损失函数值获得修正后的第二损失函数值,包括:
将所述第二训练权重与所述第二损失函数值进行乘法处理,获得修正后的第二损失函数值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取预先存储的训练数据之前,所述方法还包括:
获取预先采集的包含有多个目标行人的轨迹的视频数据;
对所述视频数据中的每一帧图像进行扩展处理,获得数据集;
对所述数据集中具有所述多个目标行人轨迹的图像进行标注并确定所述标注的标注信息,获得所述训练数据并存储;其中,所述标注信息中包含有所述多个目标行人的标识信息以及所述多个目标行人的目标检测边界框的坐标信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述视频数据中的每一帧图像进行扩展处理,获得数据集,包括:
将所述视频数据中的每一帧图像以随机角度或偏移量进行变换,获得变换后的图像;
将所述变换后的图像加入到所述视频数据中,获得数据集。
7.一种基于多目标行人轨迹预测模型的多目标行人轨迹预测方法,其特征在于,包括:
获取待检测的视频数据;
将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用权利要求1-6任一项所述的方法对多目标行人轨迹预测模型进行训练后获得的;
采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测;
将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
8.根据权利要求7所述的方法,其特征在于,所述采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,包括:
采用所述多目标行人检测模型中的残差神经网络及其并行的重识别网络分支对所述待检测的视频数据中的每一帧图像进行特征提取,获得每一帧图像的重识别特征信息;
采用并行分支解码器对所述每一帧图像的重识别特征信息进行解码,确定所述多个目标行人的目标检测边界框以及所述多个目标行人的标识信息。
9.根据权利要求7所述的方法,其特征在于,所述采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测,包括:
对待检测的视频数据中的每一帧图像进行特征向量化处理,并采用所述多目标行人轨迹预测模型中的图神经网络层以及注意力机制层,基于向量化后的特征确定每一帧图像中的重点区域及重点区域内的特征信息;
采用门控递归单元层基于每一帧图像中的重点区域内的特征信息进行迭代学习,并对多目标行人的轨迹进行预测。
10.一种多目标行人轨迹预测模型训练装置,其特征在于,包括:
设置模块,用于将预先建立的多目标行人轨迹预测模型置于多任务学习框架下;其中,所述多目标行人轨迹预测模型包括多目标行人检测模型以及多目标行人跟踪模型;其中,所述多目标行人检测模型包括残差神经网络及其并行的重识别网络分支,用于在进行目标检测的同时进行目标的重识别;所述多目标行人跟踪模型包括图神经网络层、注意力机制层以及门控递归单元层,用于确定重点区域并在所述重点区域中进行轨迹预测;
训练模块,用于获取预先存储的训练数据,在所述多任务学习框架下,采用所述训练数据对所述多目标行人检测模型以及所述多目标行人跟踪模型进行联合训练,获得训练后的多目标行人轨迹预测模型;其中,所述训练数据为对具有多个目标行人轨迹的图像进行标注后的数据集;所述数据集为对预先采集的包含有所述多个目标行人的轨迹的视频数据进行扩展处理后获得的。
11.一种基于多目标行人轨迹预测模型的多目标行人轨迹预测装置,其特征在于,包括:
获取模块,用于获取待检测的视频数据;
输入模块,用于将所述待检测的视频数据输入训练后的多目标行人轨迹预测模型中;其中,所述训练后的多目标行人轨迹预测模型为采用如权利要求10所述的装置对多目标行人轨迹预测模型进行训练后获得的;
处理模块,用于采用训练后的多目标行人轨迹预测模型中的多目标行人检测模型对多个目标行人进行目标检测,并采用所述训练后的多目标行人轨迹预测模型中的多目标行人跟踪模型对所述多个目标行人的轨迹进行预测;
输出模块,用于将所述多目标行人检测模型的目标检测结果以及所述多目标行人跟踪模型的轨迹预测结果进行融合处理,输出包含有目标检测结果的多个目标行人的轨迹预测结果。
12.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-9中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210244026.5A CN114419105B (zh) | 2022-03-14 | 2022-03-14 | 多目标行人轨迹预测模型训练方法、预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210244026.5A CN114419105B (zh) | 2022-03-14 | 2022-03-14 | 多目标行人轨迹预测模型训练方法、预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114419105A true CN114419105A (zh) | 2022-04-29 |
CN114419105B CN114419105B (zh) | 2022-07-15 |
Family
ID=81263831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210244026.5A Active CN114419105B (zh) | 2022-03-14 | 2022-03-14 | 多目标行人轨迹预测模型训练方法、预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114419105B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063874A (zh) * | 2022-08-16 | 2022-09-16 | 深圳市海清视讯科技有限公司 | 智能家居设备的控制方法、装置、设备及存储介质 |
CN115345390A (zh) * | 2022-10-19 | 2022-11-15 | 武汉大数据产业发展有限公司 | 一种行为轨迹预测方法、装置、电子设备及存储介质 |
CN116363761A (zh) * | 2023-06-01 | 2023-06-30 | 深圳海清智元科技股份有限公司 | 基于图像的行为识别方法、装置及电子设备 |
CN117152692A (zh) * | 2023-10-30 | 2023-12-01 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858466A (zh) * | 2019-03-01 | 2019-06-07 | 北京视甄智能科技有限公司 | 一种基于卷积神经网络的人脸关键点检测方法及装置 |
CN110135314A (zh) * | 2019-05-07 | 2019-08-16 | 电子科技大学 | 一种基于深度轨迹预测的多目标跟踪方法 |
CN111767475A (zh) * | 2020-03-20 | 2020-10-13 | 吉利汽车研究院(宁波)有限公司 | 一种目标行人轨迹预测模型训练方法、装置、电子设备及存储介质 |
CN111860265A (zh) * | 2020-07-10 | 2020-10-30 | 武汉理工大学 | 一种基于样本损失的多检测框损失均衡道路场景理解算法 |
CN112329619A (zh) * | 2020-11-04 | 2021-02-05 | 济南博观智能科技有限公司 | 一种人脸识别方法、装置、电子设备及可读存储介质 |
CN112906677A (zh) * | 2021-05-06 | 2021-06-04 | 南京信息工程大学 | 基于改进型ssd网络的行人目标检测与重识别方法 |
CN113642379A (zh) * | 2021-05-18 | 2021-11-12 | 北京航空航天大学 | 基于注意力机制融合多流图的人体姿态预测方法及系统 |
CN114169241A (zh) * | 2021-12-09 | 2022-03-11 | 北京邮电大学 | 一种端到端的多目标识别、追踪与预测方法 |
-
2022
- 2022-03-14 CN CN202210244026.5A patent/CN114419105B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858466A (zh) * | 2019-03-01 | 2019-06-07 | 北京视甄智能科技有限公司 | 一种基于卷积神经网络的人脸关键点检测方法及装置 |
CN110135314A (zh) * | 2019-05-07 | 2019-08-16 | 电子科技大学 | 一种基于深度轨迹预测的多目标跟踪方法 |
CN111767475A (zh) * | 2020-03-20 | 2020-10-13 | 吉利汽车研究院(宁波)有限公司 | 一种目标行人轨迹预测模型训练方法、装置、电子设备及存储介质 |
CN111860265A (zh) * | 2020-07-10 | 2020-10-30 | 武汉理工大学 | 一种基于样本损失的多检测框损失均衡道路场景理解算法 |
CN112329619A (zh) * | 2020-11-04 | 2021-02-05 | 济南博观智能科技有限公司 | 一种人脸识别方法、装置、电子设备及可读存储介质 |
CN112906677A (zh) * | 2021-05-06 | 2021-06-04 | 南京信息工程大学 | 基于改进型ssd网络的行人目标检测与重识别方法 |
CN113642379A (zh) * | 2021-05-18 | 2021-11-12 | 北京航空航天大学 | 基于注意力机制融合多流图的人体姿态预测方法及系统 |
CN114169241A (zh) * | 2021-12-09 | 2022-03-11 | 北京邮电大学 | 一种端到端的多目标识别、追踪与预测方法 |
Non-Patent Citations (3)
Title |
---|
任条娟 等: "基于深度学习的多目标运动轨迹预测算法", 《计算机应用研究》 * |
任条娟 等: "基于深度学习的多目标运动轨迹预测算法", 《计算机应用研究》, vol. 39, no. 1, 31 January 2022 (2022-01-31), pages 296 - 302 * |
朱姝姝 等: "基于帧内关系建模和自注意力融合的多目标跟踪方法", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/21.1124.TP.20220102.2135.004.HTML》, 4 January 2022 (2022-01-04), pages 1 - 10 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063874A (zh) * | 2022-08-16 | 2022-09-16 | 深圳市海清视讯科技有限公司 | 智能家居设备的控制方法、装置、设备及存储介质 |
CN115345390A (zh) * | 2022-10-19 | 2022-11-15 | 武汉大数据产业发展有限公司 | 一种行为轨迹预测方法、装置、电子设备及存储介质 |
CN116363761A (zh) * | 2023-06-01 | 2023-06-30 | 深圳海清智元科技股份有限公司 | 基于图像的行为识别方法、装置及电子设备 |
CN116363761B (zh) * | 2023-06-01 | 2023-08-18 | 深圳海清智元科技股份有限公司 | 基于图像的行为识别方法、装置及电子设备 |
CN117152692A (zh) * | 2023-10-30 | 2023-12-01 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
CN117152692B (zh) * | 2023-10-30 | 2024-02-23 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114419105B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114419105B (zh) | 多目标行人轨迹预测模型训练方法、预测方法及装置 | |
CN110758246B (zh) | 一种自动泊车方法及装置 | |
US11205276B2 (en) | Object tracking method, object tracking device, electronic device and storage medium | |
CN112464912B (zh) | 基于YOLO-RGGNet的机器人端人脸检测方法 | |
Ji et al. | RGB-D SLAM using vanishing point and door plate information in corridor environment | |
CN116597336A (zh) | 视频处理方法、电子设备、存储介质及计算机程序产品 | |
CN113129338B (zh) | 基于多目标跟踪算法的图像处理方法、装置、设备及介质 | |
Lin et al. | Efficient and effective multi-camera pose estimation with weighted M-estimate sample consensus | |
CN117388870A (zh) | 应用于激光雷达感知模型的真值生成方法、装置及介质 | |
CN112712005A (zh) | 识别模型的训练方法、目标识别方法及终端设备 | |
Schröder et al. | Feature map transformation for multi-sensor fusion in object detection networks for autonomous driving | |
CN116543143A (zh) | 一种目标检测模型的训练方法、目标检测方法及装置 | |
CN110659576A (zh) | 一种基于联合判断与生成学习的行人搜索方法及装置 | |
CN116399360A (zh) | 车辆路径规划方法 | |
CN116343191A (zh) | 三维目标检测方法、电子设备及存储介质 | |
CN114897987A (zh) | 一种确定车辆地面投影的方法、装置、设备及介质 | |
CN114155524A (zh) | 单阶段3d点云目标检测方法及装置、计算机设备、介质 | |
CN114005017A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113096104A (zh) | 目标分割模型的训练方法及装置和目标分割方法及装置 | |
Wang et al. | Dair-v2xreid: A new real-world vehicle-infrastructure cooperative re-id dataset and cross-shot feature aggregation network perception method | |
CN116654022B (zh) | 基于多重交互的行人轨迹预测方法、系统、设备和介质 | |
US20230401691A1 (en) | Image defect detection method, electronic device and readable storage medium | |
Valtonen Örnhag et al. | Enforcing the general planar motion model: bundle adjustment for planar scenes | |
Han et al. | A Two‐Branch Pedestrian Detection Method for Small and Blurred Target | |
CN113516030B (zh) | 一种动作序列验证方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 518100 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee after: Shenzhen Haiqing Zhiyuan Technology Co.,Ltd. Address before: 518100 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee before: SHENZHEN HIVT TECHNOLOGY Co.,Ltd. |