CN112560827A

CN112560827A - 模型训练方法、装置、预测方法、电子设备及介质

Info

Publication number: CN112560827A
Application number: CN202110206657.3A
Authority: CN
Inventors: 王智康; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Beijing Pengsi Technology Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-03-26
Anticipated expiration: 2041-02-24
Also published as: CN112560827B

Abstract

本公开实施例公开了一种模型训练方法、装置、预测方法、电子设备及介质。该模型训练方法用于训练预测模型，包括：获取视频样本数据，所述视频样本数据带有标注信息；通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征；通过时间域的池化处理所述多个帧特征，得到全局特征；对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；基于所述权重和所述帧特征，生成第一视频特征；基于所述第一视频特征获得预测结果；基于所述预测结果和所述标注信息优化所述预测模型的模型参数。通过全局特征指导注意力机制的权重生成过程，可以更好地挖掘特征序列中的有效特征，并减弱噪声的影响。

Description

模型训练方法、装置、预测方法、电子设备及介质

技术领域

本公开涉及行人重识别技术领域，具体涉及一种模型训练方法、装置、预测方法、电子设备及介质。

背景技术

在行人重识别领域，在特征提取阶段通常需要融合各视频帧的特征信息，然而，本发明人发现，现有的简单池化的融合方式产生的结果包含过多的噪声信息；先通过RNN网络处理再池化的融合方式过于关注连续的特征而忽略不连续的特征，导致最终特征的代表性和完整度大大降低；而通过注意力机制的方式产生的权重会极大地削弱受污染帧中有价值的特征，导致特征的完整度受损。因此，目前的视频行人重识别方法的误检率较高。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种模型训练方法、装置、预测方法、电子设备及介质。

第一方面，本公开实施例中提供了一种模型训练方法，用于训练预测模型。

具体地，所述模型训练方法，包括：

获取视频样本数据，所述视频样本数据带有标注信息；

通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；

基于所述权重和所述帧特征，生成第一视频特征；

基于所述第一视频特征获得预测结果；

基于所述预测结果和所述标注信息优化所述预测模型的模型参数。

结合第一方面，本公开在第一方面的第一种实现方式中，所述权重的通道数与所述帧特征的通道数相同。

结合第一方面或第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，其中，所述对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重包括：

在当前帧为视频的首帧的情况下，基于所述帧特征和所述全局特征，通过门控循环单元生成所述当前帧的权重；

在当前帧为首帧以外的其他视频帧的情况下，基于前一帧的权重和所述全局特征，生成融合向量，基于所述融合向量和所述当前帧的帧特征，通过门控循环单元生成所述当前帧的权重。

结合第一方面、第一方面的第一种或第二种实现方式中的任一项，本公开在第一方面的第三种实现方式中，其中，所述基于所述权重和所述帧特征，生成第一视频特征包括：

对于各个视频帧的权重在时间维度上执行柔性最大值处理，得到修正后的权重；

基于修正后的权重对所述帧特征加权平均，得到第一视频特征。

结合第一方面、第一方面的第一种至第三种实现方式中的任一项，本公开在第一方面的第四种实现方式中，其中，所述预测结果包括第一预测结果和第二预测结果，所述基于所述第一视频特征获得预测结果包括：

在第一分支上，通过第一衰减头部处理所述第一视频特征，得到第二视频特征，通过第一分类层处理所述第二视频特征，得到第一预测结果；

在第二分支上，通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征，通过第二分类层处理所述第三视频特征，得到第二预测结果，

其中，所述第一衰减头部和第二衰减头部分别包括线性变换矩阵、批标准化层和激活层，所述第一衰减头部和所述第二衰减头部共享参数，和/或，所述第一分类层和所述第二分类层共享参数。

结合第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，其中，所述通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征包括：

根据标注信息，将同一个行人的第一视频特征根据各个第一视频特征之间的余弦距离，构建多个第一视频特征的图；

按照通道维度将每个第一视频特征分割，从而将图分割为多个子图；

通过多头图卷积网络处理所述多个子图，将得到的结果在通道维度上连接，得到第四视频特征；

通过第二衰减头部处理所述第四视频特征，得到第三视频特征。

结合第一方面的第四种或第五种实现方式，本公开在第一方面的第六种实现方式中，其中，所述基于所述预测结果和所述标注信息优化所述预测模型的模型参数包括：

基于所述标注信息和第一预测结果的损失函数优化所述预测模型的模型参数；

基于所述标注信息和第二预测结果的损失函数优化所述预测模型的模型参数；

基于所述第一预测结果和第二预测结果的损失函数优化所述预测模型的模型参数；

基于所述第二视频特征和第三视频特征的损失函数优化所述预测模型的模型参数。

结合第一方面的第四种至第六种实现方式中的任一项，本公开在第一方面的第七种实现方式中，还包括：

在模型参数优化完成后，从所述预测模型中删除所述第二分支。

第二方面，本公开实施例中提供了一种预测方法，包括将视频数据输入至如第一方面、第一方面的第一种至第七种实现方式中任一项所述的方法训练的预测模型，得到预测结果。

结合第二方面，在第二方面的第一种实现方式中，所述预测模型用于执行以下操作：

通过主干网络处理所述视频数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

通过第一衰减头部处理所述第一视频特征，得到第二视频特征；

通过第一分类层处理所述第二视频特征，得到所述预测结果。

第三方面，本公开实施例中提供了一种模型训练装置。

具体地，所述模型训练装置，用于训练预测模型，包括：

样本获取模块，被配置为获取视频样本数据，所述视频样本数据带有标注信息；

特征提取模块，被配置为通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征；

池化模块，被配置为通过时间域的池化处理所述多个帧特征，得到全局特征；

权重生成模块，被配置为对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；

视频特征生成模块，被配置为基于所述权重和所述帧特征，生成第一视频特征；

预测模块，被配置为基于所述第一视频特征获得预测结果；

参数优化模块，被配置为基于所述预测结果和所述标注信息优化所述预测模型的模型参数。

第四方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种到第七种实现方式或第二方面、第二方面的第一种实现方式中任一项所述的方法。

第五方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种到第七种实现方式或第二方面、第二方面的第一种实现方式中任一项所述的方法。

根据本公开实施例提供的技术方案，通过获取视频样本数据，所述视频样本数据带有标注信息；通过预测模型的主干网络处理所述视频样本数据，获取多个帧特征；通过时间域的池化处理所述多个帧特征，得到全局特征；对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；基于所述权重和所述帧特征，生成第一视频特征；基于所述第一视频特征获得预测结果；基于所述预测结果和所述标注信息优化所述预测模型的模型参数，从而可以更好地挖掘特征序列中的有效特征，并减弱噪声的影响。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。以下是对附图的说明。

图1示出根据本公开实施例的模型训练方法的流程图。

图2示出根据本公开实施例的预测模型的示意图。

图3示出根据本公开实施例的生成视频帧的权重的流程图。

图4示出根据本公开实施例的时域注意力模型的示意图。

图5示出根据本公开实施例的获得预测结果的流程图。

图6示出根据本公开另一实施例的预测模型的示意图。

图7示出根据本公开实施例的获得第三视频特征的流程图。

图8示出根据本公开实施例的模型训练装置的框图。

图9示出根据本公开实施例的电子设备的框图。

图10示出适于实现本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

如上文所述，现有技术中的行人重识别技术中的时域融合算法不能充分挖掘视频序列中的行人特征。提取出来的行人特征会包含过多的噪声或仅仅关注序列中行人连续的特征，特征的完整度和代表性不足。

本公开实施例提供的技术方案能够为视频数据生成完整度较高的具有代表性的特征。当不同行人的特征存在较高相似度时，本公开实施例的方法可以提取出更好的特征，在该场景依然可以实现良好的识别率。

图1示出根据本公开实施例的模型训练方法的流程图。

如图1所示，该方法用于训练预测模型，包括操作S110~S170。

在操作S110，获取视频样本数据，所述视频样本数据带有标注信息；

在操作S120，通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征；

在操作S130，通过时间域的池化处理所述多个帧特征，得到全局特征；

在操作S140，对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；

在操作S150，基于所述权重和所述帧特征，生成第一视频特征；

在操作S160，基于所述第一视频特征获得预测结果；

在操作S170，基于所述预测结果和所述标注信息优化所述预测模型的模型参数。该预测模型可以为行人重识别模型。

首先参考图2对本公开实施例的预测模型进行介绍。

图2示出根据本公开实施例的预测模型的示意图。

如图2所示，该预测模型包括输入层、主干网络（即特征提取器）、时域注意力模型和分类层（即输出层）。

在训练时，首先采用主干网络提取行人视频中每一视频帧的帧特征进而组成特征序列，然后将该特征序列输入到时域注意力模型，该模型通过分析时域信息，对视频序列中的行人特征进行充分挖掘并将特征序列整合为一个特征整体，称为第一视频特征。分类层至少基于该第一视频特征输出用于估计行人身份的预测结果。

返回参考图1。在操作S110，获取视频样本数据，所述视频样本数据带有标注信息。视频样本数据包括多段视频，标注信息表明该段视频中的人的身份。该视频样本数据用于训练预测模型，以使得预测模型具备行人重识别的能力。

在操作S120，通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征。根据本公开实施例，该主干网络例如可以使用各种已有的神经网络模型，用于提取各视频帧的图像特征，即帧特征，例如可以表示为特征向量的形式。

根据本公开实施例，操作S130~S150为在时域注意力模型阶段执行的操作。

在操作S130，通过时间域的池化处理所述多个帧特征，得到全局特征，该池化处理例如可以为最大池化处理。举例而言，第一帧的帧特征为{0.11,0.32,0.56}，第二帧的帧特征为{0.18,0.92,0.42}，第三帧的帧特征为{0.09,0.44,0.63}，通过时间域的最大池化处理，得到的全局特征为{0.18,0.92,0.63}。以上仅为示例，实际应用过程中特征维度和帧数通常远大于此。

根据本公开实施例，在操作S140，对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重。通过全局特征指导生成视频帧的权重，可以使时域注意力模型在关注连续特征的同时，兼顾不连续的特征，从而在面临例如行人走过障碍物时被部分或全部的遮挡的情况下，能够有较好的表现。

下面结合图3和图4所示意的实施例对操作S140进行说明。

图3示出根据本公开实施例的生成视频帧的权重的流程图。

如图3所示，上述操作S140可以进一步包括操作S310~S330。

在操作S310，在当前帧为视频的首帧的情况下，基于所述帧特征和所述全局特征，通过门控循环单元生成所述当前帧的权重；

在操作S320，在当前帧为首帧以外的其他视频帧的情况下，基于前一帧的权重和所述全局特征，生成融合向量；

在操作S330，基于所述融合向量和所述当前帧的帧特征，通过门控循环单元生成所述当前帧的权重。

图4示出根据本公开实施例的时域注意力模型的示意图。

如图4所示，多个帧特征f₁，f₂，…，f_n，通过操作S130在时域上池化后，得到全局特征

。由于最大池化操作会提取到时域上最大的激活，除了有价值的特征，

还包含了很多背景、遮挡等噪声，该特征不适合直接进行重识别任务，可将其作为帧特征序列 f₁，f₂，…，f_n的一种全局代表，用于生成后面时间段的全局先验知识。

每个帧特征依次输入到门控循环单元（GRU）中，生成视频帧的权重h₁，h₂，…，h_n。GRU的模型如下所示：

为一帧图片的特征，即帧特征f _t，

和

为线型变化矩阵，

为激活函数，

为双曲正切函数，

是重制门，

是更新门，

是候选门,

是激活门。

GRU输出的权重

与

共同输入到SE-block中，用于对

进行特征校准，并当作下一时间点的先验知识。该过程可以表示为：

其中

和

例如分别为

和

激活函数，

和

是进行挤压和扩张操作的线型变化矩阵。得到的

与下一帧的帧特征f _t在GRU共同用于产生下一帧的权重

。

因此，对于首帧，其先验知识为全局特征

，而对于其他帧，先验知识为基于

和

生成的融合向量

。

由于每一帧图片的先验知识不仅仅局限于前一时刻的帧特征，还包含了整个序列的信息，充分挖掘了时域特征，有效地防止了GRU仅仅关注视频序列中连续的特征。

本公开实施例提供的时域注意力模型巧妙地将RNN的思想（GRU）和注意力机制相结合，并在其中融合了全局特征，能够较好地挖掘帧特征中的有效特征并减弱噪声的影响。

本发明人发现，现有的注意力机制虽然会通过时域分析为每一帧图片的特征生成相应的权重，但将每一帧图片的特征作为一个独立的整体，权重会极大的削弱受污染帧图片中的有价值的特征，导致特征的完整度受损。

本公开实施例提出的时域注意力模型希望通过将每一个特征维度作为一个独立的个体，然后利用时域信息来评估每一个特征，再将其整合为一个特征整体，进而确保有效特征得到保留，无效的特征得到丢弃，生成完整度较高的代表性特征。因此，本公开实施例的权重体现为权重向量的形式，该权重的通道数与帧特征的通道数相同。

例如，对于{0.11,0.32,0.56}的帧特征，现有的注意力机制为其生成一个0.4的权重值，而本公开实施例的方案为每个特征维度生成一个权重值，例如可以生成{0.3,0.6,0.5}的权重向量。通过该技术方案，即使帧中的部分特征维度上存在噪声，也不会由于得到的整体权重较低而导致其他特征维度上的有效信息的丢失。

返回参考图1。在操作S150，基于所述权重和所述帧特征，生成第一视频特征。例如，可以直接计算：

其中，V为第一视频特征，

是时间索引，

是整个时间序列的长度。

在本公开另一实施例中，所述基于所述权重和所述帧特征，生成第一视频特征包括：

根据本公开实施例，将每一个时间点的GRU的激活

聚集起来组成新的特征激活序列h₁，h₂，…，h_n（即权重），然后对该特征激活序列在时间维度上进行柔性最大值（softmax）处理，进而对每一个特征生成修正后的权重

，该过程可表示为：

其中，

是时间索引，

是通道维度的索引，

是整个时间序列的长度。

通过修正后的权重

对帧特征f _t进行加权平均操作，得到第一视频特征V：

本公开实施例的方法提取到的第一视频特征的完整度和代表性都得到了加强。

在操作S160，基于所述第一视频特征获得预测结果，例如可以将第一视频特征输入到分类层，分类层例如可以包括使用softmax的全连接层，用于输出预测结果。该预测结果用于表示目标对象为各个行人ID的概率，作为对行人身份的估计。

在操作S170，基于所述预测结果和所述标注信息优化所述预测模型的模型参数，例如可以基于预测结果和标注信息构建损失函数，通过调整模型参数使损失函数收敛的方式对模型参数进行优化。

根据本公开实施例的技术方案，通过如上文所述的时域注意力模型充分挖掘了时域特征，得到的第一视频特征不仅关注连续特征，也能兼顾非连续特征，有助于提高行人识别的效果。

此外，本发明人发现，在行人重识别数据库中，由于行人检测和行人跟踪算法的不完善，数据库中存在大量被污染的数据（低质量行人数据），并且由于数据搜集的难度，很多行人ID的样本量较少。然而中心损失函数是通过累积每一个行人ID对应的所有样本生成，因此，样本量较少的行人ID生成的监督信号具有较差的稳定性和代表性，用该信号进行模型训练的监督会影响预测模型最终的泛化性能。

因此，考虑通过约束类内特征的一致性来进一步挖掘视频序列中的特征。一些相关技术通过累积行人ID下所有样本的特征，为每个ID生成一个监督信号。本发明人发现，该做法对每一个ID样本的数量要求较高，当样本数量较少时，特征的稳定度较低，进而导致生成的信号代表性不足，在行人重识别场景中，由于视角变化、遮挡等因素，同一行人不同视频序列的特征可能存在较大差异，因此，为每一个行人生成一个统一的监督信号并不完全适用于行人重识别任务。

本公开实施例提供的方法建立两个分支，包括作为学生分支的第一分支和作为老师分支（或称为动态监督分支）的第二分支，通过第二分支为每一个样本生成其特有的监督信号来辅助网络的训练，监督整个网络的学习，以缓解上述问题。

图5示出根据本公开实施例的获得预测结果的流程图。

根据本公开实施例，预测结果包括第一预测结果和第二预测结果，如图5所示，上述操作S160，基于所述第一视频特征获得预测结果可以进一步包括操作S510~S540，其中，S510和S520在第一分支上实现，S530和S540在第二分支上实现。

在操作S510，通过第一衰减头部处理所述第一视频特征，得到第二视频特征；

在操作S520，通过第一分类层处理所述第二视频特征，得到第一预测结果；

在操作S530，通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征；

在操作S540，通过第二分类层处理所述第三视频特征，得到第二预测结果。

下面结合图6所示意的预测模型进行说明。

图6示出根据本公开另一实施例的预测模型的示意图。

如图6所示，该预测模型包括输入层（未示出）、主干网络（特征提取器）、时域注意力模型、二分支结构组成。输入层、主干网络、时域注意力模型请参照上文的描述，此处不再赘述。二分支结构包括作为学生分支的第一分支和作为老师分支的第二分支，其中，第一分支包括第一衰减头部和第一分类层，第二分支包括多头图卷积网络、第二衰减头部和第二分类层，第一衰减头部和第二衰减头部共享参数，第一分类层和第二分类层共享参数。

根据本公开实施例，多头图卷积网络用于进一步挖掘类内特征，保持类内特征的一致性，使每一个批量（batch）中同一个行人ID的样本的特征更加完善，完善后的监督信号代表性和特征完整度都得到了极大的提升。通过多头图卷积网络，第二分支可以为每一个视频序列生成特定的监督信号，该监督信号将引导整个预测模型的训练。

根据本公开实施例，在多头图卷积网络部分，在每一个批量（batch）里面，根据标注信息将同一个ID的样本特征按照特征之间的余弦距离组成一个图

，其中

是ID信息，

是该ID下样本序列的索引，K是该ID下样本的总量。多头图卷积网络处理各个行人ID对应的图

，以挖掘类内样本特征。

根据本公开实施例，第一衰减头部或第二衰减头部用于将输入的特征在通道维度上衰减，即，用于减少特征维度。第一衰减头部或第二衰减头部分别包括线性变换矩阵、批标准化层（BN）和激活层（例如ReLU），二者共享参数。

根据本公开实施例，第一分类层和第二分类层例如可以包括使用softmax的全连接层，用于输出预测结果。在训练阶段，第一分类层和第二分类层分别用于输出第一预测结果和第二预测结果，用于监督学习。在测试阶段或实际预测阶段，可以仅用第一分类结果或第二分类结果中的一个作为预测结果。该第一预测结果或第二预测结果用于表示目标对象为各个行人ID的概率，作为对行人身份的估计。

可选地，本公开实施例的方法可以在通道维度上将图分割为多个子图，分别对每个子图进行处理，从而同一噪声不会出现在全部子图中，能够至少部分地减轻噪声的干扰。

图7示出根据本公开实施例的获得第三视频特征的流程图。

如图7所示，上述操作S530，通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征可以进一步包括操作S710~S740。

在操作S710，根据标注信息，将同一个行人的第一视频特征根据各个第一视频特征之间的余弦距离，构建多个第一视频特征的图；

在操作S720，按照通道维度将每个第一视频特征分割，从而将图分割为多个子图；

在操作S730，通过多头图卷积网络处理所述多个子图，将得到的结果在通道维度上连接，得到第四视频特征；

在操作S740，通过第二衰减头部处理所述第四视频特征，得到第三视频特征。

根据本公开实施例，可以在通道维度将每一个特征分割成

个部分得到

个子图，此时第

个ID的图

可以表示为图序列

，将分割后的图序列输入到多头图卷积网络中进行特征完善。

对于第

个图卷积网络可以表示为：

其中

是图各个节点间余弦距离的矩阵表示，

是

的对角线矩阵，

是线性变换矩阵。

图卷积网络通过学习每个节点和整个图中其余节点的关系来完善特征向量。因此，经过图卷积网络完善后的特征，其特征完整度得到了极大的提升。

在所有子图都经过了对应的图卷积网络过后，我们将每一个样本的特征在通道维度上再次进行连接，然后经过第二衰减头部对特征进行降维压缩。

根据本公开实施例，所述基于所述预测结果和所述标注信息优化所述预测模型的模型参数包括：

根据本公开实施例，至少通过标注信息对预测结果进行监督，即通过损失函数优化模型参数，该损失函数可以是三元损失函数和/或交叉熵损失函数。除此以外，本公开实施例的技术方案还将第二分支即动态监督分支生成的特征向量、概率分布作为第一分支的学习基准，并采用损失函数分别对第一衰减头输出的特征和分类层输出的概率进行多层级监督，该损失函数例如可以为均方差损失函数和/或KL散度损失函数。

通过第二分支的设计，本公开实施例提供了一种新式的用于雷内特征挖掘的监督信号生成方式。该第二分支通过图卷积网络对每一个批量（batch）中同一个行人ID的样本进行特征完善，由于有其他类内特征作为参考，该监督信号的代表性和完整度都有了大幅度提高。并且，生成的监督信号会受到损失函数训练的监督训练，这会极大的提高其稳定性。因此，利用该监督信号训练网络，网络提取特征的能力得到了极大的加强。

根据本公开实施例，该方法还可以包括，在模型参数优化完成后，从所述预测模型中删除所述第二分支。

根据本公开实施例，在训练阶段使用第二分支对第一分支进行监督，在测试阶段或实际预测阶段，网络参数固定，第二分支即动态监督分支被丢弃掉，视频数据将经过主干网络（特征提取器），时域注意力模型和衰减头后直接输出对应输入的特征表示到分类层，产生分类预测结果。剪枝后的预测模型预测效率更高。

图8示出根据本公开实施例的模型训练装置800的框图。其中，该装置800可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图8所示，所述模型训练装置800，用于训练预测模型，包括样本获取模块810、特征提取模块820、池化模块830、权重生成模块840、视频特征生成模块850、预测模块860以及参数优化模块870。

样本获取模块810，被配置为获取视频样本数据，所述视频样本数据带有标注信息；

特征提取模块820，被配置为通过所述预测模型的主干网络处理所述视频样本数据，获取多个帧特征；

池化模块830，被配置为通过时间域的池化处理所述多个帧特征，得到全局特征；

权重生成模块840，被配置为对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重；

视频特征生成模块850，被配置为基于所述权重和所述帧特征，生成第一视频特征；

预测模块860，被配置为基于所述第一视频特征获得预测结果；

参数优化模块870，被配置为基于所述预测结果和所述标注信息优化所述预测模型的模型参数。

根据本公开实施例，所述权重的通道数与所述帧特征的通道数相同。

根据本公开实施例，所述权重生成模块840进一步被配置为：

根据本公开实施例，所述视频特征生成模块850进一步被配置为：

根据本公开实施例，所述预测结果包括第一预测结果和第二预测结果，所述预测模块860进一步被配置为：

根据本公开实施例，所述通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征包括：

根据本公开实施例，所述参数优化模块870进一步被配置为：

根据本公开实施例，该装置800还包括：

剪枝模块，被配置为在模型参数优化完成后，从所述预测模型中删除所述第二分支。

本公开实施例还提供了一种预测方法，包括将视频数据输入至通过上文描述的方法训练获得的预测模型，得到预测结果。

如上文所述，由于第二分支在训练后被删除，该预测模型可以包括主干网络、时域注意力模型以及第一分支。其中，主干网络用于提取视频帧的特征，时域注意力模型用于基于视频帧的特征生成视频特征，第一分支包括第一衰减头部和第一分类层，用于产生预测结果。

根据本公开实施例，该预测模型可用于执行以下操作：

通过主干网络处理所述视频数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

该过程与训练中的正向传播过程的区别仅在于缺少第二分支，时域注意力模型产生第一视频特征仅进入第一分支，其他过程与训练中的正向传播过程一致，此处不再赘述。

另一方面，本公开实施例还提供了一种预测装置，包括

特征提取模块，被配置为通过主干网络处理视频数据，获取多个帧特征；

第一衰减头部，被配置为处理所述第一视频特征，得到第二视频特征；

第一分类层，被配置为处理所述第二视频特征，得到所述预测结果。

通过以上预测方法和装置，由于更好地挖掘了特征序列中的有效特征，并减弱噪声的影响，使得行人重识别的结果更加准确。

本公开还公开了一种电子设备，图9示出根据本公开实施例的电子设备的框图。

如图9所示，所述电子设备900包括存储器901和处理器902，其中，所述存储器901用于存储支持电子设备执行上述任一实施例中的信息处理方法或代码生成方法的程序，所述处理器902被配置为用于执行所述存储器901中存储的程序。

根据本公开实施例，所述存储器901用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器902执行以实现以下步骤：

获取视频样本数据，所述视频样本数据带有标注信息；

通过预测模型的主干网络处理所述视频样本数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

基于所述第一视频特征获得预测结果；

根据本公开实施例，所述对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重包括：

根据本公开实施例，所述基于所述权重和所述帧特征，生成第一视频特征包括：

根据本公开实施例，所述预测结果包括第一预测结果和第二预测结果，所述基于所述第一视频特征获得预测结果包括：

根据本公开实施例，所述处理器902还用于执行：

根据本公开实施例，所述存储器901用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器902执行，用于将视频数据输入至如上文所述的模型训练方法训练的预测模型，得到预测结果。

根据本公开实施例，所述预测模型用于执行以下操作：

通过主干网络处理所述视频数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

如图10所示，计算机系统1000包括处理单元1001，其可以根据存储在只读存储器（ROM）1002中的程序或者从存储部分1008加载到随机访问存储器（RAM）1003中的程序而执行上述实施例中的各种处理。在RAM 1003中，还存储有系统1000操作所需的各种程序和数据。处理单元 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。其中，所述处理单元1001可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种模型训练方法，用于训练预测模型，所述方法包括：

获取视频样本数据，所述视频样本数据带有标注信息；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

基于所述第一视频特征获得预测结果；

2.根据权利要求1所述的方法，其中，所述权重的通道数与所述帧特征的通道数相同。

3.根据权利要求1所述的方法，其中，所述对于每个视频帧，基于所述帧特征和所述全局特征生成所述视频帧的权重包括：

4.根据权利要求1~3任一项所述的方法，其中，所述基于所述权重和所述帧特征，生成第一视频特征包括：

5.根据权利要求1所述的方法，其中，所述预测结果包括第一预测结果和第二预测结果，所述基于所述第一视频特征获得预测结果包括：

6.根据权利要求5所述的方法，其中，所述通过多头图卷积网络和第二衰减头部处理所述第一视频特征，得到第三视频特征包括：

7.根据权利要求5所述的方法，其中，所述基于所述预测结果和所述标注信息优化所述预测模型的模型参数包括：

8.根据权利要求5~7任一项所述的方法，还包括：

9.一种预测方法，包括，将视频数据输入至如权利要求1~8任一项所述的方法训练的预测模型，得到预测结果。

10.根据权利要求9所述的方法，其中，所述预测模型用于执行以下操作：

通过主干网络处理所述视频数据，获取多个帧特征；

通过时间域的池化处理所述多个帧特征，得到全局特征；

基于所述权重和所述帧特征，生成第一视频特征；

11.一种模型训练装置，用于训练预测模型，包括：

预测模块，被配置为基于所述第一视频特征获得预测结果；

12.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1~10任一项所述方法的步骤。

13.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1~10任一项所述方法的步骤。