CN118172705A

CN118172705A - 基于知识蒸馏的跨架构视频动作识别方法及装置

Info

Publication number: CN118172705A
Application number: CN202410399943.XA
Authority: CN
Inventors: 陈健; 杨泽杭
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-06-11

Abstract

本发明公开了一种基于知识蒸馏的跨架构视频动作识别方法及装置，包括：选择属于不同架构的教师模型和学生模型；获取视频中的原始数据，预处理后得到用于训练的训练数据；将同一批训练数据分别传入教师模型和学生模型，提取教师模型和学生模型的中间层特征，构建互补式特征蒸馏损失；提取出教师模型和学生模型的输出层表征，构建软标签蒸馏损失；构建学生模型的分类交叉熵损失；基于三个损失训练学生模型，利用训练好的学生模型对待处理的视频动作进行识别。本发明通过互补式特征蒸馏方法，解决了传统的特征蒸馏方法在跨架构的场景中难以产生提升效果的问题，有效地实现了中间层特征知识的跨架构迁移，增强了跨架构学习的增益效果。

Description

基于知识蒸馏的跨架构视频动作识别方法及装置

技术领域

本发明属于动作识别的技术领域，具体涉及一种基于知识蒸馏的跨架构视频动作识别方法及装置。

背景技术

视频动作识别是视频理解领域最重要的研究内容之一，其处理的数据是一个连续的RGB图像序列。视频动作识别不仅要分析每个视频帧的内容，还需要从视频帧之间的时序变化中挖掘线索，这要求模型能够同时建模局部的空间信息和长距离的时间依赖，因此，基于单架构的方法通常无法充分地捕获视频中的动作特征。现阶段大部分视频动作识别模型都是基于两种网络架构设计的，分别是卷积神经网络(CNN)和视觉Transformer。CNN架构的典型代表是3D CNN，它们使用三维卷积作为视频数据的处理单元，以同时处理视频数据的二维空间和一维时间信息。另一方面，基于研究[3]提出的视觉Transformer的设计理念，现有技术提出了基于视觉Transformer架构的视频动作识别模型，它们利用自注意力机制来建模视频数据的全局时空信息。虽然CNN和视觉Transformer架构都能用于视频动作识别任务，但它们有各自的优势和劣势。CNN擅长提取数据的局部特征，但由于有效感受野的限制，它难以捕获全局表征，例如长距离依赖和上下文信息；而视觉Transformer擅长建模数据的全局关联，但由于没有强大的数据假设(即归纳偏置，如局部性和平移不变性)，它在捕获局部特征细节上存在局限性。很显然，CNN和视觉Transformer存在互补关系，因此，如何结合这两种网络架构的特性以实现更准确的动作识别成为了该领域的一个研究热点。

知识蒸馏作为一种常见的知识迁移和模型优化技术，已经有相关研究将其应用于CNN和Transformer的跨架构学习。知识蒸馏方法通常采用一种教师-学生式的训练框架，基于知识蒸馏的跨架构学习即用异构的教师模型指导学生模型的训练，使其掌握不同架构模型的先进知识，从而获得更好的性能。

在图像分类领域，现有技术提出了一种专门用于Transformer模型的知识蒸馏方式，它在Transformer学生模型的输入序列中添加了一个额外的蒸馏词符用以接受教师模型的指导。另外，他们使用CNN作为教师模型来蒸馏视觉Transformer，通过利用CNN的归纳偏置提高了视觉Transformer的训练效率。该研究借助知识蒸馏技术有效地实现了CNN模型与视觉Transformer模型的跨架构学习，并通过实验结果验证了跨架构学习的有效性和优越性。

在音频分类领域，现有技术提出了一种基于CNN和Transformer音频分类模型的双向知识蒸馏框架CMKD，旨在探索通过跨架构知识蒸馏能否进一步提升这两种模型的性能。具体来说，CMKD将基于模型输出层表征的知识用于蒸馏，并设计了从CNN到Transformer和从Transformer到CNN两个方向的蒸馏实验，通过大量的实验结果表明跨架构知识蒸馏不仅能在两个方向上起作用，还能让学生模型的性能优于教师模型。

深度学习模型擅长学习数据多层次的抽象表征，因此模型的中间层表征中蕴含着丰富的信息可以用于知识蒸馏。另外，不同网络架构采用了不同的方式(如卷积和自注意力)来建模数据特征，其中间层表征中还蕴含着特定于架构的信息。上述两个基于知识蒸馏的跨架构学习研究都仅考虑了基于输出层表征的知识(即类别概率分布)，而没有进一步挖掘模型中间层特征蕴含的丰富信息用于知识蒸馏，这样无法充分地实现跨架构学习。然而，采用传统的特征蒸馏方法让学生特征直接对齐异构教师特征难以产生提升效果，造成这种现象的原因主要有两个：一是异构教师和学生的特征之间存在较大的差异使特征对齐损失难以优化；二是若一味地强调让学生特征与异构教师特征保持一致可能会使其丢失本身蕴含的关键信息。目前仍没有研究工作在视频动作识别领域提出有效的基于知识蒸馏的跨架构学习方法，尤其是基于中间层特征的知识蒸馏。如何解决传统的特征蒸馏方法难以适用于跨架构场景的问题并基于知识蒸馏技术实现有效的跨架构学习亟需进一步探索。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于知识蒸馏的跨架构视频动作识别方法及装置，本发明提出了一种互补式特征蒸馏方法，解决了传统的特征蒸馏方法在跨架构的场景中难以产生提升效果的问题，有效地实现了中间层特征知识的跨架构迁移，进一步增强了跨架构学习的增益效果。

为了达到上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种基于知识蒸馏的跨架构视频动作识别方法，包括下述步骤：

选择属于不同架构的教师模型和学生模型；

获取视频中的原始数据，并对原始数据进行预处理后得到用于训练的训练数据；

将同一批训练数据分别传入教师模型和学生模型，提取教师模型和学生模型的中间层特征，构建互补式特征蒸馏损失；所述互补式特征蒸馏损失具体为：使用教师模型蒸馏学生模型时，先利用交叉注意力让教师模型融合学生模型的局部特征，得到一个具有全局和局部特征的新的教师特征，新的教师特征同时保留了自身完整的信息以及学生特征蕴含的部分关键信息，使得在特征蒸馏时，学生模型能够在学习教师模型的先进知识的同时保留住自身的优点；

提取出教师模型和学生模型的输出层表征，构建软标签蒸馏损失；所述软标签蒸馏损失用于表征学生模型的预测结果与教师模型预测结果的差异；

构建学生模型的分类交叉熵损失；所述分类交叉熵损失用于表征学生模型的预测结果与真实标签的差异；

基于互补式特征蒸馏损失、软标签蒸馏损失和分类交叉熵损失训练学生模型，利用训练好的学生模型对待处理的视频动作进行识别。

作为优选的技术方案，所述教师模型采用视觉Transformer架构，所述学生模型采用CNN架构。

作为优选的技术方案，所述获取视频中的原始数据，并对原始数据进行训练，具体为：

从每个视频样本中等间隔采样若干帧作为模型的原始数据；

对每个采样到的视频帧按等比例放缩；

进行数据增强；

对数据进行张量化和规范化得到模型的输入。

作为优选的技术方案，所述构建互补式特征蒸馏损失，具体为：

将教师模型和学生模型在第i个中间层提取的特征分别记为和/>

调整学生特征的形状和维度大小使其与教师特征保持一致；

将经过调整后的第i个中间层的教师特征和学生特征分别记为和/>计算教师特征对学生特征的交叉注意力A^c；

将原始的教师特征与交叉注意力相加得到新的教师特征：

构建互补式特征蒸馏损失，损失函数的定义如下所示：

其中，N表示中间层的层数，l_i,i∈[1,N]表示第i个中间层的特征蒸馏权重，||·||₂表示L2范数也即欧几里得距离，用于衡量两个特征向量的差异。

作为优选的技术方案，所述计算教师特征对学生特征的交叉注意力，具体为：

根据键值对注意力机制，首先用教师特征生成查询矩阵Q，用学生特征生成键矩阵K和值矩阵V：

其中，W_Q、W_K和W_V分别表示用于生成Q、K和V的线性映射的参数权重；接着，用以下公式计算交叉注意力A^c：

其中，C_t表示教师特征的通道维度。

作为优选的技术方案，所述构建软标签蒸馏损失，具体为：

将教师模型和学生模型的输出层表征分别记为z^t和z^s；

计算教师模型和学生模型预测的类别概率分布p^t和p^s，称为软标签，其中每个类别i对应的概率值通过以下的公式计算：

其中，C为类别总数，t为温度参数，用于平滑输出的概率分布；

构建软标签蒸馏损失，损失函数的定义如下所示：

其中N表示输入的样本数量，KL(·||·)表示KL散度，用于衡量两个概率分布之间的差异。

作为优选的技术方案，所述构建学生模型的分类交叉熵损失，具体为：

将输入样本的真实标签记为y；将学生模型最终输出的预测向量记为

构建分类交叉熵损失，所述分类交叉熵损失损失函数的定义如下所示：

其中，N为输入的样本数量；C为类别总数；的取值0或1，若样本n的真实类别为c取1，否则取0；/>为样本n被预测为类别c的概率。

第二方面，本发明提供了一种基于知识蒸馏的跨架构视频动作识别系统，应用于所述的基于知识蒸馏的跨架构视频动作识别方法，包括模型选择模块、数据准备模块、互补式特征蒸馏损失构建模块、软标签蒸馏损失构建模块、分类交叉熵损失构建模块以及模型训练模块；

所述模型选择模块，用于选择属于不同架构的教师模型和学生模型；

所述数据准备模块，用于获取视频中的原始数据，并对原始数据进行预处理后得到用于训练的训练数据；

所述互补式特征蒸馏损失构建模块，用于将同一批训练数据分别传入教师模型和学生模型，提取教师模型和学生模型的中间层特征，构建互补式特征蒸馏损失；所述互补式特征蒸馏损失具体为：使用教师模型蒸馏学生模型时，先利用交叉注意力让教师模型融合学生模型的局部特征，得到一个具有全局和局部特征的新的教师特征，新的教师特征同时保留了自身完整的信息以及学生特征蕴含的部分关键信息，使得在特征蒸馏时，学生模型能够在学习教师模型的先进知识的同时保留住自身的优点；

所述软标签蒸馏损失构建模块，用于提取出教师模型和学生模型的输出层表征，构建软标签蒸馏损失；所述软标签蒸馏损失用于表征学生模型的预测结果与教师模型预测结果的差异；

所述分类交叉熵损失构建模块，用于构建学生模型的分类交叉熵损失；所述分类交叉熵损失用于表征学生模型的预测结果与真实标签的差异；

所述模型训练模块，用于基于互补式特征蒸馏损失、软标签蒸馏损失和分类交叉熵损失训练学生模型，利用训练好的学生模型对待处理的视频动作进行识别。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于知识蒸馏的跨架构视频动作识别方法。

第四方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于知识蒸馏的跨架构视频动作识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

1.跨架构学习更充分有效：本发明与现有的基于知识蒸馏的跨架构学习方法相比，进一步考虑了基于中间层特征的知识，使跨架构学习更加充分；另外，针对传统的特征蒸馏方法在跨架构场景中难以产生提升效果的问题，设计了更符合跨架构场景的互补式特征蒸馏方法，保证了跨架构学习的有效性。

2.表达能力和识别准确率提升：本发明利用知识蒸馏技术有效地结合了卷积神经网络(CNN)和视觉Transformer这两种网络架构的特性和优势，提高了CNN模型的表达能力，使其能够更充分地捕捉视频动作的时空特征，与现有的基于单架构的视频动作识别方法相比具有更高的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于知识蒸馏的跨架构视频动作识别方法的流程图；

图2为本发明实施例基于知识蒸馏的跨架构视频动作识别方法整体框架示意图；

图3为本发明实施例基于中间层特征知识的互补式特征蒸馏示意图；

图4为本发明实施例基于知识蒸馏的跨架构视频动作识别系统的方框图。

图5为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1-图3所示，本实施例提供了一种基于知识蒸馏的跨架构视频动作识别方法，解决了传统的特征蒸馏方法在跨架构的场景中难以产生提升效果的问题，该方法具体包括下述步骤：

S1、选择属于不同架构的教师模型和学生模型。

进一步的，所述S1中教师模型和学生模型分别基于视觉Transformer和CNN架构，视觉Transformer架构擅长建模长距离依赖，CNN架构擅长捕获局部特征细节。即教师模型配置为Transformer教师模型，学生模型配置为CNN学生模型。本实施例的模型架构如图2所示。

可以理解的是，为了结合不同网络架构的特性和优势以实现更准确的视频动作识别，频动作识别不仅要分析每个视频帧的内容，还需要从视频帧之间的时序变化中挖掘线索，这要求模型能够同时建模局部的空间信息和长距离的时间依赖。现阶段大部分视频动作识别模型都是基于两种网络架构设计的，分别是卷积神经网络(CNN)和视觉Transformer，它们在视频动作识别任务上有各自的优势和劣势。CNN擅长提取数据的局部特征，但由于有效感受野的限制，它难以捕获全局表征，例如长距离依赖和上下文信息；而视觉Transformer擅长建模数据的全局关联，但由于没有强大的数据假设(即归纳偏置，如局部性和平移不变性)，它在捕获局部特征细节上存在局限性。因此，现有的基于单架构的方法通常无法充分地捕获视频中的动作特征。本实施例借助了知识蒸馏技术来实现CNN模型和视觉Transformer模型的跨架构学习，通过用一个视觉Transformer教师模型指导CNN学生模型的训练，提高了CNN模型的表达能力和性能，相比于单架构训练方法得到的模型具有更高的识别准确率。

S2、准备训练数据，具体为：

S21、从每个视频样本中等间隔采样若干帧作为模型的原始数据；

S22、对每个采样到的视频帧按等比例放缩，将最短边的长度调整到256个像素；

S23、进行一系列的数据增强，从而得到训练数据。

在一个具体的实施例中，所述数据增强包括将视频帧随机裁剪为224×224大小以及按0.5的概率随机水平翻转，最后对数据进行张量化和规范化得到模型的输入。

S3、将同一批训练数据分别传入教师模型和学生模型，提取教师模型和学生模型的中间层特征，构建互补式特征蒸馏损失。

更进一步的，如图3所示，所述互补式特征蒸馏的具体过程具体包括以下步骤：

S31：将教师模型和学生模型在第i个中间层提取的特征分别记为和/>

S32：调整学生特征的形状和维度大小使其与教师特征保持一致，方便进行蒸馏。

更进一步的，所述步骤S32具体包括：

S321、对教师特征和学生特征的时间和空间维度进行放缩，放缩的尺度取决于教师特征和学生特征对应维度的较小者；

S322、接着将特征图展开为特征序列；

S323、通过一个全连接层将学生特征的通道维度调整为与教师特征的通道维度相同。

S33、将经过S32所述调整后的第i个中间层的教师特征和学生特征分别记为和计算教师特征对学生特征的交叉注意力。

更进一步的，所述步骤S33具体为：

S331、根据键值对注意力机制，首先用教师特征生成查询矩阵Q，用学生特征生成键矩阵K和值矩阵V：

其中，W_Q、W_K和W_V分别表示用于生成Q、K和V的线性映射的参数权重。

S332、接着，用以下公式计算交叉注意力A^c：

其中，C_t表示教师特征的通道维度。

S34、将原来的教师特征与S33所述的交叉注意力相加得到新的教师特征：

S35、构建互补式特征蒸馏损失，损失函数的定义如下所示：

可以理解的是，传统的特征蒸馏方法让学生特征直接对齐异构教师的特征，这种方式在跨架构场景中难以产生提升效果。在技术背景介绍中我们说到CNN和视觉Transformer的特征存在较大的差异，CNN更关注局部细节，而视觉Transformer更关注全局上下文，让CNN的特征对齐视觉Transformer的特征可能会使其丢失掉局部性信息(相反可能使视觉Transformer丢失全局性信息)。为了解决上述问题，本发明提出了互补式特征蒸馏方法，其核心思想是让教师模型在指导学生模型训练之前先整合学生模型已经掌握的部分重要信息。具体来说，在用视觉Transformer教师蒸馏CNN学生时，先利用交叉注意力让Transformer教师融合CNN学生的局部特征，得到一个具有全局和局部特征的新的教师特征。由于融合了学生特征的部分信息，新的教师特征与学生特征之间的差异降低了，与此同时，新的教师特征同时保留了自身完整的信息以及学生特征蕴含的部分关键信息，这使得在特征蒸馏时，学生模型能够在学习教师模型的先进知识的同时保留住自身的优点。

S4、提取出教师模型和学生模型的输出层表征，构建软标签蒸馏损失；具体为：

S41、将教师模型和学生模型的输出层表征分别记为z^t和z^s；

S42、计算教师模型和学生模型预测的类别概率分布p^t和p^s，也称为软标签，其中每个类别i对应的概率值可以通过以下的公式计算：

其中C为类别总数，t为温度参数，用于平滑输出的概率分布；

S43、构建软标签蒸馏损失，损失函数的定义如下所示：

其中N表示输入的样本数量，KL(·||·)表示KL(Kullback Leibler)散度，用于衡量两个概率分布之间的差异。

S5、构建学生模型的分类交叉熵损失，具体包括以下步骤：

S51、将输入样本的真实标签记为y；将学生模型最终输出的预测向量记为

S52、构建分类交叉熵损失，损失函数的定义如下所示：

S6、结合上述步骤构建的三项损失，训练学生模型，总体的损失函数如下所示：

其中，α和b均为超参数，用于衡量各项损失的权重。

进一步的，在训练过程中，用预先训练好的参数权重初始化教师模型，并采用梯度下降法对学生模型的参数和互补式特征蒸馏引入的额外参数进行更新。在测试过程中，仅使用到学生模型的参数。

可以理解的是，模型的中间层特征和输出层表征都蕴含着丰富的信息可以用于知识蒸馏，然而在基于知识蒸馏的跨架构学习上，现有的大部分研究仅考虑了基于输出层表征的知识，没有进一步挖掘中间层特征中蕴含的特定于架构的信息，导致跨架构学习不够充分。另外，传统的特征蒸馏方法让学生特征直接对齐异构教师的特征，这种方式在跨架构场景中也难以产生提升效果。本发明提出了的一种互补式特征蒸馏方法，其核心思想是让教师模型在指导学生模型训练之前先整合学生模型已经掌握的部分重要信息，这样不仅降低了学生特征与教师特征之间的差异，还使学生模型能够在学习教师模型的先进知识的同时保留自身的优点，最终实现有效的跨架构学习。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于知识蒸馏的跨架构视频动作识别方法相同的思想，本发明还提供了基于知识蒸馏的跨架构视频动作识别系统，该系统可用于执行上述基于知识蒸馏的跨架构视频动作识别方法。为了便于说明，基于知识蒸馏的跨架构视频动作识别系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图4，在本申请的另一个实施例中，提供了一种基于知识蒸馏的跨架构视频动作识别系统100，该系统包括模型选择模块101、数据准备模块102、互补式特征蒸馏损失构建模块103、软标签蒸馏损失构建模块104、分类交叉熵损失构建模块105以及模型训练模块106；

所述模型选择模块101，用于选择属于不同架构的教师模型和学生模型；

所述数据准备模块102，用于获取视频中的原始数据，并对原始数据进行预处理后得到用于训练的训练数据；

所述互补式特征蒸馏损失构建模块103，用于将同一批训练数据分别传入教师模型和学生模型，提取教师模型和学生模型的中间层特征，构建互补式特征蒸馏损失；所述互补式特征蒸馏损失具体为：使用教师模型蒸馏学生模型时，先利用交叉注意力让教师模型融合学生模型的局部特征，得到一个具有全局和局部特征的新的教师特征，新的教师特征同时保留了自身完整的信息以及学生特征蕴含的部分关键信息，使得在特征蒸馏时，学生模型能够在学习教师模型的先进知识的同时保留住自身的优点；

所述软标签蒸馏损失构建模块104，用于提取出教师模型和学生模型的输出层表征，构建软标签蒸馏损失；所述软标签蒸馏损失用于表征学生模型的预测结果与教师模型预测结果的差异；

所述分类交叉熵损失构建模块105，用于构建学生模型的分类交叉熵损失；所述分类交叉熵损失用于表征学生模型的预测结果与真实标签的差异；

所述模型训练模块106，用于基于互补式特征蒸馏损失、软标签蒸馏损失和分类交叉熵损失训练学生模型，利用训练好的学生模型对待处理的视频动作进行识别。

需要说明的是，本发明的基于知识蒸馏的跨架构视频动作识别系统与本发明的基于知识蒸馏的跨架构视频动作识别方法一一对应，在上述基于知识蒸馏的跨架构视频动作识别方法的实施例阐述的技术特征及其有益效果均适用于基于知识蒸馏的跨架构视频动作识别的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于知识蒸馏的跨架构视频动作识别系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于知识蒸馏的跨架构视频动作识别系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图5，在一个实施例中，提供了一种实现基于知识蒸馏的跨架构视频动作识别方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如基于知识蒸馏的跨架构视频动作识别程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如基于知识蒸馏的跨架构视频动作识别程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的基于知识蒸馏的跨架构视频动作识别程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

选择属于不同架构的教师模型和学生模型；

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于知识蒸馏的跨架构视频动作识别方法，其特征在于，包括下述步骤：

选择属于不同架构的教师模型和学生模型；

2.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述教师模型采用视觉Transformer架构，所述学生模型采用CNN架构。

3.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述获取视频中的原始数据，并对原始数据进行训练，具体为：

从每个视频样本中等间隔采样若干帧作为模型的原始数据；

对每个采样到的视频帧按等比例放缩；

进行数据增强；

对数据进行张量化和规范化得到模型的输入。

4.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述构建互补式特征蒸馏损失，具体为：

调整学生特征的形状和维度大小使其与教师特征保持一致；

将原始的教师特征与交叉注意力相加得到新的教师特征：

构建互补式特征蒸馏损失，损失函数的定义如下所示：

5.根据权利要求4所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述计算教师特征对学生特征的交叉注意力，具体为：

其中，C_t表示教师特征的通道维度。

6.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述构建软标签蒸馏损失，具体为：

将教师模型和学生模型的输出层表征分别记为z^t和z^s；

构建软标签蒸馏损失，损失函数的定义如下所示：

7.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法，其特征在于，所述构建学生模型的分类交叉熵损失，具体为：

8.基于知识蒸馏的跨架构视频动作识别系统，其特征在于，应用于权利要求1-7中任一项所述的基于知识蒸馏的跨架构视频动作识别方法，包括模型选择模块、数据准备模块、互补式特征蒸馏损失构建模块、软标签蒸馏损失构建模块、分类交叉熵损失构建模块以及模型训练模块；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于知识蒸馏的跨架构视频动作识别方法。

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的基于知识蒸馏的跨架构视频动作识别方法。