CN113239801A

CN113239801A - 基于多尺度特征学习和多级域对齐的跨域动作识别方法

Info

Publication number: CN113239801A
Application number: CN202110520422.1A
Authority: CN
Inventors: 程建宏
Original assignee: Beijing Azuaba Technology Co ltd
Current assignee: Beijing Azuaba Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-10
Anticipated expiration: 2041-05-13
Also published as: CN113239801B

Abstract

本发明涉及基于多尺度特征学习和多级域对齐的跨域动作识别方法，包括：1）视频预处理，用于获取视频帧数长短固定的短视频；2）训练数据构成，用于构建大量带标签样本对；3）网络模型搭建，用于提取多尺度时空辨别特征；4）目标函数构建和网络训练；5）跨域刻板动作数据集的构建，用于评估本发明的有效性；6）跨域动作识别模型，用于对目标域中短视频测试数据进行时空特征提取和对应动作的高效识别；7）跨域动作评估，用于对目标域中测试视频进行跨域动作评估。本发明的优点是通过多尺度时空辨别特征的提取与多级域自适应对齐目标函数的设计，提高时空特征的鲁棒性、辨别性以及域泛化性，并减少对目标域标签样本的需求。

Description

基于多尺度特征学习和多级域对齐的跨域动作识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，尤其涉及一种基于多尺度特征学习和多级域对齐的跨域动作识别方法。

背景技术

本发明背景技术中公开的信息仅仅旨在增加对本发明的总体背景的理解，而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。

人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研究热点，并因其在智能监控、便捷的人机交互、数字娱乐、健康医疗和康复等领域的潜在应用受到学术界和工业界的密切关注。在早期的研究中，研究者们提出了很多手工设计特征，例如，运动历史直方图、运动能量图像、STIP特征、MoSIFT、DSTIP、3D-SIFT、GIST和Improved DenseTrajectories(IDT)等不同时空特征，但是这些手工设计特征的泛化性能有待提高。

随着深度学习技术的发展，研究者也开始了基于深度学习的动作识别算法，并取得了比手工设计特征更为优越的性能，它们大致可以分为三类：a)基于双流网络的动作识别算法(Two-Stream)，首先，该网络对视频序列中每两帧计算密集光流，得到密集光流序列。然后用单个视频帧和连续多帧光流图片分别训练卷积网络模型，两个分支的网络分别对动作的类别进行判断，最后将两个网络的分类得分进行融合得到最终的动作分类结果，但Two-stream无法有效识别长时间动作；TSN沿用了Two-stream的网络结构。

为了解决长时间动作的识别问题，TSN首先从完整视频中稀疏地采样视频帧，每帧代表一个动作片段，然后将视频帧送入网络中，每个动作片段本身都对动作类别做出预测，取多个动作片段的一致性信息作为最终的视频预测结果，最后融合两个网络的分类得分作为视频最终的分类结果；b)基于循环神经网络的动作识别算法(LSTM-RNN)，同样是解决长时间动作的识别问题，LSTM-RNN将多个视频帧输入到网络中，利用长短时记忆模型，获取多帧的关联信息，有效地提取视频长时间动作的时空特征表示；c)基于3D卷积神经网络的动作识别算法(C3D，P3D和I3D)，C3D网络通过3D卷积对连续16帧进行卷积，同时提取视频的空间和时间信息，得到视频的时空特征表示；虽然通过3D卷积操作可以有效挖掘视频中连续帧之间的像素级时序信息，然而C3D的缺点是网络参数量太大，模型训练慢。为了解决这一缺点，P3D将卷积核为的3D卷积分解为的2D空间卷积和的时间卷积，这种级联的卷积方式不仅可以有效地捕获时空信息，而且大大减少了参数量；I3D非局部神经网络：使用非局部块获取视频多帧之间的相关性，捕获长时间的时序信息。

虽然这些基于深度学习的动作识别方法在目标尺度变化相似、具有相同的数据分布、大量带标签训练数据的情况下，它们能够取得不错的性能，但是当目标域中目标尺度变化大、样本标签少以及源域和目标域的数据分布差异较大时，现有方法所提取的时空特征域泛化能力低下和特征的区分性有待提高，因此，部分研究者开始进行跨域动作识别算法的研究，该方法的主要思想是从相关的辅助领域中迁移标注数据，在目标域中实现数据的学习。

至今为止，已经存在一些基于机器学习和深度学习的跨域动作识别方法。例如，申请号为201710330526.X的中国专利申请“基于跨域学习的跨视角动作识别方法”通过学习不同视角特征的变换矩阵，并通过该矩阵将不同视角特征变换到公共特征空间，结合原始特征以及变换特征形成特征向量集。

申请号为201810025242.4的中国专利申请“基于度量学习的迁移学习行为识别方法”通过编码简单动作与复杂动作的关系，并迁移简单动作的知识来帮助复杂动作的学习，有效的解决了复杂动作标签样本不足的问题。

申请号为201910653579.4的中国专利申请“基于双链深度双流网络的小数据跨域动作识别方法”深入挖掘源域和目标域数据的关联，有效地解决了目标域标签数据量少的问题。

申请号为202010849502.7的中国专利申请“基于多模态特征与对抗学习的跨域人体动作识别方法”深入挖掘RGB特征和深度特征的互补特性，结合领域适配的对抗技术，提升了特征的描述能力，增强了模型的跨域分布偏移能力。

申请号为202010708119.X的中国专利申请“基于通道融合和分类器对抗的无监督跨域动作识别方法”通过通道融合提高时空特征的区分性，同时，通过无监督的分类器对抗学习提高域适应能力。

申请号为202011123560.8的中国专利申请“基于知识蒸馏与对抗学习的多模态人体动作识别方法”通过知识蒸馏和对抗学习技术将具有不同描述特征和分类能力的多模态识别模型迁移到新的网络模型中，能够解决某个数据模态丢失问题。

申请号为202011178153.7的中国专利申请“一种结合深度学习和对抗特征解耦的跨域动作识别方法”通过多域二维热图数据获得多域特征，并解耦域相关特征和域无关特征，同时增加域无关特征的权重，从而实现跨域的动作识别。

然而，本发明人发现：这些方法在目标域中目标尺度变化大、样本标签少以及源域和目标域的数据分布差异较大时，其所提取时空特征的辨别性以及域不变性都有待加强。

发明内容

本发明的目的是解决在跨域动作识别任务中当目标域中目标尺度变化大、样本标签少以及源域和目标域的数据分布差异较大时，现有方法所提取的时空特征域泛化能力低下和特征区分性不高的问题。为此，本发明提供一种基于多尺度特征学习和多级域对齐的跨域动作识别方法。这种方法能够充分地挖掘源域和目标域的潜在关联，提高特征的尺度不变性以及域不变性，从而为高效的人体动作识别提供帮助。为实现上述目的，本发明的技术方案如下。

一种基于多尺度特征学习和多级域对齐的跨域动作识别方法，包括步骤：

步骤S1、视频预处理：将数据集中每个视频分割为多个固定长度的短视频，且这些短视频之间存在帧数目的重叠；本步骤的目的在于用于获取视频帧数长短固定的短视频。

步骤S2、训练数据构成：根据源域和目标域数据构建大量成对源域网络和目标域网络作为训练数据；本步骤的目的在于构建大量的、带标签的样本对。

步骤S3、网络模型搭建：搭建对应的跨域动作识别的端到端网络模型，实现鲁棒性时空特征提取以及跨域的动作识别；本步骤的目的在于提取多尺度时空辨别特征。

步骤S4、目标函数构建和网络训练：设计不同的正则项以及对应的目标函数，提高时空特征的辨别能力以及域的自适应对齐能力。

步骤S5、跨域动作数据集的构建：用于对构建的所述网络模型进行训练和测试评估；本步骤的目的在于用于评估本发明的有效性。

步骤S6、跨域动作识别模型：用于对目标域中短视频测试数据进行时空特征提取和对应动作的高效识别。

步骤S7、跨域动作评估：用于对目标域中测试视频进行跨域动作评估，并统计其性能。

进一步地，所述步骤S1中，对于从同一个视频中获得的多个长短相同的短视频，每个短视频之间存在一定帧数的重叠，且每个短视频的标签与原视频的标签一致，这样源域和目标域的训练集就由一系列的短视频构成。

进一步地，所述步骤S2中，为了训练后续的成对网络，即源域网络和目标域网络，并解决目标域标签样本较少的问题，在步骤S1中获得的短视频基础上，首先提取这些短视频的时空特征，其次计算源域和目标域中同一类动作的所有短视频特征之间的欧式距离，并对其进行排序，根据排序结果按照设定间隔选出样本对，同样，计算源域和目标域中不同类动作的所有短视频特征之间的欧式距离，并对其进行排序，从排序的最前端部分选择出样本对，这样就可以产生大量的样本对。

进一步地，所述步骤S3中，为了充分地利用源域数据的大量标签样本，在网络模型搭建中，分别为源域数据和目标域数据构建对应的多尺度时空辨别网络，该网络不仅考虑目标大小以及与摄像头距离远近的不同，且在高层语义特征上提取动作的时序信息，所提取时序特征更加鲁棒、高效。同时，为了充分考虑源域数据分布和目标域数据分布的差异，搭建源域和目标域的多尺度时空辨别网络之间的通信桥梁，使得源域和目标域能够进行多级域自适应的对齐。

进一步地，所述步骤S4中，在所述步骤S4所构建的网络模型的基础上，为了对该模型进行充分地训练，需要构建多级域自适应对齐正则项以及对应的目标函数，使得所提取时空特征具有更好的辨别性以及域自适应性。具体地，该网络模型的目标函数定义如式(1)所示：

所述式(1)中，所述λ₁和λ₂、γ、δ₁、δ₂和δ₃为标量常数，用于控制该正则项的贡献程度，第一个正则项为分类损失正则项，用于判断通过网络学习的多尺度时空特征是否具有辨别性，是否能够将样本区分开，并且其识别率越高越好，从而用于指导网络参数的学习。该正则项通过源域和目标域中所有带标签样本的标准交叉熵分类损失和进行计算，其中“1”为指示函数，K_s和K_t分别为源域和目标域中样本类别的数目，

和

分别表示源域和目标域的多尺度时空辨别网络Softmax分类器函数的输出，其评估结果分别为动作类别b和q；第二个正则项为多级域自适应对齐正则项，使得源域和目标域不仅能够分布对齐和语义对齐，而且架起了源域和目标域的多尺度时空辨别性网络之间的通信桥梁，充分地挖掘源域和目标域样本之间的潜在关联，这样，使得所提取的多尺度时空特征具有更好的辨别性和域自适应性。

进一步地，在所述多级域自适应对齐正则项中，第一级域自适应对齐正则项使用最大化平均差异来度量，其定义如多级域自适应对齐正则项中第一部分所示，其中N_s和N_t分别为源域和目标域中带标签训练样本的数目，

和

表示第i个短视频和第j短视频分别通过源域多尺度时空辨别网络和目标域多尺度时空辨别网络后的特征向量，k(·,·)为核函数，在项目中拟采用标准的径向基核RBF，即

考虑到目标域中训练数据集标签样本常常很少，通过这些少量的样本无法表征其数据分布，同时，其所学习的时空特征区分性不一定强，那样将影响后续的识别效果，因此，仅通过第一级域自适应对齐正则项无法学习到鲁棒的、辨别性强的时空特征，因此，第二级域自适应对齐正则项通过语义对齐实现，即使得源域和目标域中相同类样本特征的距离尽可能的靠近，而源域和目标域中不同类样本的距离尽可能的大，其定义如多级域自适应对齐正则项中第二部分所示，其中第一项，要求

即要求源域中的样本

与目标域中的样本

的标签相同，相反，对于第二项，则要求

即要求源域中的样本

与目标域中的样本

的标签不相同，m用于控制源域和目标域中不同类样本的分开程度；为了进一步自适应地挖掘源域和目标域的潜在关联，搭建源域多尺度时空辨别网络和目标域多尺度时空辨别网络的通信桥梁，因此，第三级域自适应对齐正则项通过深入挖掘源域多尺度时空辨别网络参数和目标域多尺度时空辨别网络参数的关系实现，其定义如多级域自适应对齐正则项中第三部分所示，其中第一项Layer表示源域和目标域多尺度时空辨别网络的卷积层数，

和

分别表示源域和目标域多尺度时空辨别网络的第i层参数的矩阵表示，C_i和N_i分别表示网络W_i的输出参数和输入参数的数目，

和

分别表示左变换矩阵和右变换矩阵，l_i和r_i分别表示左变换矩阵和右变换矩阵的秩，B_i表示偏差矩阵，

表示矩阵的弗罗贝尼乌斯Frobenius范数，tanh表示非线性激励函数；对于第三级域自适应对齐正则项中第二项，(*)_left代表组信息，其对应于变换矩阵(*)的列向量，(*)_right同样代表组信息，其对应于变换矩阵(*)的行向量。

进一步地，所述步骤S5中，构建一个跨域的刻板动作数据集，该数据集中源域数据由成人完成，而目标域数据由儿童完成，源域和目标域的刻板动作类别相同，该数据集包括10个刻板动作。

优选地，所述刻板动作包括：原地转圈、反复拉抽屉、反复抬头低头、反复扑动双手、反复摇摆身体、来回下蹲、反复开关门、来回上下楼梯、来回奔跑、来回转动物品。

进一步地，所述步骤S6中，根据步骤S1获得目标域中测试视频的多个短视频表示，并在步骤S3和步骤S4中训练的网络模型的基础上，为了充分利用源域中大量标签样本带来的益处，并考虑源域和目标域中样本分布的差异，因此，在跨域人体动作识别中，将源域多尺度时空辨别网络的参数以及源域和目标域多尺度时空辨别网络参数的变换关系加入到最后的人体动作识别模型中，最后，使用目标域多尺度时空辨别网络中训练的Softmax分类器函数对某个短视频进行动作识别。

进一步地，所述步骤S7中，根据步骤S1获得目标域中测试视频的多个短视频表示，以及在步骤S6所获得的每个短视频动作识别结果的基础上，对所有识别结果进行平均，并取概率最大的结果为该视频的最后评估结果。

与现有技术相比，本发明具有以下有益效果：

(1)本发明的这种基于多尺度特征学习和多级域对齐的跨域动作识别方法，其特征在于该方法通过多尺度时空辨别网络的搭建以及多级域自适应目标函数的构建，用于解决在跨域动作识别任务中时空特征的域泛化能力低下和特征区分性不高的问题，同时，充分利用源域中大量标签数据的优势，并将其嵌入到跨域动作识别任务中，进一步提高了其性能。

(2)本发明不仅考虑目标大小以及与摄像头距离远近的不同，且在高层语义特征上提取动作的时序信息，所提取时序特征更加鲁棒、高效。同时，为了充分考虑源域数据分布和目标域数据分布的差异，本发明搭建了源域和目标域的多尺度时空辨别网络之间的通信桥梁，充分地挖掘源域和目标域样本之间的潜在关联，这样，使得所提取的多尺度时空特征具有更好的辨别性和域自适应性。

(3)深入挖掘源域数据和目标域数据的潜在关联，充分利用源域中大量的标签数据，并构建多级域自适应对齐目标函数，指导源域多尺度时空辨别网络和目标域多尺度时空辨别网络的学习，同时，将源域网络和目标域网络的变换关系嵌入到跨域动作识别任务中，进一步提高了跨域动作识别的性能。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明基于多尺度特征学习和多级域对齐的跨域动作识别方法的流程图。

图2为本发明基于多尺度特征学习和多级域对齐的跨域动作识别方法在模型训练时的网络结构示意图。

图3为本发明基于多尺度特征学习和多级域对齐的跨域动作识别方法在模型测试时的网络结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

如图1所示，为本发明的一种基于多尺度特征学习和多级域对齐的跨域动作识别方法的流程图，其主要包括：步骤S10视频预处理、步骤20训练数据构成、步骤30网络模型搭建、步骤40目标函数构建和网络训练、步骤50跨域动作识别模型和步骤S60跨域动作评估，其中：

所述步骤S10视频预处理：由于数据集中每个视频的时间长短是不一致，且长度与后续的跨域动作识别网络的输入也不一致，因此，将数据集中每个视频分割为固定长度为16帧的短视频，且这些短视频之间存在8帧的重叠，如果剩余帧数不足16帧，则直接舍弃，同时，每个短视频的标签与原视频的标签一致，这样源域和目标域的训练集就由一系列的短视频构成。

所述步骤20训练数据构成：为了训练基于多尺度特征学习和多级域对齐的跨域动作识别模型，需要根据源域和目标域视频构建对应的训练数据；为了训练后续的成对网络(源域网络和目标域网络)，并解决目标域标签样本较少的问题，首先，在步骤S10中获得的短视频基础上，通过Kinetics动作数据集对C3D模型进行预训练，并通过这些短视频数据对C3D模型进行微调，从而获得短视频时空特征提取网络模型，同时，通过该网络模型对所有短视频数据进行时空特征提取；其次，计算源域和目标域中同一类动作的所有短视频特征之间的欧式距离，具体地：取出目标域中动作1的某个短视频时空特征，同时，也取出源域中动作1的某个短视频时空特征，计算它们之间的欧式距离，进一步计算目标域中该动作1的时空特征与源域中动作1的所有其它短视频时空特征的欧式距离，并对所有欧式距离进行排序，根据排序结果按照每20个距离结果取出一个结果，这样，目标域中动作1的这个短视频就能与源域中动作1的短视频组成许多样本对，且样本对的多少可以根据距离间隔进行调整，如果需要更多的样本对，则将该距离间隔减少，否则增加该距离间隔；通过这种方式不仅能够获得大量的用于网络模型的训练样本对，解决目标域标签样本少的问题，同时，所获得样本对具有很好的分布特性，网络模型可以快速的收敛，且可以在一定的程度上避免模型的过拟合；类似地，计算源域和目标域中不同类动作的所有短视频特征之间的欧式距离，并对其进行从小到大排序，从排序的最前端部分选择出100个样本对，这样就可以产生大量的样本对；这些样本对用于后续的网络模型训练。

步骤30网络模型搭建：为了充分地利用源域数据的大量标签样本，在网络模型搭建中，分别为源域数据和目标域数据构建对应的多尺度时空辨别网络，该网络不仅考虑目标大小以及与摄像头距离远近的不同，且在高层语义特征上提取动作的时序信息，所提取时序特征更加鲁棒、高效，同时，为了充分考虑源域数据分布和目标域数据分布的差异，搭建源域和目标域的多尺度时空辨别网络之间的通信桥梁，使得源域和目标域能够进行多级域自适应的对齐；特别地，在源域和目标域多尺度时空辨别网络中，首先，使用类似于残差的网络结构，例如，ResNet50，进行鲁棒性特征提取，同时，在残差网络结构内部，进一步构造分层的残差结构，从而实现多尺度的特征表示，其次，在多尺度残差网络的高层语义后端，级联上卷积核为的三维时空卷积模块，实现多尺度时空特征的提取，再次，考虑到源域数据分布和目标域数据分布存在一定的相同和差异，因此，在二维卷积层和三维卷积层上分别构建源域和目标域的多尺度时空辨别网络之间的通信桥梁，自适应地挖掘它们的变换关系以及其潜在关联，其网络结构如图2所示。ResNet50的具体结构见参考文献：DeepResidual Learning for Image Recognition[C],IEEE Conference on ComputerVision&Pattern Recognition.IEEE Computer Society,2016.

步骤40目标函数构建和网络训练：在步骤30搭建的网络模型基础上，为了使得对应模型具有更优越的性能，因此，需要构建多级域自适应对齐正则项以及对应的目标函数，使得所提取时空特征具有更好的辨别性以及域自适应性。具体地，该网络模型的目标函数定义为：

其中λ₁和λ₂、γ、δ₁、δ₂和δ₃为标量常数，用于控制该正则项的贡献程度，第一个正则项为分类损失正则项，用于判断通过网络学习的多尺度时空特征是否具有辨别性，是否能够将样本区分开，并且其识别率越高越好，从而用于指导网络参数的学习。该正则项通过源域和目标域中所有带标签样本的标准交叉熵分类损失和进行计算，其中“1”为指示函数，K_s和K_t分别为源域和目标域中样本类别的数目，

和

分别表示源域和目标域的多尺度时空辨别网络Softmax分类器函数的输出，其评估结果分别为动作类别b和q；第二个正则项为多级域自适应对齐正则项，使得源域和目标域不仅能够数据分布对齐和语义对齐，而且架起了源域和目标域的多尺度时空辨别性网络的通信桥梁，充分地挖掘源域和目标域样本之间的潜在关联，这样，使得所提取的多尺度时空特征具有更好的辨别性和域自适应性。进一步地，在多级域自适应对齐正则项中，第一级域自适应对齐正则项使用最大化平均差异来度量，其定义如多级域自适应对齐正则项中第一部分所示，其中N_s和N_t分别为源域和目标域中带标签训练样本的数目，

和

即要求源域中的样本

与目标域中的样本

的标签相同，相反，对于第二项，则要求

即要求源域中的样本

与目标域中的样本

和

和

表示矩阵的弗罗贝尼乌斯Frobenius范数，tanh表示非线性激励函数；对于第三级域自适应对齐正则项中第二项，(*)_left代表组信息，其对应于变换矩阵(*)的列向量，(*)_right同样代表组信息，其对应于变换矩阵(*)的行向量；特别指出的是，在该目标函数中，多尺度时空辨别网络参数

和

以及源域网络和目标域网络的潜在关联参数

和

需要进行优化学习，其它参数，例如，λ₁和λ₂、γ、δ₁、δ₂、δ₃和m等通过经验进行设置；在模型优化中采用经典的Adam优化算法对网络模型进行优化，具体见参考文献：Kingma D,Ba J.Adam:A Method for Stochastic Optimization[J].Computer Science,2014.

步骤50跨域动作识别模型：在步骤40所构建的网络模型基础上，为了充分利用源域中大量标签样本带来的益处，并考虑源域和目标域中样本分布的差异，因此，在跨域人体动作识别中，将源域多尺度时空辨别网络的参数以及源域和目标域尺度时空辨别网络参数的变换关系加入到最后的人体动作识别模型中，最后，使用目标域多尺度时空辨别网络中训练的Softmax分类器函数对某个短视频进行动作识别，其网络结构如图3所示，其中Softmax分类器函数的定义如式(2)所示：

所述式(2)中：z_i表示第i个输出节点的值,p^t(z_i)表示目标域网络的Softmax分类器函数对某个测试样本的动作类别评估以及对应的概率值，K_t为目标域中动作类别的数目。通过该网络结构，不仅能够充分地利用视频序列的时域信息和空域信息，而且能够通过源域网络参数充分利用源域中大量的标签样本，以及通过变换矩阵挖掘源域与目标域中样本的差异，解决了由于视角变化、遮挡、距离远近和关注目标本身位置变化、监控场景变化等因素对动作识别带来的干扰，从而实现智能化的跨域人体动作识别。

步骤S60跨域动作评估：根据步骤S10获得目标域中测试视频的多个短视频表示，以及在步骤50所获得的每个短视频动作识别结果的基础上，对所有识别结果进行平均，并取概率最大的结果为该视频的最后评估结果，其定义为：

式(3)中，所述

表示第i个输出节点对第j个短视频的输出值，N_t表示目标域中某个视频通过步骤S10获得的短视频个数，K_t为目标域中动作类别的数目，Z_i表示第i个输出节点对整个测试视频的输出值。

式(4)中，所述p^t(Z_i)表示目标域网络的Softmax分类器函数对整个视频的动作类别评估以及对应的概率值。

步骤S70、跨域动作数据集的构建：为了便于对所构建的网络模型进行训练和测试，在所述步骤S5中构建了一个跨域的刻板动作数据集，该数据集中源域数据由50位男女成人拍摄完成，而目标域数据由20位儿童拍摄完成，源域和目标域的刻板动作类别相同，该刻板动作数据集包括10个刻板动作，具体为(1)原地转圈，(2)反复拉抽屉，(3)反复抬头低头，(4)反复扑动双手，(5)反复摇摆身体，(6)来回下蹲，(7)反复开关门，(8)来回上下楼梯，(9)来回奔跑，(10)来回转动物品；这样做的原因是：在训练网络模型时，需要大量的标签样本，然而，儿童尤其是发育迟缓儿童无法重复或厌烦多次的拍摄某个动作，因此，通过成人进行这些动作的拍摄。在视频拍摄过程中，成人被要求在RGB摄像头正前方重复以上动作，且50位成人(男女各25位)进行数据录制时，他们在两个不同的生活环境中每人重复以上动作10次，这些数据被称为源域数据；同样，20位儿童(10位正常发育，10位发育迟缓)也被要求在RGB摄像头正前方重复以上动作，且在两个跟源域环境完全不同的生活环境下进行录制，正常发育儿童重复以上动作5次，发育迟缓儿童重复以上动作2次，这些数据被称为为目标域数据，其中10位正常发育儿童在第1个环境下的所有数据被用来做目标域的训练数据，相同10位正常发育儿童在在第2个环境下拍摄的所有数据被用来做目标域的测试数据，被称之为测试数据1(生活环境不同，人相同)，其余10位发育迟缓儿童在相同生活环境下拍摄的所有数据也被用来做目标域的测试数据，被称之为测试数据2(生活环境相同，人不同)，此外，其余10位发育迟缓儿童在不同生活环境下拍摄的所有数据也被用来做目标域的测试数据，被称之为测试数据3(环境和人都不同)；经统计，该跨域刻板动作数据集包含10个动作，在源域中的训练数据为50人*10次*2个环境*10个动作＝10,000个视频样本，在目标域中，训练数据为10人*1个环境*10个动作*5次＝500个视频样本，测试数据1为10人*1个环境*10个动作*5次＝500个视频样本，测试数据2为10人*1个环境*10个动作*2次＝200个视频样本，测试数据3为10人*1个环境*10个动作*2次＝200个视频样本；

为了验证本发明的有效性，在公开的跨域动作数据集UCF50-OlympicSport以及本发明录制的跨域刻板动作数据集上进行了评测，除了与经典的C3D，P3D和I3D特征比较外，还与State-of-the-art TA3N算法比较。在具体实现中，相关参数通过经验进行设定，其中：λ₁＝0.6、λ₂＝0.4、γ＝0.5、m＝1.2、δ₁＝0.4、δ₂＝0.4、δ₃＝0.2。

另外，C3D，P3D，I3D，TA3N以及本实施例通过Kinetics数据集进行预训练。然后，通过源域和目标域的训练数据进行联合微调，它们在UCF50-OlympicSport数据集和刻板动作数据集上的实验结果分别如表1和表2所示，其中U->O表示UCF50数据集为源域，OlympicSport数据集为目标域数据集，类似地，O->U-表示OlympicSport数据集为源域，UCF50数据集为目标域数据集，表1中10和20表示目标域中每个动作类仅有10个或20个带标签的训练样本。

从表1和表2的计算结果可以明确地看出，相对于其他几种方法，本发明提出的基于多尺度特征学习和多级域对齐的跨域动作识别方法具有最好的性能。

表1

表2

方法	测试数据1	测试数据2	测试数据3
				C3D(参考文献1)	80.0	71.5	63.0
P3D(参考文献2)	88.6	78.0	68.0
				I3D(参考文献3)	77.4	66.0	58.0
TA3N(参考文献4)	90.4	81.5	73.5
				本实施例	93.2	84.0	78.0

上述表1和表2中，所述参考文献1～4分别如下所示：

文献1：Tran D,Bourdev L,Fergus R,et al.Learning SpatiotemporalFeatures with 3D Convolutional Networks[C]//IEEE International Conference onComputer Vision.IEEE,2015.

文献2：Qiu Z,Yao T,Mei T.Learning Spatio-Temporal Representation withPseudo-3D Residual Networks[C]//2017IEEE International Conference on ComputerVision(ICCV).IEEE,2017.

文献3：X Wang,Girshick R,Gupta A,et al.Non-local Neural Networks[C]//2018IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2018.

文献4：M.Chen,Z.Kira,G.Alregib,J.Yoo,R.Chen and J.Zheng."TemporalAttentive Alignment for Large-Scale Video Domain Adaptation,"2019IEEE/CVFInternational Conference on Computer Vision(ICCV),2019,pp.6320-6329,doi:10.1109/ICCV.2019.00642.

最后，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于多尺度特征学习和多级域对齐的跨域动作识别方法，包括：

步骤S1、视频预处理：将数据集中每个视频分割为多个固定长度的短视频，且这些短视频之间存在帧数目的重叠；

步骤S2、训练数据构成：根据源域和目标域数据构建大量成对源域网络和目标域网络作为训练数据；

步骤S3、网络模型搭建：搭建对应的跨域动作识别的端到端网络模型，实现鲁棒性时空特征提取以及跨域的动作识别；

步骤S4、目标函数构建和网络训练：设计不同的正则项以及对应的目标函数；

步骤S5、跨域动作数据集的构建：用于对构建的所述网络模型进行训练和测试评估；

步骤S6、跨域动作识别模型：用于对目标域中短视频测试数据进行时空特征提取和对应动作的高效识别；

2.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S1中，对于从同一个视频中获得的多个长短相同的短视频，每个短视频之间存在一定帧数的重叠，且每个短视频的标签与原视频的标签一致，这样源域和目标域的训练集就由一系列的短视频构成。

3.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S2中，在步骤S1中获得的短视频基础上，首先提取这些短视频的时空特征；

其次计算源域和目标域中同一类动作的所有短视频特征之间的欧式距离，并对其进行排序，根据排序结果按照设定间隔选出样本对；

同样，计算源域和目标域中不同类动作的所有短视频特征之间的欧式距离，并对其进行排序，从排序的最前端部分选择出样本对，从而产生样本对。

4.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S3中，在网络模型搭建中，分别为源域数据和目标域数据构建对应的多尺度时空辨别网络，该网络不仅考虑目标大小以及与摄像头距离远近的不同，且在高层语义特征上提取动作的时序信息；同时，搭建源域和目标域的多尺度时空辨别网络之间的通信桥梁，使得源域和目标域能够进行多级域自适应的对齐。

5.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S4中，在所构建的网络模型的基础上，构建多级域自适应对齐正则项以及对应的目标函数，该网络模型的目标函数定义如式(1)所示：

所述式(1)中，所述λ₁和λ₂、γ、δ₁、δ₂和δ₃为标量常数，用于控制该正则项的贡献程度，第一个正则项为分类损失正则项；该正则项通过源域和目标域中所有带标签样本的标准交叉熵分类损失和进行计算，其中“1”为指示函数，K_s和K_t分别为源域和目标域中样本类别的数目，

和

分别表示源域和目标域的多尺度时空辨别网络Softmax分类器函数的输出，其评估结果分别为动作类别b和q；第二个正则项为多级域自适应对齐正则项，使得源域和目标域不仅能够分布对齐和语义对齐，而且架起了源域和目标域的多尺度时空辨别性网络之间的通信桥梁。

6.根据权利要求5所述的跨域动作识别方法，其特征在于，在所述多级域自适应对齐正则项中，第一级域自适应对齐正则项使用最大化平均差异来度量，其定义如多级域自适应对齐正则项中第一部分所示，其中N_s和N_t分别为源域和目标域中带标签训练样本的数目，

和

第二级域自适应对齐正则项通过语义对齐实现，即使源域和目标域中相同类样本特征的距离尽可能的靠近，而源域和目标域中不同类样本的距离尽可能的大，其定义如多级域自适应对齐正则项中第二部分所示，其中第一项，要求

即要求源域中的样本

与目标域中的样本

的标签相同，相反，对于第二项，则要求

即要求源域中的样本

与目标域中的样本

和

和

7.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S5中，构建一个跨域的刻板动作数据集，该数据集中源域数据由成人完成，而目标域数据由儿童完成，源域和目标域的刻板动作类别相同，该数据集包括10个刻板动作。

8.根据权利要求7所述的跨域动作识别方法，其特征在于，所述刻板动作包括：原地转圈、反复拉抽屉、反复抬头低头、反复扑动双手、反复摇摆身体、来回下蹲、反复开关门、来回上下楼梯、来回奔跑、来回转动物品；优选地，包括原地转圈、反复拉抽屉、来回奔跑、来回转动物品。

9.根据权利要求1所述的跨域动作识别方法，其特征在于，所述步骤S6中，根据步骤S1获得目标域中测试视频的多个短视频表示，并在步骤S3和步骤S4中训练的网络模型的基础上；另外，在跨域人体动作识别中，将源域多尺度时空辨别网络的参数以及源域和目标域多尺度时空辨别网络参数的变换关系加入到最后的人体动作识别模型中，最后，使用目标域多尺度时空辨别网络中训练的Softmax分类器函数对某个短视频进行动作识别。

10.根据权利要求1-9任一项所述的跨域动作识别方法，其特征在于，所述步骤S7中，根据步骤S1获得目标域中测试视频的多个短视频表示，以及在步骤S6所获得的每个短视频动作识别结果的基础上，对所有识别结果进行平均，并取概率最大的结果为该视频的最后评估结果。