CN115705756A

CN115705756A - 动作检测方法、装置、计算机设备和存储介质

Info

Publication number: CN115705756A
Application number: CN202111614510.4A
Authority: CN
Inventors: 周鹏豪; 孙星; 张钊; 彭湃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-12
Filing date: 2021-12-27
Publication date: 2023-02-17

Abstract

本申请涉及一种动作检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测视频中的共现动作的公共特征；所述共现动作，是在所述待检测视频的不同视频帧中出现的同类型动作；从所述待检测视频中按时序排列的各视频帧的视频特征中，筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征；根据各视频帧的视频特征与所述属于共现动作的视频特征之间的相似度，生成有序相似性特征；根据所述有序相似性特征和各所述视频帧的视频特征，识别所述待检测视频中属于所述共现动作的视频片段。采用本方法能够有效提高对视频进行共现动作检测的准确性。

Description

动作检测方法、装置、计算机设备和存储介质

本申请要求于2021年08月12日提交中国专利局，申请号为2021109240496、发明名称为“动作检测方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种动作检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的不断发展，出现了各种视频内容的处理技术，例如视频动作检测技术，以识别视频中目标对象的动作。传统方式中，若用户想要从原视频中提取出各种动作类别的视频片段时，通常需要人为从视频中手动剪辑出各种动作类别的视频片段，这需要耗费大量的人力成本。

为提高视频检测效率，在相关技术中，出现了采用全监督或弱监督在多个动作类别上训练神经网络模型的方式，使得训练得到的神经网络模型能够对视频中已经见过动作类别进行识别。然而对于模型未见过的动作类别，这种方式则难以准确地定位相应的动作片段，视频动作检测的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高视频动作检测的准确性的动作检测方法、装置、计算机设备和存储介质。

一种动作检测方法，所述方法包括：

获取待检测视频中的共现动作的公共特征；所述共现动作，是在所述待检测视频的不同视频帧中出现的同类型动作；

从所述待检测视频中按时序排列的各视频帧的视频特征中，筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征；

根据各视频帧的视频特征与所述属于共现动作的视频特征之间的相似度，生成有序相似性特征；

根据所述有序相似性特征和各所述视频帧的视频特征，识别所述待检测视频中属于所述共现动作的视频片段。

一种动作检测装置，所述装置包括：

公共特征生成模块，用于获取待检测视频中提取出的共现动作的公共特征；所述共现动作，是在所述待检测视频的不同视频帧中出现的同类型动作；

视频特征筛选模块，用于从所述待检测视频中按时序排列的各视频帧的视频特征中，筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征；

相似特征生成模块，用于根据各视频帧的视频特征与所述属于共现动作的视频特征之间的相似度，生成有序相似性特征；

共现动作检测模块，用于根据所述有序相似性特征和各所述视频帧的视频特征，识别所述待检测视频中属于所述共现动作的视频片段。

在一个实施例中，所述公共特征生成模块还用于将待检测视频中各视频帧对应的视频特征按时序拼接，得到视频拼接特征；对视频拼接特征中各视频特征添加位置信息；对添加位置信息的视频拼接特征进行编码处理，生成所述待检测视频中的共现动作的公共特征。

在一个实施例中，所述公共特征生成模块还用于根据各添加位置信息的视频特征之间的相关性，确定各所述视频特征对应的注意力权重；所述注意力权重与所述相关性正相关；基于所述注意力权重对相应所述视频特征进行编码，生成所述待检测视频中共现动作对应的公共特征。

在一个实施例中，所述视频特征筛选模块还用于将所述公共特征分别与所述待检测视频中按时序排列的各视频帧的视频特征进行融合，得到融合后的视频特征；分别确定各融合后的视频特征与所述公共特征之间的相似度；根据所述相似度从各所述视频帧的视频特征中筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

在一个实施例中，所述共现动作检测模块还用于根据各所述视频帧的视频特征与所述有序相似性特征之间的目标相似度，预测所述待检测视频中候选动作对应的视频片段；基于对所述候选动作对应的视频片段中的视频特征进行动作分类得到的分类结果，从所述候选动作对应的视频片段中识别属于所述共现动作的视频片段。

在一个实施例中，所述共现动作检测模块还用于将所述有序相似性特征和各所述视频帧的视频特征进行拼接，得到拼接后的视频特征；根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度；根据所述目标相似度达到相似度阈值的视频特征所对应的位置信息，预测所述待检测视频中候选动作对应的视频片段。

在一个实施例中，所述共现动作检测模块还用于在所述拼接后的视频特征中查询拼接后的各视频帧的视频特征之间的目标相似度，得到查询结果；根据所述查询结果，预测所述待检测视频中候选动作对应的起始位置和结束位置，得到候选动作对应的视频片段。

在一个实施例中，所述动作检测方法是通过动作检测模型执行的；所述动作检测模型通过训练步骤训练获得；上述动作检测装置还包括模型训练模块，用于获取样本视频中各视频帧对应的样本视频特征；所述样本视频携带样本标签，样本标签包括样本视频中属于样本共现动作的位置和类别；在每轮迭代训练中，将本轮的标记特征添加至按时序拼接后的样本视频特征中，通过待训练的动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成所述样本视频中的样本共现动作的预测公共特征；通过所述动作检测模型的相似性编码生成器，从各所述样本视频特征中筛选与所述预测公共特征满足相似度接近条件的样本视频特征，得到属于样本共现动作的样本视频特征；根据各视频帧的样本视频特征与所述属于样本共现动作的样本视频特征之间的相似度，生成预测有序相似性特征；通过所述动作检测模型的并行解码器，根据所述样本有序相似性特征和各所述样本视频特征，预测所述样本视频中属于样本共现动作的预测视频片段；基于所述预测视频片段与所述样本标签之间的差异，确定预测结果损失；根据所述预测结果损失，调整所述动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

在一个实施例中，所述模型训练模块还用于将所述样本有序相似性特征与各所述样本视频特征进行拼接，得到拼接后的样本视频特征；通过所述动作检测模型中的并行解码器，根据拼接后的样本视频特征预测所述样本视频中候选动作对应的预测视频片段；对所述预测视频片段对应的样本视频特征进行动作分类，得到预测分类结果。

在一个实施例中，所述预测结果损失包括回归损失和分类损失；所述模型训练模块还用于基于所述预测视频片段的位置与所述样本标签中属于样本共现动作的位置之间的差异，确定回归损失；基于所述预测视频片段的分类结果与所述样本标签的样本共现动作的类别之间的差异，确定分类损失。

在一个实施例中，所述模型训练模块还用于根据所述样本标签从所述样本视频中提取属于样本共现动作的正样本视频帧，从所述正样本视频帧对应的样本视频特征中提取对应的样本公共特征；基于所述预测公共特征与所述正样本视频帧的样本视频特征之间的相似度差异，确定第一特征损失；基于所述预测公共特征与所述样本公共特征间的差异，确定第二特征损失；根据所述预测结果损失、第一特征损失和第二特征损失，调整所述动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请各实施例的动作检测方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请各实施例的动作检测方法中的步骤。

一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令时实现本申请各实施例的动作检测方法中的步骤。

上述动作检测方法、装置、计算机设备和存储介质，获取待检测视频中提取出的共现动作的公共特征。其中，共现动作是在待检测视频的不同视频帧中出现的同类型动作，由此能够有效提取出表征在待检测视频中重复出现的共现动作对应的特征。然后从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到由此能够根据与公共特征间的相似度精准地筛选出属于共现动作的视频特征。然后根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征，进而根据有序相似性特征和各视频帧的视频特征进行共现动作检测，从而不依赖动作类别来识别，而是使用共现动作的公共特征来识别出待检测视频中属于共现动作的视频片段，由此避免了依赖动作类别所带来的局限，提高了适用性，进而能够有效提高对视频进行共现动作检测的准确性。

附图说明

图1为一个实施例中动作检测方法的应用环境图；

图2为一个实施例中动作检测方法的流程示意图；

图3为一个实施例中动作检测模型的训练步骤的流程示意图；

图4为一个实施例中动作检测模型的结构框图；

图5为一个实施例中待训练的动作检测模型的示意图；

图6为一个实施例中对测试视频进行共现动作检测的结果示意图；

图7为一个实施例中共现动作检测的结果与样本标签的比对示意图；

图8为一个实施例中视频搜索结果的示意图；

图9为一个实施例中对搜索的视频进行共现动作检测的结果；

图10为一个实施例中为动作检测装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的动作检测方法，可应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的动作检测方法，可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

本申请提供的动作检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。具体地，终端102可以从服务器104中获取待检测视频。终端102获取待检测视频后，首先获取待检测视频中的共现动作的公共特征，然后从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。然后根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。终端102进而根据有序相似性特征和各视频帧的视频特征，识别待检测视频中属于共现动作的视频片段。

其中，服务器104服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

云计算(Cloud Computing)是指IT(Internet Technology，互联网技术)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。

可以理解，本申请各实施例中的视频处理方法，采用人工智能技术中的机器学习技术，能够训练出准确对视频共现动作检测的动作检测模型。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解，在本申请一些实施例中训练的动作检测模型，就是使用机器学习技术训练的，基于该机器学习技术训练动作检测模型，能够训练出对视频进行共现动作检测准确性高的动作检测模型。

在一个实施例中，如图2所示，提供了一种动作检测方法，以该方法应用于计算机设备为例进行说明，计算机设备可以为图1中的终端或服务器，包括以下步骤：

步骤S202，获取待检测视频中提取出的共现动作的公共特征。

其中，视频是指连续的图像帧，即视频包括具有时序的多帧图像，具体可以是利用照相术将动态的影像捕捉生成的一系列连续的静态图像。待检测视频，即为需要进行动作检测的视频。

在其中一个实施例中，待检测视频可以为一个视频。在另一个实施例中，待检测视频可以包括多个视频。其中，多个是指至少两个。

可以理解的是，共现动作，是在待检测视频的不同视频帧中出现的同类型动作，能够表征待检测视频中重复出现的动作类型所对应的特征。公共特征，即表征共现动作的特征。

计算机设备获取待检测视频后，可以首先对待检测视频进行特征提取，得到待检测视频中各视频帧对应的视频特征。可以理解，提取各视频帧的视频特征中包括了各视频帧中的动作特征。

然后计算机设备则进一步对各视频帧对应的视频特征进行相似性编码处理，以生成共现动作的公共特征。具体地，计算机设备还可以将各视频帧对应的视频特征在时序维度和语义维度上进行拼接，然后对拼接后的视频特征进行相似性编码处理，生成公共特征。其中，公共特征是通过对视频特征进行编码另外生成的特征，并非直接从各视频帧的视频特征中提取的其中一帧视频特征。

可以理解的是，待检测视频中可能会出现较频繁的同类型动作的视频特征，通常这些视频特征之间具有相似性，因此通过对这些相似的视频特征进行编码处理，由此能够生成汇聚了同类型动作的公共特征。

步骤S204，从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

可以理解，待检测视频中包括按照时序排列的一系列视频帧。因此待检测视频中各视频帧则具有相应的时序。其中，相似度接近条件，是指根据相似度筛选视频特征的条件。

计算机设备从待检测视频中获得共现动作的公共特征后，则分别计算按时序排列的各视频帧的视频特征与公共特征之间的相似度，然后进一步从各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征。具体地，计算机设备可以对各视频帧的视频特征与公共特征之间的相似度值的大小，筛选出预设数量的相似度值最大的视频特征。其中，相似度值越大，则表示视频特征与公共特征之间的相似度越高。

由于公共特征是待检测视频中汇聚了同类型动作的公共特征，因此筛选出的视频特征与公共特征是高度相似的，因此，可以将筛选出视频帧的视频特征，作为属于共现动作的视频特征。

步骤S206，根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。

其中，有序相似性特征，可以是仅与相似度有关的具有序列的特征矩阵，该矩阵中包括了各视频帧的视频特征与属于共现动作的视频特征之间的相似度值。

具体地，计算机设备从各视频帧的视频特征中，筛选出属于共现动作的视频特征后，则进一步计算各视频帧的视频特征与属于共现动作的视频特征之间的相似度值，并按照各视频帧的时序生成相应的有序相似性特征。

步骤S208，根据有序相似性特征和各视频帧的视频特征，识别待检测视频中属于共现动作的视频片段。

其中，视频片段，是待检测视频中的一部分，每个视频片段中包括连续的多个视频帧。

计算机设备生成有序相似性特征后，可以将有序相似性特征和各视频帧的视频特征进行拼接。由于有序相似性特征中包括了各视频帧的视频特征与属于共现动作的视频特征之间的相似度，因此能够从得到的拼接后的特征中，确定出与属于共现动作的视频特征之间的相似度满足相似度阈值的视频特征。

计算机设备进而能够根据满足相似度阈值的视频特征预测可能属于共现动作的起始位置和结束位置。然后对该起始位置和结束位置对应的视频帧的视频特征进行动作类型识别，以识别出属于共现动作的视频片段。由于共现动作是基于各视频帧的视频特征出现较频繁的共有的公共特征识别的，因此不需要依赖识别各视频帧具体的动作类别来识别共现动作，基于公共特征就能够准确识别出与类别无关的属于共现动作的视频片段。

上述动作检测方法中，计算机设备首先获取待检测视频中的共现动作的公共特征。其中，共现动作是在待检测视频的不同视频帧中出现的同类型动作，由此能够有效提取出表征在待检测视频中重复出现的共现动作对应的特征。然后从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到由此能够根据与公共特征间的相似度精准地筛选出属于共现动作的视频特征。然后根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征，进而根据有序相似性特征和各视频帧的视频特征进行共现动作检测，从而不依赖动作类别来识别，而是使用共现动作的公共特征来识别出待检测视频中属于共现动作的视频片段，由此避免了依赖动作类别所带来的局限，提高了适用性，进而能够有效提高对视频进行共现动作检测的准确性。

在一个实施例中，获取待检测视频中的共现动作的公共特征的步骤，包括：将待检测视频中各视频帧对应的视频特征按时序拼接，得到视频拼接特征；对视频拼接特征中各视频特征添加位置信息；对添加位置信息的视频拼接特征进行编码处理，生成待检测视频中的共现动作的公共特征。

其中，位置信息，是表示各视频帧在待检测视频中的位置的信息。可以理解的是，视频帧在待检测视频中的排列顺序是非常重要的，不仅是视频的组成部分，也是表达视频内容语义的重要因素。视频帧在视频中的位置或排列顺序不同，所表达的视频内容语义可能会发生偏差。

可以理解，待检测视频中各视频帧具有相应的时序。具体地，计算机设备提取出待检测视频中各视频帧对应的视频特征后，首先按照各视频帧对应的时序，对各视频帧对应的视频特征进行拼接，从而得到时序拼接后的视频拼接特征。

然后计算机设备则对时序拼接后的视频拼接特征中的各视频特征，加上相应的位置信息。具体可以对视频拼接特征中的各视频特征进行位置编码，例如，可以采用学习位置向量、相对位置表达、正弦位置编码等中的至少一种位置编码方式，对各视频特征进行位置编码，以对各视频特征添加位置编码符或时序标识等，以使得各视频特征包含特定的位置信息。由此在根据各视频特征进行动作检测处理的过程中，能够有效避免因为各视频帧之间的顺序混乱而影响动作检测的准确性。

计算机设备进而对添加位置信息的视频拼接特征进行编码处理，具体地，计算机设备可以根据添加位置信息后的各视频特征之间的相关性，来汇聚重复出现的视频特征所对应的中心特征，从而能够精准地生成表征待检测视频中的共现动作的公共特征。

在一个实施例中，对添加位置信息的视频拼接特征进行编码处理，生成待检测视频中的共现动作的公共特征的步骤，包括：根据各添加位置信息的视频特征之间的相关性，确定各视频特征对应的注意力权重；注意力权重与相关性正相关；基于注意力权重对相应视频特征进行编码，生成待检测视频中共现动作对应的公共特征。

其中，相关性，也即相似性，表示两个对象之间的关联程度和相似程度。相似度是指两个对象的特征之间的距离，距离越小，相似度越大；反之则相似度越小。本实施例中的相关性，即为视频特征之间的相关性。

计算机设备可以基于各添加位置信息的视频特征之间的相关性，对相应视频特征进行编码，从而生成待检测视频中共现动作对应的公共特征。

在具体的实施例中，计算机设备在生成公共特征的过程中，具体可以采用注意力机制对添加位置信息的视频拼接特征进行加权求和处理。具体地，计算机设备可以对视频拼接特征添加一个标记特征，然后通过注意力机制分别计算视频拼接特征中各视频帧的视频特征与标记特征之间的相似度。例如具体可以计算相邻两个视频帧的视频特征与标记特征之间的相似度。然后根据计算得到的相似度进行建模，得到标记相似度后的视频特征。

然后根据标记相似度后的视频特征，对各视频特征分配相应的注意力权重。例如，可以将当前视频帧作为中心，前n个视频帧和后n个视频帧组成的2n+1个视频帧的序列，并将中心视频帧作为注意力，来确定上下文视频帧与该中心视频帧之间的相似度，并根据各相似度对这个中心视频帧进行打分，对打分进行加权平均处理，得到该中心视频帧对于整个待检测视频的重要性，即注意力权重。同理，计算机设备则可以分别得到各视频特征对应的注意力权重。

计算机设备进而对各视频特征对应的注意力权重进行加权平均处理，得到对应的注意力值。然后计算机设备则根据注意力值对视频拼接特征进行特征编码，从而能够准确地生成汇聚了较大权重的公共特征。

本实施例中，通过注意力机制获取各视频特征对应的注意力权重，以对个视频帧中包括丰富动作信息的视频特征赋予更大的权重。通过对各视频特征对应的注意力权重进行加权平均处理，从而能够较为精准地生成汇聚了较大权重的、在待检测视频中出现较频繁的共现对应的公共特征。

在一个实施例中，从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征的步骤，包括：将公共特征分别与待检测视频中按时序排列的各视频帧的视频特征进行融合，得到融合后的视频特征；分别确定各融合后的视频特征与公共特征之间的相似度；根据相似度从各视频帧的视频特征中筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

其中，融合是指特征融合，是对抽取得到的不同特征矢量进行优化组合，特征融合的目的是将视频特征合并为更具有判别能力的特征。特征融合的方式可以包括直接将特征连接、将多个特征组合成复合特征等方式。

计算机设备通过对待检测视频中各视频帧的视频特征进行编码处理，生成表征共现动作的公共特征后，则分别将公共特征与各视频帧的视频特征进行融合，得到与公共特征融合后的各视频帧的视频特征，由此能够使得融合后的各视频帧的视频特征更加关注与公共特征相关的特征。

然后计算机设备分别计算公共特征与各视频帧的视频特征之间的相似度，然后根据相似度从按时序排列的各视频帧的视频特征中，筛选出相似度接近条件的视频特征，例如筛选出预设数量的相似度值最高的视频特征。具体地，计算机设备可以对各视频帧的视频特征与公共特征之间的相似度值的大小，进行降序排序，然后筛选出相似度值靠前的预设数量的视频特征。计算机设备则可以将筛选出的视频特征标记为属于共现动作的视频特征。

本实施例中，由于公共特征汇聚了表征在待检测视频中重复出现的共现动作对应的特征，通过根据与公共特征间的相似度识别出与公共特征较为相似的视频特征，能够精准地筛选出属于共现动作的视频特征。

在一个实施例中，根据有序相似性特征和各视频帧的视频特征，识别待检测视频中属于共现动作的视频片段的步骤，包括：根据各视频帧的视频特征与有序相似性特征之间的目标相似度，预测待检测视频中候选动作对应的视频片段；基于对候选动作对应的视频片段中的视频特征进行动作分类得到的分类结果，从候选动作对应的视频片段中识别属于共现动作的视频片段。

其中，候选动作，表示待识别的动作类型，候选动作可能为共现动作，也可能为其他类型的动作。行动作分类，是指对视频片段的动作类别进行识别。

计算机设备从各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征作为属于共现动作的视频特征后，计算机设备则分别计算每一个属于共现动作的视频特征与各视频帧的视频特征之间的相似度，并生成有序相似性值，即有序相似性特征。

然后计算机设备进而将各视频帧的视频特征与有序相似性特征进行拼接，得到拼接后的特征。可以理解，根据拼接后的特征可以直接确定各视频帧的视频特征与有序相似性特征之间的目标相似度，即可以确定拼接后的特征中各视频帧的视频特征与属于共现动作的视频特征之间的目标相似度。

计算机设备进一步根据各视频帧的视频特征与属于共现动作的视频特征之间的目标相似度，预测待检测视频中候选动作对应的视频片段。具体地，还可以确定各相邻视频帧对应的目标相似度，然后计算机设备则可以根据各相邻的视频帧对应的目标相似度值，预测待检测视频中可能属于共现动作的视频片段的起始位置和结束位置，从而得到候选动作对应的视频片段。

计算机设备则对候选动作对应的视频片段中的视频特征进行动作分类，分别得到相应的分类结果，分类结果即为各视频片段的动作类别。然后从候选动作对应的视频片段中识别属于共现动作的视频片段。具体可以将各视频片段的动作类别中，视频片段数量最多的一种类动作类别确定为共现动作。由此能够准确地识别出待检测视频中属于共现动作的视频片段。

在一个实施例中，根据各视频帧的视频特征与有序相似性特征之间的目标相似度，预测待检测视频中候选动作对应的视频片段的步骤，包括：将有序相似性特征和各视频帧的视频特征进行拼接，得到拼接后的视频特征；根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度；根据目标相似度达到相似度阈值的视频特征所对应的位置信息，预测待检测视频中候选动作对应的视频片段。

其中，位置信息，是指视频帧在待检测视频中的位置，例如具体可以是在待检测视频中的时序位置，时序位置具体可以包括起始位置和结束位置。

具体地，计算机设备生成有序相似性特征后，将有序相似性特征和各视频帧的视频特征进行拼接。具体地，计算机设备可以直接将有序相似性特征和各视频帧的视频特征连接，得到拼接后的视频特征。还可以将有序相似性特征和各视频帧的视频特征进行融合，以得到拼接后的视频特征。

然后计算机设备则可以根据拼接后的视频特征，分别确定各视频帧的视频特征之间的目标相似度。其中，也可以确定出各相邻视频帧的视频特征之间的目标相似度。

计算机设备进而根据目标相似度达到相似度阈值的视频特征所对应的位置信息，预测待检测视频中各候选动作的视频帧对应的起始位置和结束位置，然后根据各候选动作的视频帧对应的起始位置和结束位置，则能够准确地预测出各候选动作对应的视频片段。

本实施例中，根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征，进而根据有序相似性特征和各视频帧的视频特征进行动作检测，从而能够准确地识别出待检测视频中候选动作对应的视频片段。

在一个实施例中，根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度的步骤，包括：在拼接后的视频特征中查询拼接后的各视频帧的视频特征之间的目标相似度，得到查询结果。根据目标相似度达到相似度阈值的视频特征所对应的位置信息，预测待检测视频中候选动作对应的视频片段的步骤，包括：根据查询结果，预测待检测视频中候选动作对应的起始位置和结束位置，得到候选动作对应的视频片段。

其中，目标相似度是最终确定的用于识别属于共现动作的视频帧。

计算机设备在根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度的过程中，具体可以通过注意力机制分别计算拼接后的视频特征中各视频帧的视频特征与标记特征之间的相似度。

例如，具体可以通过注意力机制采用至少一个查询嵌入向量，在拼接后的视频特征中查询各相邻两个视频帧的视频特征与标记特征之间的目标相似度，得到查询结果。然后根据查询结果中各相邻视频帧之间的目标相似度中，满足相似度阈值的各相邻视频特征，确定候选动作区间的左右边界，即候选动作的起始帧和结束帧，从而能够准确地识别出可能属于共现动作的候选动作对应的视频片段。

在一个具体的实施例中，计算机设备可以通过已训练的动作检测模型对待检测视频进行共现动作检测处理。其中，已训练的动作检测模型，是一种具有从视频中提取出不同视频帧中出现的同类型的共现动作对应的视频片段的能力的机器学习模型，能够精准地对视频进行共现动作检测和分类处理。

如图4所示，为具体的实施例中动作检测模型的结构框图。该动作检测模型包括编码器、相似性编码生成器和并行解码器。其中，编码器中还包括多头注意力层和特征融合层。

计算机设备获取待检测视频后，提取待检测视频中按时序排列的各视频帧对应的视频特征，然后将各视频帧对应的视频特征输入至已训练的动作检测模型中。计算机设备首先通过动作检测模型的编码器中的多头注意力层，对各视频帧对应的视频特征进行特征编码处理，生成共现动作的公共特征。通过编码器中的特征融合层将公共特征分别与各视频帧对应的视频特征进行融合，得到融合后的视频特征。

然后计算机设备通过动作检测模型的相似性编码生成器，确定公共特征分别与各视频帧对应的融合后的视频特征之间的相似度，从待检测视频中各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。然后再根据各视频帧对应的融合后的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。

计算机设备进而将编码器得到的融合后的视频特征，以及相似性编码生成器生成的有序相似性特征输入至动作检测模型的并行解码器中，具体可以将融合后的视频特征与有序相似性特征进行拼接后，再输入并行解码器中。并行解码器中则根据拼接后的视频特征，预测待检测视频中属于共现动作的视频片段。

本实施例中，通过已训练的具有从视频识别出属于共现动作的视频片段的能力的动作检测模型，对待检测视频进行动作检测，能够准确地生成与共现动作对应的公共特征，进而基于公共特征能够精准地视频识别出属于共现动作的视频片段。

在一个实施例中，上述动作检测方法是通过动作检测模型执行的；动作检测模型通过训练步骤训练获得，如图3所示，动作检测模型的训练步骤包括：

步骤S302，获取样本视频中各视频帧对应的样本视频特征。

步骤S304，在每轮迭代训练中，将本轮的标记特征添加至按时序拼接后的样本视频特征中，通过待训练的动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成样本视频中的样本共现动作的预测公共特征。

步骤S306，通过动作检测模型的相似性编码生成器，从各样本视频特征中筛选与预测公共特征满足相似度接近条件的样本视频特征，得到属于样本共现动作的样本视频特征；根据各视频帧的样本视频特征与属于样本共现动作的样本视频特征之间的相似度，生成预测有序相似性特征。

步骤S308，通过动作检测模型的并行解码器，根据样本有序相似性特征和各样本视频特征，预测样本视频中属于样本共现动作的预测视频片段。

步骤S310，基于预测视频片段与样本标签之间的差异，确定预测结果损失。

步骤S312，根据预测结果损失，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

可以理解，样本视频是指用于训练动作检测的视频数据。其中，样本视频携带样本标签，样本标签是针对样本视频的类别所标记的标签，样本标签包括样本视频中属于样本共现动作的位置和类别。

其中，预测结果损失，是指对样本视频进行动作检测得到的属于样本共现动作的预测视频片段，与相应的样本标签中属于样本共现动作的位置和类别之间的差异损失。训练停止条件是指满足模型训练的结束条件，例如训练停止条件可以是达到预设的迭代次数，也可以是调整参数后的动作检测模型的动作识别性能指标达到预设指标。

计算机设备首先获取样本视频，然后对样本视频进行特征提取。具体地，计算机设备可以通过已训练的视频特征提取网络对样本视频进行特征提取，也可以通过预设的特征检测算法对样本视频进行特征提取，从而提取出样本视频中各视频帧对应的样本视频特征。

然后计算机设备则基于样本视频中各视频帧对应的样本视频特征对待训练的动作检测模型进行迭代训练。具体地，在每轮迭代训练中，计算机设备将本轮的样本视频中各视频帧对应的样本视频特征在时序上进行拼接，并对按时序拼接后的样本视频特征添加预设的标记特征。然后，计算机设备将添加标记特征后的样本视频特征输入至待训练的动作检测模型的编码层中。进而通过动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成样本视频中的样本共现动作的预测公共特征。

然后，计算机设备则将编码器生成的公共特征和样本视频特征输入至动作检测模型的相似性编码生成器中，通过相似性编码生成器分别计算各视频帧的样本视频特征与公共特征之间的相似度，然后根据相似度从各样本视频特征中筛选出与预测公共特征之间的相似度满足相似度接近条件的样本视频特征，并将相似度满足相似度接近条件的样本视频特征，作为属于样本共现动作的样本视频特征。计算机设备进而通过相似性编码生成器再将筛选出的样本视频特征，分别与各样本视频特征进行融合，并根据各视频帧的样本视频特征与属于样本共现动作的样本视频特征之间的相似度，生成预测有序相似性特征。

接着计算机设备则将编码器输出的融合后的样本视频特征，以及相似性编码生成器输出的预测有序相似性特征进行拼接，然后将拼接后的样本视频特征输入至待训练的动作检测模型的并行解码器中，进而通过并行解码器，根据样本有序相似性特征和各样本视频特征，预测样本视频中属于样本共现动作的预测视频片段。

计算机设备通过本轮的动作检测模型预测得到样本视频中属于样本共现动作的预测视频片段后，则计算预测视频片段与样本标签之间的差异，并确定相应的预测结果损失。计算机设备进而根据预测结果损失，朝着减少预测结果损失的方向，调整本轮的动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

当本轮未满足训练停止条件时，计算机设备则返回将本轮的标记特征添加至按时序拼接后的样本视频特征中的步骤，以进入下一轮。计算机设备则继续通过待训练的动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成样本视频中的样本共现动作的预测公共特征，以进行迭代训练。当满足训练停止条件时，则停止迭代训练，从而得到训练好的动作检测模型。

可以理解，训练完成的动作检测模型，是一种具有从视频中提取出不同视频帧中出现的同类型的共现动作对应的视频片段的能力的机器学习模型，能够精准地对视频进行共现动作检测和分类处理，以准确地识别出视频中属于共现动作的视频片段。

在其中一个实施例中，样本视频的预测视频片段与相应样本标签之间的差异可以用损失函数来衡量，例如可以选择交叉熵或均方误差等函数作为损失函数。在迭代训练动作检测模型的过程中，可以采用反向传播算法，朝着梯度下降的方向更新模型参数，调整权重和偏置使得整体误差最小，并逐渐调整动作检测模型的模型参数，以迭代训练识别模型。例如可以在损失函数的值小于预先设定的值时结束训练，得到能够准确有效地识别出视频中的共现动作的视频片段的动作检测模型。

本实施例中，通过利用样本视频训练动作检测模型，使得训练后的动作检测模型具有准确识别视频中属于共现动作的视频片段的能力。在处理动作检测任务时，即使待检测视频中存在已训练的动作检测模型未见过的动作类型，也能够通过动作检测模型准确地识别出视频中共现动作的视频片段。

在一个实施例中，通过动作检测模型的并行解码器，根据样本有序相似性特征和各样本视频特征，预测样本视频中属于样本共现动作的预测视频片段的步骤，包括：将样本有序相似性特征与各样本视频特征进行拼接，得到拼接后的样本视频特征；通过动作检测模型中的并行解码器，根据拼接后的样本视频特征预测样本视频中候选动作对应的预测视频片段；对预测视频片段对应的样本视频特征进行动作分类，得到预测分类结果。

可以理解，计算机设备通过待训练的动作检测模型的编码层生成样本视频对应的样本共现特征后，计算机设备还通过编码器分别将所生成的样本公共特征再与各视频帧的样本视频特征进行融合，以对各视频帧的样本视频特征进行优化，得到融合后的样本视频特征。

具体地，计算机设备通过待训练的动作检测模型的相似性编码生成器，根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成预测有序相似性特征后。计算机设备则将通过编码器生成的融合后的样本视频特征，以及通过相似性编码生成器生成的预测有序相似性特征，输入至待训练的动作检测模型的并行解码器中。并行解码器则首先将融合后的样本视频特征与预测有序相似性特征进行拼接，具体可以在时序维度和语义维度上进行拼接，得到拼接后的样本视频特征。

计算机设备然后通过并行解码器利用预设数量的查询嵌入向量，在拼接后的样本视频特征查询各样本视频特征之间的相似度，利用相似度满足相似度阈值的样本视频特征，得到相应的查询结果。然后通过并行解码器中的回归分支网络，根据各查询结果预测样本视频中候选动作对应的预测视频片段。进一步通过并行解码器中的分类分支网络，对各预测视频片段对应的样本视频特征进行动作分类，得到各预测视频片段对应的预测分类结果。然后即可根据预测分类结果确定候选动作对应的预测视频片段中，属于样本共现动作的预测视频片段。

在一个实施例中，预测结果损失包括回归损失和分类损失；基于预测视频片段与样本标签之间的差异，确定预测结果损失的步骤，包括：基于预测视频片段的预测位置与样本标签中属于样本共现动作的位置之间的差异，确定回归损失；基于预测视频片段的预测分类结果与样本标签的样本共现动作的类别之间的差异，确定分类损失。

其中，回归损失，是指位置回归损失，表示预测视频片段中属于样本共现动作的位置，与相应的样本标签中属于样本共现动作的位置之间的差异损失。分类损失，是指预测视频片段的分类结果，与相应的样本标签的样本共现动作的类别之间的差异损失。

计算机设备通过待训练的动作检测模型预测出样本视频中属于样本共现动作的预测视频片段后，则计算预测视频片段的预测位置，与样本标签中属于样本共现动作的位置之间的差异，并根据该差异确定回归损失。并确定预测视频片段的预测分类结果，与样本标签的样本共现动作的类别之间的差异，根据该差异确定分类损失。

然后计算机设备则根据回归损失和分类损失，朝着减少回归损失和分类损失的方向，调整本轮的动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练，使得训练得到的动作检测模型的共现动作检测的准确率更高。

在一个实施例中，上述动作检测方法还包括：根据样本标签从样本视频中提取属于样本共现动作的正样本视频帧，从正样本视频帧对应的样本视频特征中提取对应的样本公共特征；基于预测公共特征与正样本视频帧的样本视频特征之间的相似度差异，确定第一特征损失；基于预测公共特征与样本公共特征间的差异，确定第二特征损失。根据预测结果损失，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练的步骤，包括：根据预测结果损失、第一特征损失和第二特征损失，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

可以理解，正样本视频帧，即为样本视频中携带有表示属于样本共现动作的样本标签所对应的样本视频帧，也就是属于样本共现动作的样本视频帧。反之，样本视频中未携带表示属于样本共现动作的样本标签所对应的样本视频帧，即为负样本视频帧。

其中，第一特征损失，是指样本公共特征与正样本视频帧的样本视频特征之间的相似度的差异损失。第二特征损失，是指样本公共特征与正样本视频帧对应的样本公共特征之间的特征差异损失。

具体地，计算机设备获取样本视频后，根据相应的样本标签从样本视频中提取出属于样本共现动作的正样本视频帧，然后从正样本视频帧对应的样本视频特征中提取对应的样本公共特征。具体地，计算机设备可以通过对各正样本视频帧对应的样本视频特征进行加权平均处理，如计算各正样本视频帧对应的样本视频特征的均值，得到表征样本共现动作的中心特征，即得到样本公共特征。

然后计算机设备通过本轮待训练的动作检测模型生成预测公共特，并预测出样本视频中属于样本共现动作的预测视频片段后，计算机设备还计算预测公共特征与正样本视频帧的样本视频特征之间的相似度差异，例如可以通过交叉熵损失函数计算预测公共特征与正样本视频帧的样本视频特征之间的相似度差异，并根据该差异确定第一特征损失。

计算机设备同时还计算预测公共特征与样本公共特征间的特征差异，并根据该特征差异确定第二特征损失。计算机设备进而根据预测结果损失、第一特征损失和第二特征损失，朝着减少预测结果损失、第一特征损失和第二特征损失的方向，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

本实施例中，通过计算第一特征损失和第二特征损失，并结合第一特征损失和第二特征损失调整动作检测模型的模型参数，由此在训练动作检测模型的过程中，通过动作检测模型生成预测公共特征和预测属于样本共现动作的样本视频帧时，使得预测公共特征与样本公共特征更加相似，以及使得预测的属于样本共现动作的样本视频帧与正样本视频帧的距离更近，与负样本视频帧的距离更远，从而能够使得动作检测模型生成的预测公共特征更加准确，进而能够有效提高动作检测模型识别视频中属于共现动作的视频片段的识别精准度。

在一个具体的实施例中，如图5所示，为一个具体的实施例中待训练的动作检测模型的示意图。动作检测模型包括编码器52、相似性编码生成器54和并行解码器56。其中，编码器具体可以为Co-token编码器(Co-Token Encoder,CTE)；相似性编码生成器(Similarity-Coding Generator，SCG)和并行解码器(Parallel Decoder)。

其中，编码器52包括多头注意力层521和关系层522。并行解码器56中包括解码层561、回归分支网络562和分类分支网络563，并行解码器56中还包括预设数量的查询嵌入向量56a。

具体地，计算机设备可以首先对多个样本视频进行特征提取，得到对应的样本视频特征。如图5所示，计算机设备将样本视频5a、样本视频5b和样本视频5c分别对应的样本视频特征输入至待训练的动作检测模型中，然后对输入的样本视频特征添加标记特征5f。标记特征5f具体可以为Co-token标记特征。

其中，Co-token编码器中配置有token(标记)，用来汇聚共现动作的公共特征的。这个token在训练过程中也被编码了某些知识，因此预训练时一部分知识则会被编码到这个token对应的权重中。按照视频特征出现的次数排序建立字典，将每个视频帧的视频特征映射到一个唯一的索引编号，将每个索引映射到token中。编码层52中的多头注意力层521用于生成各样本视频特征对应的预测公共特征，关系层522用于将预测公共特征分别与各视频帧的样本视频特征进行融合，得到各视频帧对应的融合后的样本视频特征。通过编码器52对样本视频特征进行编码处理，以汇聚各样本视频特征对应的共现动作的公共特征，并将共现动作的公共特征逐层编码到Co-token标记特征中，由此使得预测的公共特征试图更接近于属于共现动作的样本视频帧的特征嵌入。

编码器52收集到具有各样本视频帧的共同属性对应的预测公共特征后，利用相似编码生成器54来衡量每个样本视频帧与预测公共特征之间的关系。相似性编码生成器54用于计算预测公共特征分别与各视频帧对应的融合后的样本视频特征之间的相似度，并筛选出相似度满足相似度接近条件的样本视频特征，例如按照相似度值进行降序排序后，筛选出相似度值在TOP-K的样本视频特征，即相似度值最靠前的K个样本视频特征。然后在将筛选出的K个样本视频特征分别与样本视频特征计算相似度，生成预测有序相似性特征。

并行解码器56联合考虑了各样本视频特征和有序相似性特征来确定共同发生的动作行为，通过并行解码器56中的解码层561对各样本视频特征和有序相似性特征进行解码处理。具体地，并行解码器56可以利用预设数量的查询嵌入向量56a向每一段样本视频的各样本视频特征发起查询，并通过并行解码器56中的回归分支562基于查询结果预测动作发生的开始和结束位置，通过并行解码器56中的分类分支563来判断该时序区间是否为共现动作。

计算机设备首先需要获取多个样本视频来训练动作检测模型。样本视频中包括多个属于样本共现动作的样本视频片段。样本视频携带样本标签，样本标签包括样本视频中属于样本共现动作的位置和类别。

计算机设备可以首先对样本视频进行特征提取，得到样本视频中各视频帧对应的样本视频特征。

具体地，假设输入动作检测模型的样本视频特征表示为：

其中，F表示视频特征，F_n表示第n个视频的样本视频特征；T和D是提取样本视频特征的时序维度和特征维度。N表示样本视频的数量为N个，这N个样本视频中都包含共现动作。

共现动作检测目的是检测出属于样本共现动作的视频帧

其中，M_n是在第n个视频里面的共现动作数量。A表示属于共现动作的样本视频片段，M是第N个视频里发生了M次该共现动作的视频片段。

首先通过编码器将一组中所有样本视频在时间维度上拼接在一起，得到视频拼接特征F∈R^TN×D。

在训练的过程中，可以在视频拼接特征的一侧，添加入一个可学习的标记特征。具体可以表示为：[c,F]^S∈R^(TN+1)×D。

其中，c表示标记特征；[.,.]^S表示在时序上拼接。T*N表示T个视频，每个视频N帧，具有TN+1个样本视频特征，每个样本视频特征的维度包括D维。

然后，通过编码器对各视频帧对应的样本视频特征添加可学习的位置编码，得到添加位置后的视频拼接特征，可以作为最终的输入表示E∈R^(TN+1)×D。

首先通过编码器中的多头注意力层对添加本轮的标记特征后的样本视频特征进行编码处理。具体的表达式可以为：

MulAttn(X,Y)＝[Attn(X,Y)₁,...,Attn(X,Y)_H]^EW^head；

其中，X即为E，在编码器中，可以令X＝Y＝E，也就是X和Y均表示各视频帧的样本视频特征。[.,.]^E表示在语义维度上拼接；W^head∈R^(TN+1)×D，表示学习到的融合参数。H表示多头注意力层中的注意力层数，Attn是指每个单头注意力层得到的结果；MulAttn则表示多个Attn得到的结果。

其中，组成多头注意力的注意力层可以表示为：

其中，K表示X降维后的特征；V表示Y降维后的特征，Q表示查询向量。D^key是K的特征维度。具体地，可以理解，注意力模机制可以视为一个查询向量(Query)到一系列key-value键值对的映射。本实施例中可以将编码器中添加的token标记特征作为查询向量Q。将样本视频的样本视频特征，视为一系列的<Key,Value>数据对元素，在计算注意力的过程中，可以将Key和Value合二为一，指向同一个样本视频特征。此时给定某个目标元素的查询向量Q，通过计算查询向量Q和各个Key的相似性或相关性，得到每个Key对应Value的注意力权重系数，通过softmax函数对归一化后，对注意力权重系数和相应Value进行加权求和，即得到最终的注意力值。

注意力机制本质上是对数据对元素中的Value值进行加权求和，而查询向量Q和Key则用来计算对应Value的权重系数。通过注意力机制，能够从大量信息中选择性地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。

然后通过编码器中的关系层(Relation Layer)，将预测公共特征与每一个视频帧对应的样本视频特征进行融合。其表达式可以为：

Rela(c,F)＝GELU([C,F]^EW^R1+b^R1)W^R2+b^R2；

其中，GELU表示GELU激活函数，W和b为激活函数对应的参数，R1和R2表示W的维度；Rela(c,F)表示融合后的视频拼接特征。

其中，动作检测模型中的编码器的循环处理过程，可以表示为如下表达式：

E_l-1＝[c_l-1,F_l-1]^S∈R^(TN+1)×D (1)；

其中，l∈[1,2,...,L^En]，L^En表示编码器的层数，l表示编码器中的第l层。通过模型不断的迭代处理，对c、F不断的更新。上述公式(1)表示对按照时序拼接以及添加标记特征后的各样本视频特征进行位置编码，得到编码后的样本视频特征。上述公式(2)表示通过多头注意力机制对编码后的样本视频特征进行编码处理，以生成预测公共特征。上述公式(3)表示将预测公共特征分别与各样本视频特征进行融合，得到融合后的样本视频特征。通过编码器能够有效生成共现动作对应的预测公共特征，从而得到了对于共现动作的特征描述。

然后，通过相似性编码生成器尝试利用预测公共特征来标记出可能属于共现动作的视频帧。首先计算各视频帧的样本视频特征分别与预测公共特征之间的相似度，然后筛选出相似度最高的前K个视频帧。然后分别计算这K个视频帧与每个视频帧之间的有序相似性特征，例如具体可以为有序相似性值对应的特征矩阵，有序相似性值的取值范围可以为0-1。为每一帧计算得到的K维相似性编码。

进一步地，动作检测模型将相似性编码生成器输出的有序相似性特征，与编码器输出的视频拼接特征进行连接，并作为并行解码器的输入。

具体地，可以首先将挑选出来最近的K个特征帧记作A∈R^K×DA∈R^K×D。其中，D为特征维度，然后比较A和所有其他视频帧的相似性

相似性编码S可以作为有用的线索支持解码器找到共现动作。然后将S拼接到CET的输出上，即

作为解码器的输入。

并行解码器利用固定数量的查询嵌入向量(Co-action Query)向每一段视频发起查询，查询结果通过分类分支得到输出结果是否为共现动作，通过回归分支得到动作区间的左右边界。具体做法如下，首先将相似性编码生成器输出的M^En∈R^TN×(D+K)，拆分为

即将一个集合中所有视频对应的视频特征，分别拆分成每个视频对应的特征集合，即拆分为N个视频。

然后通过并行解码器，在每层引入Q个可学习的用来查询的查询嵌入向量Q₀∈R^Q ^×(D+K)。根据以上描述，解码过程最终表示为以下三个步骤的循环：

其中，l∈[1,2,...,L^De]；L^De表示解码器的层数；Q₀表示初始的查询嵌入向量；上述公式(4)表示通过解码层的自注意力机制对每一层中的查询嵌入向量进行初始化，

表示每一层中进行迭代的查询嵌入向量。M_ln表示并行解码器中输入的视频特征；上述公式(5)表示通过解码层的交叉注意力机制利用查询嵌入向量在每一层中对输入的视频特征进行迭代查询，

表示在每一层中的查询结果；D_ln表示预测得到的样本共现动作的预测视频片段；FFN表示全连接层；上述公式(6)表示对每一层查询得到的查询结果进行回归预测，以预测动作发生的开始和结束位置，并通过分类分支来判断该时序区间的预测视频片段是否为样本共现动作。

其中，全连接层中可以包括一个回归分支和一个分类分支，回归分支用于根据查询结果预测动作发生的开始和结束位置，即候选动作对应的预测视频片段。分类分支对候选动作对应的预测视频片段进行动作分类，以识别候选动作对应的视频片段中属于样本共现动作的预测视频片段。

计算机设备可以将各视频帧对应的融合后的样本视频特征进行拼接，将拼接后的样本视频特征输入至动作检测模型的并行解码器中。通过并行解码器中的解码层和相应的查询嵌入向量，在拼接后的样本视频特征查询各样本视频特征之间的相似度，利用相似度满足相似度阈值的样本视频特征，得到相应的查询结果。然后通过回归分支网络，根据各查询结果预测样本视频中候选动作对应的预测视频片段。通过分类分支网络对各预测视频片段对应的样本视频特征进行动作分类，得到各预测视频片段对应的预测分类结果。

在训练过程中，在编码器各层中增加了两个损失，即第一特征损失和第二特征损失。其中，第一特征损失可以为co-token loss，第二特征损失可以为prototype loss。在计算第一特征损失时，可以计算预测公共特征和各正样本视频帧的相似性，以根据相似性确定相似性损失，从而得到第一特征损失。对于真实的样本标签，在训练的过程中使得预测公共特征和属于样本共现动作的正样本视频帧的相似性接近1，和负样本视频帧的相似性接近0。第一特征损失用于优化相似度和真实的样本标签之间的交叉熵，力图使预测公共特征和样本公共特征之间的相似性最大。在计算第二特征损失时，计算机设备首先获得各正样本视频帧对应的样本共现动作的中心，即样本公共特征，然后在训练的过程中使得属于样本共现动作的预测公共特征距离样本共现动作的中心更近，距离负样本视频帧的中心更远。

计算机设备进一步计算出回归损失、分类损失、第一特征损失和第二特征损失后，则根据第一特征损失和第二特征损失调整动作检测模型中的编码器的模型参数，根据回归损失和分类损失调整动作检测模型中的并行解码器的模型参数，并继续进行训练，直至满足训练停止条件时结束训练。由此能够使得训练完成的动作检测模型所预测的公共特征更加准确，进而能够有效提高动作检测模型识别视频中属于共现动作的视频片段的识别精准度。

在一个具体的测试实施例中，采用上述动作检测方法对预设数据集中的视频进行共现动作检测，例如具体可以在ActivityNet、Charades和HACS数据集上进行测试，在时序上定位出所有共现动作的起始时间和结束时间，从而得到相应的测试结果。如图6所示，为其中一个实施例中对测试视频进行共现动作检测的结果示意图。从图6中可以看出，通过对测试视频进行动作检测，分别检测出视频中属于“跳高”动作类别的共现动作所对应的视频片段，即检测出“跳高”这个动作所在的时间区间。图6中展示了检测出的属于共现动作“跳高”的9个视频片段。其中，视频帧601-视频帧609，也即视频帧1-9，为识别出的9个视频片段中分别对应的关键帧。

参照图7，图7出示了样本视频中属于样本共现动作的样本标签7a，与对图6中的测试视频的共现动作检测的检测结果7b的比对示意图，样本标签7a和检测结果7b分别展示了视频帧1-9对应的属于共现动作“跳高”的9个视频片段在测试视频中对应的时序区间。从图7中可以看出，对测试视频的共现动作检测的结果，与标记的样本标签的差异较小。由此可知，通过上述动作检测方法对视频进行共现动作检测，能够较为精准地识别出视频中属于共现动作的视频片段。

在一个具体的应用场景中，上述动作检测方法可以应用于视频搜索场景，视频行为识别。具体地，计算机设备响应于用户输入的视频搜索关健词，通过视频搜索引擎，从相应的数据库中获取与视频搜索关健词相匹配的视频搜索结果。如图8所示，为一个实施例中视频搜索的示意图，计算机设备可以在搜索界面的搜索框802中输入视频搜索关健词，计算机设备则获取与视频搜索关健词相匹配的视频集，并在搜索界面中展示视频搜索结果。视频搜索结果为视频集，视频集中包括至少一个搜索得到的视频，即视频搜索结果中可以包括多个场景下的视频。以视频搜索关健词为“后翻”为例，获取与视频搜索关健词“后翻”相匹配的视频搜索结果，则在搜索界面中展示视频搜索结果。视频搜索结果中包括视频8a、视频8b和视频8c。

在另一个具体的实施例中，计算机设备获取与视频搜索关健词相匹配的视频集后，还可以对视频集中的视频进行共现动作检测，提取出视频中属于共现动作的视频片段。然后在搜索界面中展示所提取的属于共现动作的视频片段。

然后计算机设备则从视频集的视频中识别出属于共现动作的视频片段。具体地，计算机设备首先提取出视频中各视频帧对应的视频特征，根据各视频帧对应的视频特征生成共现动作的公共特征。然后从视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征，进而根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。计算机设备然后根据有序相似性特征和各视频帧的视频特征，识别出视频中属于共现动作的视频片段。

如图9所示，为一个实施例中对图8中的视频进行共现动作检测的结果。图9中出示了对视频8a、视频8b和视频8c进行共现动作检测得到检测结果。检测结果即为利用检测框标记出的属于共现动作的视频片段，其中，视频8a中的视频片段9T1和视频片段9T2、视频8b中的视频片段9T3、以及视频8c中的视频片段9T4，即为识别出的属于共现动作“后翻”的视频片段。

在一个实施例中，识别出的属于共现动作的视频片段，还可以进一步应用于构建动作分类、动作定位等下游任务的训练数据集，以训练相应任务的任务模型。由此能够快速构建训练数据集，增加下游任务的响应能力，并且能够有效减少人力标注训练数据集中的样本标签的成本。

在另一个具体的应用场景中，上述动作检测方法可以应用于视频行为识别场景。具体地，为了老人和小孩的安全，一些家庭会自发的使用设备对自身的家居场景区域进行监测。计算机设备可以获取采集的监测视频。监测视频中可能包括一些背景帧和具有动作的视频帧。其中，背景帧可以是指具有连续的静态画面状态的视频帧。具有动作的视频帧，可以是指具有连续动作状态的视频帧。例如，监测视频可以是针对相应的场景区域所采集的视频，监测视频中可以包括该场景区域的静态画面，也可以包括具有动作的动态画面。

计算机设备获取监测视频后，从视频集的视频中识别出属于共现动作的视频片段。具体地，计算机设备首先提取出视频中各视频帧对应的视频特征，根据各视频帧对应的视频特征生成共现动作的公共特征。然后从视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征，进而根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。计算机设备然后根据有序相似性特征和各视频帧的视频特征，识别出视频中属于共现动作的视频片段。例如，在家居场景区域中，若老人和小孩摔倒了，那么，通过上述动作检测方法，则能够精准地识别出属于摔倒动作的视频片段，从而能够准确地监测到老人和小孩摔倒的情况，提高了安全性。

应该理解的是，虽然图2-图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种动作检测装置1000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：公共特征生成模块1002、视频特征筛选模块1004、相似特征生成模块1006和共现动作检测模块1008，其中：

公共特征生成模块1002，用于获取待检测视频中提取出的共现动作的公共特征；共现动作，是在待检测视频的不同视频帧中出现的同类型动作。

视频特征筛选模块1004，用于从待检测视频中按时序排列的各视频帧的视频特征中，筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

相似特征生成模块1006，用于根据各视频帧的视频特征与属于共现动作的视频特征之间的相似度，生成有序相似性特征。

共现动作检测模块1008，用于根据有序相似性特征和各视频帧的视频特征，识别待检测视频中属于共现动作的视频片段。

在一个实施例中，公共特征生成模块1002还用于将待检测视频中各视频帧对应的视频特征按时序拼接，得到视频拼接特征；对视频拼接特征中各视频特征添加位置信息；对添加位置信息的视频拼接特征进行编码处理，生成待检测视频中的共现动作的公共特征。

在一个实施例中，公共特征生成模块1002还用于根据各添加位置信息的视频特征之间的相关性，确定各视频特征对应的注意力权重；注意力权重与相关性正相关；基于注意力权重对相应视频特征进行编码，生成待检测视频中共现动作对应的公共特征。

在一个实施例中，视频特征筛选模块1004还用于将公共特征分别与待检测视频中按时序排列的各视频帧的视频特征进行融合，得到融合后的视频特征；分别确定各融合后的视频特征与公共特征之间的相似度；根据相似度从各视频帧的视频特征中筛选与公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

在一个实施例中，共现动作检测模块1008还用于根据各视频帧的视频特征与有序相似性特征之间的目标相似度，预测待检测视频中候选动作对应的视频片段；基于对候选动作对应的视频片段中的视频特征进行动作分类得到的分类结果，从候选动作对应的视频片段中识别属于共现动作的视频片段。

在一个实施例中，共现动作检测模块1008还用于将有序相似性特征和各视频帧的视频特征进行拼接，得到拼接后的视频特征；根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度；根据目标相似度达到相似度阈值的视频特征所对应的位置信息，预测待检测视频中候选动作对应的视频片段。

在一个实施例中，共现动作检测模块1008还用于在拼接后的视频特征中查询拼接后的各视频帧的视频特征之间的目标相似度，得到查询结果；根据查询结果，预测待检测视频中候选动作对应的起始位置和结束位置，得到候选动作对应的视频片段。

在一个实施例中，动作检测方法是通过动作检测模型执行的；动作检测模型通过训练步骤训练获得；上述动作检测装置还包括模型训练模块，用于获取样本视频中各视频帧对应的样本视频特征；样本视频携带样本标签，样本标签包括样本视频中属于样本共现动作的位置和类别；在每轮迭代训练中，将本轮的标记特征添加至按时序拼接后的样本视频特征中，通过待训练的动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成样本视频中的样本共现动作的预测公共特征；通过动作检测模型的相似性编码生成器，将各样本视频特征中与预测公共特征满足相似度接近条件的样本视频特征，分别融合至各样本视频特征中，得到预测有序相似性特征；通过动作检测模型的并行解码器，根据样本有序相似性特征和各样本视频特征，预测样本视频中属于样本共现动作的预测视频片段；基于预测视频片段与样本标签之间的差异，确定预测结果损失；根据预测结果损失，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

在一个实施例中，模型训练模块还用于将样本有序相似性特征与各样本视频特征在语义维度上进行拼接，得到拼接后的样本视频特征；通过动作检测模型中的并行解码器，根据拼接后的样本视频特征预测样本视频中候选动作对应的预测视频片段；对预测视频片段对应的样本视频特征进行动作分类，得到预测分类结果。

在一个实施例中，预测结果损失包括回归损失和分类损失；模型训练模块还用于基于预测视频片段与样本标签中属于共现动作的位置之间的差异，确定回归损失；基于预测视频片段的分类结果与样本标签的样本共现动作的类别之间的差异，确定分类损失。

在一个实施例中，模型训练模块还用于根据样本标签从样本视频中提取属于共现动作的正样本视频帧，从正样本视频帧对应的样本视频特征中提取对应的样本公共特征；基于预测公共特征与正样本视频帧的样本视频特征之间的差异，确定第一特征损失；基于预测公共特征与样本公共特征间的差异，确定第一特征损失；根据预测结果损失、第一特征损失和第二特征损失，调整动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

关于动作检测装置的具体限定可以参见上文中对于动作检测方法的限定，在此不再赘述。上述动作检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端。其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动作检测方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种动作检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待检测视频中的共现动作的公共特征，包括：

将待检测视频中各视频帧对应的视频特征按时序拼接，得到视频拼接特征；

对视频拼接特征中各视频特征添加位置信息；

对添加位置信息的视频拼接特征进行编码处理，生成所述待检测视频中的共现动作的公共特征。

3.根据权利要求2所述的方法，其特征在于，所述对添加位置信息的视频拼接特征进行编码处理，生成所述待检测视频中的共现动作的公共特征，包括：

根据各添加位置信息的视频特征之间的相关性，确定各所述视频特征对应的注意力权重；所述注意力权重与所述相关性正相关；

基于所述注意力权重对相应所述视频特征进行编码，生成所述待检测视频中共现动作对应的公共特征。

4.根据权利要求1所述的方法，其特征在于，所述从所述待检测视频中按时序排列的各视频帧的视频特征中，筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征，包括：

将所述公共特征分别与所述待检测视频中按时序排列的各视频帧的视频特征进行融合，得到融合后的视频特征；

分别确定各融合后的视频特征与所述公共特征之间的相似度；

根据所述相似度从各所述视频帧的视频特征中筛选与所述公共特征满足相似度接近条件的视频特征，得到属于共现动作的视频特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述有序相似性特征和各所述视频帧的视频特征，识别所述待检测视频中属于所述共现动作的视频片段，包括：

根据各所述视频帧的视频特征与所述有序相似性特征之间的目标相似度，预测所述待检测视频中候选动作对应的视频片段；

基于对所述候选动作对应的视频片段中的视频特征进行动作分类得到的分类结果，从所述候选动作对应的视频片段中识别属于所述共现动作的视频片段。

6.根据权利要求5所述的方法，其特征在于，所述根据各所述视频帧的视频特征与所述有序相似性特征之间的目标相似度，预测所述待检测视频中候选动作对应的视频片段，包括：

将所述有序相似性特征和各所述视频帧的视频特征进行拼接，得到拼接后的视频特征；

根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度；

根据所述目标相似度达到相似度阈值的视频特征所对应的位置信息，预测所述待检测视频中候选动作对应的视频片段。

7.根据权利要求6所述的方法，其特征在于，所述根据拼接后的视频特征确定各视频帧的视频特征之间的目标相似度，包括：

在所述拼接后的视频特征中查询拼接后的各视频帧的视频特征之间的目标相似度，得到查询结果；

所述根据所述目标相似度达到相似度阈值的视频特征所对应的位置信息，预测所述待检测视频中候选动作对应的视频片段，包括：

根据所述查询结果，预测所述待检测视频中候选动作对应的起始位置和结束位置，得到候选动作对应的视频片段。

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述动作检测方法是通过动作检测模型执行的；所述动作检测模型通过训练步骤训练获得；所述训练步骤包括：

获取样本视频中各视频帧对应的样本视频特征；所述样本视频携带样本标签，样本标签包括样本视频中属于样本共现动作的位置和类别；

在每轮迭代训练中，将本轮的标记特征添加至按时序拼接后的样本视频特征中，通过待训练的动作检测模型的编码层，对添加本轮的标记特征后的样本视频特征进行编码，预测生成所述样本视频中的样本共现动作的预测公共特征；

通过所述动作检测模型的相似性编码生成器，从各所述样本视频特征中筛选与所述预测公共特征满足相似度接近条件的样本视频特征，得到属于样本共现动作的样本视频特征；根据各视频帧的样本视频特征与所述属于样本共现动作的样本视频特征之间的相似度，生成预测有序相似性特征；

通过所述动作检测模型的并行解码器，根据所述样本有序相似性特征和各所述样本视频特征，预测所述样本视频中属于样本共现动作的预测视频片段；

基于所述预测视频片段与所述样本标签之间的差异，确定预测结果损失；

根据所述预测结果损失，调整所述动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

9.根据权利要求8所述的方法，其特征在于，所述通过所述动作检测模型的并行解码器，根据所述样本有序相似性特征和各所述样本视频特征，预测所述样本视频中属于样本共现动作的预测视频片段，包括：

将所述样本有序相似性特征与各所述样本视频特征进行拼接，得到拼接后的样本视频特征；

通过所述动作检测模型中的并行解码器，根据拼接后的样本视频特征预测所述样本视频中候选动作对应的预测视频片段；

对所述预测视频片段对应的样本视频特征进行动作分类，得到预测分类结果。

10.根据权利要求9所述的方法，其特征在于，所述预测结果损失包括回归损失和分类损失；所述基于所述预测视频片段与所述样本标签之间的差异，确定预测结果损失，包括：

基于所述预测视频片段的预测位置与所述样本标签中属于样本共现动作的位置之间的差异，确定回归损失；

基于所述预测视频片段的预测分类结果与所述样本标签的样本共现动作的类别之间的差异，确定分类损失。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述样本标签从所述样本视频中提取属于样本共现动作的正样本视频帧，从所述正样本视频帧对应的样本视频特征中提取对应的样本公共特征；

基于所述预测公共特征与所述正样本视频帧的样本视频特征之间的相似度差异，确定第一特征损失；

基于所述预测公共特征与所述样本公共特征间的差异，确定第二特征损失；

所述根据所述预测结果损失，调整所述动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练，包括：

根据所述预测结果损失、第一特征损失和第二特征损失，调整所述动作检测模型的模型参数并继续进行训练，直至满足训练停止条件时结束训练。

12.一种动作检测装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述公共特征生成模块还用于将待检测视频中各视频帧对应的视频特征按时序拼接，得到视频拼接特征；对视频拼接特征中各视频特征添加位置信息；对添加位置信息的视频拼接特征进行编码处理，生成所述待检测视频中的共现动作的公共特征。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。