CN113591529A

CN113591529A - 动作分割模型的处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113591529A
Application number: CN202110200497.1A
Authority: CN
Inventors: 苏冰; 李昱; 祁仲昂; 文继荣; 单瀛
Original assignee: Tencent Technology Shenzhen Co Ltd; Renmin University of China
Current assignee: Tencent Technology Shenzhen Co Ltd; Renmin University of China
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-11-02

Abstract

本申请涉及一种动作分割模型的处理方法、装置、计算机设备和存储介质，具体涉及人工智能的计算机视觉技术，包括：对样本视频的特征向量序列进行特征增强处理，得到增强特征序列；将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果；根据增强特征序列，预测各视频帧对应的动作分类结果；基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型。本申请实施例提供的方案能够提高对动作边界附近视频帧进行动作分类的准确度。

Description

动作分割模型的处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种动作分割模型的处理方法、装置、计算机设备和存储介质。

背景技术

视频的理解与识别是计算机视觉的基础任务之一，随着智能终端及互联网技术的快速发展，上传到各种平台的视频的数量也迅速增长，使得近年来对视频内容的理解越来越受到关注。

视频动作分割是通过识别视频中不同的动作类别，将包含多个动作的视频进行分段的过程，视频动作分割是一个具有较高实际应用价值的视频理解任务，例如，精确的动作分割有助于舆情监控，广告投放，以及很多其他视频理解相关的任务。

然而，在识别视频中不同的动作类别时，由于动作边界是位于不同动作之间的过渡阶段，相邻动作在边界处的帧非常相似，目前已有的大多数动作分割方法对动作边界不敏感，导致对动作边界附近视频帧的动作分类准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对视频中动作边界附近的视频帧动作进行分类的准确性的动作分割模型的处理方法、装置、计算机设备和存储介质。

一种动作分割模型的处理方法，包括：

获取样本视频及所述样本视频中视频帧的动作类别标签；

对所述样本视频的特征向量序列进行特征增强处理，得到增强特征序列；

将所述增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述增强特征序列之间的相似度，预测各所述视频帧对应的边界分类结果；

根据所述增强特征序列，预测各所述视频帧对应的动作分类结果；

基于各所述视频帧的动作类别标签、所述边界分类结果和所述动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型，所述动作分割模型用于预测待处理视频中各视频帧对应的动作类别后，获得按动作类别分割的视频片段。

在一个实施例中，所述方法还包括：

在特征提取网络中，对构成所述样本视频的各视频帧提取特征向量；

根据所述视频帧的特征向量，获得所述样本视频对应的特征向量序列。

在一个实施例中，所述对所述样本视频的特征向量序列进行特征增强处理，得到增强特征序列，包括：

在多阶段特征增强网络中，对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列；其中，所述前一动作分类结果是对前一阶段对应的前一增强特征序列进行动作分类获得的，首个增强特征序列是根据所述样本视频的特征向量序列生成的。

在一个实施例中，所述将所述增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述增强特征序列之间的相似度，预测各所述视频帧对应的边界分类结果，包括：

将所述当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，根据所述对数上下文特征序列与所述当前阶段对应的增强特征序列间的相似度，预测各所述视频帧在当前阶段对应的边界分类结果；

所述根据所述增强特征序列，预测各所述视频帧对应的动作分类结果，包括：基于所述当前阶段对应的增强特征序列，预测各所述视频帧在当前阶段对应的动作分类结果。

在一个实施例中，所述对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列，包括：

将所述特征向量序列输入所述多阶段特征增强网络，所述多阶段特征增强网络包括一个特征生成子网络和多个特征细化子网络；

在所述特征生成子网络中，对所述特征向量序列进行特征增强处理，获得所述样本视频在特征生成阶段对应的增强特征序列；

所述基于所述当前阶段对应的增强特征序列，预测各所述视频帧在当前阶段对应的动作分类结果，包括：

根据所述特征生成阶段对应的增强特征序列进行动作分类，获得所述样本视频在特征生成阶段对应的动作分类结果。

在一个实施例中，所述方法还包括：

在首个特征细化子网络中，对所述特征生成阶段对应的动作分类结果进行特征增强处理，获得所述样本视频在首个特征细化阶段对应的增强特征序列后，迭代地根据前一特征细化阶段对应的动作分类结果获得所述样本视频在当前特征细化阶段对应的增强特征序列，直至获得在末尾特征细化阶段对应的增强特征序列时停止迭代；

根据所述当前特征细化阶段对应的增强特征序列进行动作分类，获得所述样本视频在当前特征细化阶段对应的动作分类结果。

在一个实施例中，所述基于所述当前阶段对应的增强特征序列，预测各所述视频帧在当前阶段对应的动作分类结果，包括：

通过线性分类器对所述当前阶段对应的增强特征序列中各视频帧对应的增强特征向量进行动作分类，获得各所述视频帧在当前阶段对应的动作分类结果。

在一个实施例中，所述将所述当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，包括：

对于所述样本视频中的每个视频帧，根据与邻近帧的相对方向和距离，将所述当前阶段对应的增强特征序列中处于对数上下文内的各增强特征向量划分至多个对数上下文层级；

对于每个对数上下文层级，计算划分至同一层级的增强特征向量的平均向量，将每个对数上下文层级的平均向量所构成的序列，作为各所述视频帧在当前阶段对应的对数上下文特征序列。

在一个实施例中，所述根据所述对数上下文特征序列与所述当前阶段对应的增强特征序列间的相似度，预测各所述视频帧在当前阶段对应的边界分类结果，包括：

确定所述对数上下文特征序列与所述当前阶段对应的增强特征序列之间的相似度；

根据所述相似度获得各所述视频帧对应的对数上下文注意力分数；

通过线性分类器，根据所述对数上下文注意力分数预测各所述视频帧在当前阶段对应的边界分类结果。

在一个实施例中，所述确定所述对数上下文特征序列与所述当前阶段对应的增强特征序列之间的相似度，包括：

对所述当前阶段对应的增强特征序列进行线性变换，获得特征变换序列；

对所述对数上下文特征序列进行线性变换，获得上下文变换特征序列；

通过点乘操作，获得所述特征变换序列中每个特征变换向量与所述上下文变换特征序列中相应上下文特征变换向量之间的相似度。

在一个实施例中，所述根据各所述视频帧的动作类别标签、所述边界分类结果和所述动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型，包括：

根据各所述视频帧的动作类别标签确定相应的边界类别标签；

根据所述边界分类结果与所述边界类别标签、所述动作分类结果与所述动作类别标签构建总损失函数；

根据所述总损失函数更新模型参数后继续训练，直至获得训练好的动作分割模型。

在一个实施例中，所述根据所述边界分类结果与所述边界类别标签、所述动作分类结果与所述动作类别标签构建总损失函数，包括：

基于各阶段对应的所述边界分类结果与所述边界类别标签构建所有阶段的边界分类损失函数；

基于各阶段对应的所述动作分类结果与所述动作类别标签构建所有阶段的动作分类损失函数；

将所述所有阶段的边界分类损失函数与所述所有阶段的动作分类损失函数求和，获得总损失函数。

在一个实施例中，所述动作分割模型包括用于对所述样本视频进行特征提取的特征提取网络、用于对所述样本视频的特征向量序列进行特征增强处理，得到增强特征序列的多阶段特征增强网络、用于将所述增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述增强特征序列之间的相似度，预测各所述视频帧对应的边界分类结果的边界分类网络以及用于根据所述增强特征序列，预测各所述视频帧对应的动作分类结果的动作分类网络。

在一个实施例中，所述方法还包括：

将待处理视频输入训练好的所述动作分割模型；

通过所述动作分割模型中的特征提取网络，获得所述待处理视频对应的特征向量序列，通过所述动作分割模型中的多阶段特征增强网络，对所述样本视频的特征向量序列进行特征增强处理，得到在末尾阶段对应的增强特征序列，通过所述动作分割模型中的动作分类网络，根据所述末尾阶段对应的增强特征序列进行预测，获得所述待处理视频中各视频帧对应的动作类别。

在一个实施例中，所述方法还包括：

获取所述待处理视频中各所述视频帧对应的动作类别；

根据对应相同动作类别的视频帧，将所述待处理视频分割为多个视频片段。

在一个实施例中，所述方法还包括：

通过所述动作分割模型中的边界分类网络，根据所述末尾阶段对应的增强特征序列进行预测，获得所述待处理视频中各视频帧对应的边界类别。

一种视频处理方法，包括：

获取待处理视频；

将所述待处理视频输入训练好的动作分割模型；

通过所述动作分割模型，获得所述待处理视频对应的特征向量序列，对所述待处理视频的特征向量序列进行特征增强处理，得到增强特征序列，根据所述增强特征序列进行预测，获得所述待处理视频中各视频帧对应的动作类别；

其中，所述动作分割模型是根据样本视频及所述样本视频中各视频帧的动作类别标签、边界分类结果和动作分类结果进行模型训练得到的；所述边界分类结果是将所述样本视频的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述样本视频的增强特征序列之间的相似度进行预测得到的；所述动作分类结果是基于所述样本视频的增强特征序列进行预测得到的；所述样本视频的增强特征序列是对所述样本视频的特征向量序列进行特征增强处理得到的。

一种动作分割模型的处理装置，包括：

获取模块，用于获取样本视频及所述样本视频中视频帧的动作类别标签；

特征增强模块，用于对所述样本视频的特征向量序列进行特征增强处理，得到增强特征序列；

边界分类模块，用于将所述增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述增强特征序列之间的相似度，预测各所述视频帧对应的边界分类结果；

动作分类模块，用于根据所述增强特征序列，预测各所述视频帧对应的动作分类结果；

参数更新模块，用于基于各所述视频帧的动作类别标签、所述边界分类结果和所述动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型，所述动作分割模型用于预测待处理视频中各视频帧对应的动作类别后，获得按动作类别分割的视频片段。

一种视频处理装置，包括：

获取模块，用于获取待处理视频；

输入模块，用于将所述待处理视频输入训练好的动作分割模型；

动作分割模块，用于通过所述动作分割模型，获得所述待处理视频对应的特征向量序列，对所述待处理视频的特征向量序列进行特征增强处理，得到增强特征序列，根据所述增强特征序列进行预测，获得所述待处理视频中各视频帧对应的动作类别；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述动作分割模型的处理方法和上述视频处理方法中的至少一种。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述动作分割模型的处理方法和上述视频处理方法中的至少一种。

一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述动作分割模型的处理方法和上述视频处理方法中的至少一种的步骤。

上述动作分割模型的处理方法、装置、计算机设备和存储介质，在训练动作分割模型时，通过预测样本视频中每一视频帧的边界类别，以辅助视频帧的动作分类，将帧级边界预测和帧级动作分类一起进行训练，使得动作分割模型能够学习到视频帧在边界处更具鉴别性的特征，提高对动作边界附近视频帧进行动作分类的准确度。

此外，在预测视频帧的边界类别时，由于边界类别与具体的动作类别无关，难以直接基于视频帧的增强特征预测该视频帧是否为边界帧，而是利用每个视频帧与其相邻连续帧之间的相似性进行预测，具体地，将增强特征序列中处于对数上下文内的增强特征向量划分至多个对数上下文层级，根据划分至不同层级的增强特征向量获得样本视频对应的对数上下文特征序列，这样可以捕获每个视频帧在对数空间的上下文信息，根据每个视频帧的增强特征向量与其对数上下文特征之间的相似度进行边界分类，可以大大提升边界分类的准确性；并且，采用对数空间的上下文信息，可以在极大地增大每个视频帧的上下文信息感受野范围的同时，不增加计算每个视频帧与其附近视频帧之间的相似度的计算量，克服上下文范围和相似度计算量难以均衡的问题。

附图说明

图1为一个实施例中动作分割模型的处理方法的应用环境图；

图2为一个实施例中动作分割模型的处理方法的流程示意图；

图3为一个实施例中对视频的边界分类的示意图；

图4为一个实施例中对数上下文的示意图；

图5为一个实施例中在每个阶段进行边界预测的流程示意图；

图6为一个实施例中基于对数上下文相似度进行边界预测的流程示意图；

图7为一个实施例中基于对数上下文进行边界分类的示意图；

图8为一个实施例中动作分割模型的结构框架示意图；

图9为一个实施例中动作分割模型的整体框架示意图；

图10为一个具体的实施例中动作分割模型的处理方法的流程示意图；

图11为一个实施例中视频处理方法的流程示意图；

图12为一个实施例中动作分割模型的处理装置的结构框图；

图13为一个实施例中视频处理装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像分割模型的处理方法和图像处理方法，涉及人工智能(Artificial Intelligence，AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的动作分割模型的处理方法和视频处理方法，主要涉及人工智能的计算机视觉技术(Computer Vision，CV)。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的动作分割模型的处理方法和视频处理方法，主要涉及计算机视觉技术领域的视频理解。例如，通过样本视频训练好具备识别出视频中的动作类别的动作分割模型后，将待处理视频输入该训练好的动作分割模型，通过动作分割模型识别出待处理视频中各视频帧的动作类别，进一步地还可以根据各视频帧的动作类别将待处理视频分割成对应不同动作的视频片段。

本申请提供的动作分割模型的处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104可用于从终端102获取视频，作为样本视频，通过样本视频训练动作分割模型，具体地，服务器104可以获取样本视频及样本视频中视频帧的动作类别标签；对样本视频的特征向量序列进行特征增强处理，得到增强特征序列；将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果；根据增强特征序列，预测各视频帧对应的动作分类结果；基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型。

上述动作分割模型的处理方法，在训练动作分割模型时，通过预测样本视频中每一视频帧的边界类别，以辅助视频帧的动作分类，将帧级边界预测和帧级动作分类一起进行训练，使得动作分割模型能够学习到视频帧在边界处更具鉴别性的特征，提高对动作边界附近视频帧进行动作分类的准确度。

本申请提供的视频处理方法，也可以应用于如图1所示的应用环境中。例如，服务器104可以获取待处理视频，将待处理视频输入训练好的动作分割模型；通过动作分割模型，获得待处理视频对应的特征向量序列，对待处理视频的特征向量序列进行特征增强处理，得到增强特征序列，根据增强特征序列进行预测，获得待处理视频中各视频帧对应的动作类别。服务器104还可以根据增强特征序列进行预测，获得待处理视频中各视频帧对应的边界类别。服务器104还可以将按照动作类别对待处理视频进行分割后得到的视频片段返回至终端102。参照图1，输入长视频是一段舞蹈视频，展示了三个不同的舞蹈动作，服务器104可以通过训练好的动作分割模型，预测每个视频帧对应的舞蹈动作类别后，按舞蹈动作类别对该长视频进行动作分割，获得三个视频片段，在一些场景中，需要学习该舞蹈的用户就可以将舞蹈动作进行划分后依次学习，避免需要反复观看该长视频。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的动作分割模型的处理方法，其执行主体可以是本申请实施例提供的动作分割模型的处理装置，或者集成了该动作分割模型的处理装置的计算机设备，其中该动作分割模型的处理装置可以采用硬件或软件的方式实现。本申请实施例提供的视频处理方法，其执行主体可以是本申请实施例提供的视频处理装置，或者集成了该视频处理装置的计算机设备，其中该视频处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或服务器104。

动作分割(Action Segmentation)是指识别长视频中每个视频帧的动作类别后，对该长视频按照动作类别进行分割的过程。本申请提供的动作分割模型的处理方法和视频处理方法，可以应用于视频监视、视频舆情监控、广告投放、机器人导航以及很多其他视频理解相关的场景中。例如，在视频监视场景中，可以对视频进行分析，找出不合法规的视频片段，以提示用户对视频中的部分片段进行剪辑处理或对该视频进行下架处理。例如，在足球比赛视频的场景中，可以应用动作分割模型对足球比赛视频进行分析，从长视频中分割出现次数较少的“进球”、“罚牌”等精彩的视频片段，可以得到该足球比赛视频的精华剪辑。又例如，在人机协作场景下，可以应用动作分割模型对人的动作行为进行分析，识别人的动作与行为，并将其反馈至机器人，使得人机协作更顺畅。

在一个实施例中，如图2所示，提供了一种动作分割模型的处理方法，以该方法应用于图1中的计算机设备(图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤202，获取样本视频及样本视频中视频帧的动作类别标签。

其中，样本视频用于训练动作分割模型，视频帧的动作类别标签是视频帧对应的真实动作类别。动作类别是视频中每个视频帧的动作分类，例如，一个关于榨橙汁的长视频中的动作可以分为四类，分别为切橙子、榨橙汁、取杯子和倒橙汁。视频帧的动作类别标签可以是通过人工标注得到的。在本申请实施例中，动作分割模型可以通过样本视频进行学习，从而学习到对视频中各视频帧进行动作分类的能力。

具体地，计算机设备可以从网络上下载样本视频，计算机设备还可以获取其他计算机设备传递的样本视频，例如上述图1中服务器104获取终端102传递的视频，计算机设备还可以获取本机上生成的样本视频，例如通过对已有的视频进行一系列视频编辑或剪辑后生成新的样本视频。此外，计算机设备在获取样本视频时，同时还获取对应的动作类别标签，例如样本视频包括T个视频帧，对应的动作类别标签可以是一个长度为T的向量，为c＝[c₁，c₂,c₃,...,c_T]。

步骤204，对样本视频的特征向量序列进行特征增强处理，得到增强特征序列。

其中，特征向量是对视频帧的图像特征进行抽象提取并组合所获得该视频帧的深度特征的表示，图像特征包括该视频帧的颜色特征、纹理特征、形状特征等等。特征向量序列是根据样本视频中各视频帧的特征向量构成的序列。特征向量序列是样本视频初始的特征表示，为了增强样本视频的特征表示，获得各视频帧在先后时序上的联系，计算机设备可以对特征向量序列进行特征增强处理，得到能够表征各视频帧之间时序关系的增强特征序列。

例如，将样本视频的特征向量序列X＝[x₁,x₂,x₃,...,x_T]∈R^d×T，其中T为特征向量序列的长度，特征向量序列X＝[x₁,x₂,x₃,...,x_T]∈R^d×T中第t个特征向量x_t表示样本视频中第t帧对应的特征向量，d为视频帧对应的特征向量的维数。对特征向量序列进行特征增强，获得Z＝[z₁,z₂,z₃,...,z_T]∈R^d′×T，其中d'为增强后特征向量的维数。

在一个实施例中，计算机设备可以在特征提取网络中，对构成样本视频的各视频帧提取特征向量；根据视频帧的特征向量，获得样本视频对应的特征向量序列。

具体地，动作分割模型可以包括用于提取视频的特征向量序列的特征提取网络，特征提取网络可以是预先训练好的卷积神经网络，也可以是与该动作分割模型中其它网络一起训练的卷积神经网络。

在一个实施例中，特征提取网络是2D卷积神经网络，计算机设备通过该特征提取网络从样本视频的每个视频帧提取一个特征向量，根据每个视频帧对应的特征向量获得特征向量序列。

在一个实施例中，特征提取网络是3D卷积神经网络，例如I3D、C3D等。计算机设备通过该特征提取网络，从当前帧的前后几个视频帧提取出一个特征，作为当前帧的特征向量，根据每个视频帧对应的特征向量获得特征向量序列。例如，样本视频总共8帧，计算机设备可以根据第1-3帧提取第1个特征作为第1帧的特征向量，根据第2-4帧提取第2个特征作为第2帧的特征向量，根据第3-5帧提取第3个特征作为第3帧的特征向量，以此类推。可选地，如果要保持生成的特征向量序列的长度与样本视频的长度一致，则可以补0后生成每一帧的特征向量，例如，计算机设备根据0、第1-2帧提取第1个特征向量，根据第1-3帧提取第2个特征向量，以此类推，根据第7-8帧、0提取第8个特征向量。

计算机设备可以在获得样本视频对应的特征向量序列后，对特征向量序列进行特征增强处理，获得增强特征序列。计算机设备可以利用视频帧之间的时序依赖关系来增强特征向量序列中每个视频帧的特征表示，例如，可以使用时序卷积神经网络构建特征增强网络来增强每个视频帧的特征表示，例如MS-TCN++(Multi-Stage TemporalConvolutional Network，多阶段时序卷积神经网络)、Spatial CNN(SpatialConvolutional Neural Network，空间卷积神经网络)、Bi-LSTM(Bi-directional LongShort-Term Memory，双向长短时记忆网络)，等等。

步骤206，将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果。

边界分类，是预测当前帧是否为边界帧，边界帧是不同动作类别之间过渡的视频帧，比如连续相同动作类别的起始帧或结束帧，起始帧与结束帧之间的视频帧称为中间帧，边界分类结果即是将视频帧分类为这三类中的一种。传统的动作分割方法，在对视频帧中的动作进行分类时，将所有视频帧一视同仁，没有区分处于两个不同动作类别之间的边界帧，而处于边界附近的视频帧是非常相似的，导致边界处的视频帧的分类准确度较低。

如图3所示，为一个实施例中对视频的边界分类的示意图。参照图3，同一视频中四个连续动作的视频帧，每行代表一个动作，第一列和最后一列分别显示了四个动作的开始帧和结束帧，中间的两列显示了动作的中间帧，在每个动作中，中间帧和边界帧都不同，但是，每个动作的开始帧都与前一个动作的结束帧非常相似，每个动作的结束帧与后一个动作的开始帧非常相似，难以分类。

基于此，本申请实施例中训练动作分割模型时，通过预测样本视频中每一视频帧的边界类别，即预测视频帧是某个动作类别的开始帧、中间帧还是结尾帧，以辅助视频帧的动作分类，将帧级边界预测和帧级动作分类一起进行训练，增加边界分类任务能够迫使动作分割模型更加关注边界周围的帧，学习到视频帧在边界处更具鉴别性的特征，提高对动作边界附近视频帧进行动作分类的准确度。

由于边界类型与具体的动作类别无关，每个动作的开始帧都与前一个动作的结束帧非常相似，每个动作的结束帧与后一个动作的开始帧非常相似，难以直接基于视频帧的增强特征向量预测该视频帧是否为边界帧。在本申请实施例中，参照图3，考虑到如果某个视频帧与其后续帧相似，但不同于先前帧，则可能是新动作的开始帧，如果与后续帧不同但与先前帧相似，则应为结束帧，如果它在两个方向上都与相邻帧相似，则可能位于动作中间，是中间帧，因此，在预测某个视频帧的边界类别时，利用该视频帧的增强特征向量与其相邻连续帧之间的相似性而不是该视频帧的增强特征向量本身作为边界分类的依据。

例如，对于增强特征序列Z＝[z₁,z₂,z₃,...,z_T]∈R^d′×T，其中z_t是第t帧对应的增强特征向量，假设上下文范围是前后两帧，计算机设备可以在预测第t帧的动作类别时，根据第t-2帧、第t-1帧、第t+1帧、第t+2帧对应的增强特征向量与第t帧对应的增强特征向量，计算第t帧与该邻近帧之间的相似度，根据该相似度预测第t帧的边界类别。

在本申请中，发明人进一步意识到，在计算视频帧的增强特征向量与其相邻连续帧之间的相似性时，如果采用上述的例子，仅将每个视频帧的增强特征向量与几个相邻帧的增强特征向量进行比较，则每个视频帧的局部感受野将受到限制，上下文信息无法得到充分探索，如果选取的相邻帧数量很大并计算视频帧与选取的这些相邻帧的相似度，大范围不仅会引入大量的计算复杂度，而且大范围上下文更容易包含噪声帧，边界预测也更容易受到噪声帧的影响。

为此，计算机设备将增强特征序列中处于对数上下文内的增强特征向量划分至多个对数上下文层级，根据划分至不同层级的增强特征向量获得样本视频对应的对数上下文特征序列，这样可以在对数空间捕获每个视频帧的上下文信息，根据每个视频帧的增强特征向量与其对数上下文特征之间的相似度进行边界分类，可以大大提升边界分类的准确性，同时，采用对数空间的上下文信息，可以在极大地增大每个视频帧的上下文信息感受野范围的同时，不增加计算每个视频帧与其附近视频帧之间的相似度的计算量，克服上下文范围和相似度计算量难以均衡的问题。

其中，对数上下文是将视频帧的上下文按与该视频帧的对数距离进行划分后得到的上下文信息，对数上下文的范围是根据模型训练时所设置的超参数确定，超参数包括N、d1和f，其中N为每个方向的层级数量，d1为前后方向最近的层级中视频帧的数量，f为随着层级增加层级中帧数量的增长因子。对于每一个视频帧来说，对数上下文所包括的帧数是相同的，为2d₁f^N-1个视频帧，但由于每个视频帧的位置不一样，其对应的对数上下文内的视频帧是不同的。对数上下文层级，是指将对数上下文内的特征划分为多个层级，划分时，随着层级的增大每个层级内所包含的视频帧的数量呈指数增长，也就是说，对数上下文的范围随着层级的线性增加而呈指数增长，可以获得更多的上下文信息，这样对当前帧来说，可以将较大的重要性分配给相邻帧而将较小的重要性分配给距离较远的视频帧，从而降低噪声帧或异常帧的影响。

具体地，对于第t帧，增强特征序列Z＝[z₁,z₂,z₃,...,z_T]∈R^d′×T中第t个增强特征向量z_t是第t帧对应的增强特征向量，将当前第t帧的索引设为0，则前向邻近帧的索引依次为1、2、3、…、d₁f^N-1，后向邻近帧的索引依次为-1、-2、-3、…、-d₁f^N-1。将第t帧前向的d₁个近邻帧分入前向第1个层级，也就是第t帧前向的第1帧到第d₁帧被分入前向第1个层级，第t帧前向的第d₁+1帧到第d₁f帧被分入前向第2个层级；类似地，对n从3到N，将第d₁f^n-2+1帧到第d₁f^n-1帧分入前向第n个层级；可见，距离当前帧越远，层级中帧的数量越多，并且N个层级中结尾帧的索引在对数空间是等距的，即：

log(d₁fⁿ)-log(d₁f^n-1)＝log(f)。

类似地，将后向d₁f^N-1个邻近帧也分到N个上下对数文层级，距离当前帧越远，层级中帧的数量越多，各个层级反向结尾帧的索引在对数空间中是等距的。

举例说明，假设d1取值2，f取值2，N取值4，对于当前帧z3来说：该帧前向的第1帧到第2帧即前向两个帧，也就是z4到z5被分入前向第1个层级，该帧前向的第3帧到第4帧即前向两个帧，也就是z6到z7分入前向第2个层级；该帧前向的第5帧到第8帧即前向四个帧，也就是z8到z11分入前向第3个层级；该帧前向的第9帧到第16帧即前向八个帧，也就是z12到z19分入前向第4个层级；每个层级中结尾帧的索引依次为2、4、8、16，在对数空间是等距的。

类似地，该帧后向的第1帧到第2帧即后向两个帧，也就是z1到z2被分入后向第1个层级，该帧后向的第3帧到第4帧分入后向第2个层级，该帧后向的第5帧到第8帧分入后向第3个层级，该帧后向的第9帧到第16帧分入后向第4个层级，但由于当前帧z3后向只有两个帧z1、z2，后向第2个层级、后向第3个层级及后向第4个层级的帧可以用0来补齐。

如图4所示，为一个实施例中对数上下文的示意图。参照图4，增强特征序列包括25个视频帧对应的增强特征向量，将增强特征序列中处于当前帧的对数上下文内的增强特征向量划分至多个对数上下文层级，以N＝3，d1＝2，f＝2，当前帧为第11帧为例，前向和后向各8帧分别被分入3个不同的级别。参照图4，当前帧的索引标记为0，在对数空间中，每个方向上的层级的结束帧的索引是等距的，随着层级的数量增加，对数上下文中包括的视频帧的数量呈指数增加。

接着，计算机设备根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果。

其中，对数上下文特征序列是样本视频中每个视频帧对应的对数上下文特征构成的序列，每个视频帧对应的对数上下文特征是通过将该视频帧的对数上下文中每个层级中的增强特征向量进行编码得到的特征。

具体地，计算机设备可以根据划分至同一个层级中的增强特征向量计算平均向量，根据每个层级对应的平均向量获得当前帧对应的上下文特征，从而就可以获得样本视频中各个视频帧对应的上下文特征。对数上下文特征序列与增强特征序列之间的相似度，包括样本视频中各视频帧对应的对数上下文特征与增强特征向量之间的相似度，这样基于每个视频帧的帧特征与上下文之间的相似度进行分类，就可以获得各视频帧对应的边界分类结果，得到的边界分类结果可以用B＝[b₁，b₂，b₃，...，b_T]∈R^3×T，边界分类结果中第t个边界分类向量b_t为预测的第t帧属于开始帧、中间帧、结尾帧的概率。

例如，在第t帧时，按照对数上下文构造方式，根据输入超参数，获得该帧的对数上下文，对每个对数上下文层级，计算落入该层级的增强特征向量的平均值，获得对数上下文中共2N个层级的平均向量

n的取值范围包括-N，…，-1，1，…,N，这2N个平均向量构成的序列作为第t帧的上下文特征，通过获得第t帧的增强特征向量z_t分别与2N个平均向量

构成的上下文特征之间的相似度，就可以对第t帧的边界类别进行分类，得到第t帧对应的边界分类结果。参照图4，计算机设备可以根据前向第1帧和第2帧计算前向第1个层级中增强特征向量的平均向量，根据前向第3帧至第4帧计算前向第2个层级中增强特征向量的平均向量，以此类推。

步骤208，根据增强特征序列，预测各视频帧对应的动作分类结果。

具体地，在获得样本视频中各视频帧对应的增强特征向量后，计算机设备基于每个视频帧对应的增强特征向量对每个视频帧进行动作分类，得到各视频帧对应的动作分类结果。计算机设备可以将动作分类的线性分类器应用于每个视频帧对应的增强特征向量，以进行逐帧的动作分类，得到的动作分类结

其中C为动作类别的数量，动作分类结果中第t个动作分类向量y_t为在预测的第t帧属于各个动作类别的概率。

步骤210，基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型。

在训练模型的过程中，动作分类任务与边界分类任务是联合训练的，这样才能通过训练过程使得动作分割模型学习到边界附近不同类别的视频帧更具鉴别性的特征，以提高边界周围帧的动作分类精度，进而提高动作分割任务的性能。计算机设备通过动作分割模型按照前述步骤对样本视频进行处理获得样本视频中各视频帧对应的边界分类结果、动作分类结果后，基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练，直至满足训练停止条件时，获得训练好的动作分割模型。

在一个实施例中，计算机设备在获取样本视频的动作类别标签时，还可以获取人工标注的样本视频的边界类别标签。

在一个实施例中，计算机设备可以根据各视频帧的动作类别标签确定相应的边界类别标签，而非直接获取样本视频的边界类别标签。具体地，如果某个视频帧与其后续帧相似，但不同于先前帧，则可能是新动作的开始帧，如果与后续帧不同但与先前帧相似，则应为结束帧，如果它在两个方向上都与相邻帧相似，则可能位于动作中间，是中间帧，因此，计算机设备根据样本视频对应的动作类别标签，获得当前帧与前后帧之间的类别标签是否相同，就可以确定当前帧对应的边界类别标签。

例如，边界类别为开始帧定义为1，中间定义为2，结束帧定义为3，假设样本视频包括9个视频帧，动作类别一共分为4类，动作类别标签为[4 4 3 3 3 1 1 2 2]。其中，第1帧显然是开始帧，边界类别标签为1。第1帧的动作类别是4，第2帧的动作类别是4，第2帧与前一帧即第1帧的动作类别相同，但与后一帧即第3帧的动类别不同，因此第2帧是结束帧，边界类别标签为3。第3帧的动作类别是3，与前一阵即第2帧的动作类别不同，与后一帧即第4帧的动作类别相同，因此第3帧是开始帧，边界类别标签为1。第4帧的动作类别是3，其与前后帧的动作类别都相同，因此第4帧是中间帧，边界类别标签2。以此类推，从样本视频中各视频帧对应的动作类别标签构成的序列就可以得到相应的边界类别标签序列，即[1 3 1 23 1 3 1 3]。

在一个实施例中，计算机设备在根据各视频帧的动作类别标签确定相应的边界类别标签之后，可以根据边界分类结果与边界类别标签、动作分类结果与动作类别标签构建总损失函数，根据总损失函数更新模型参数后继续训练，直至获得训练好的动作分割模型。

在一个实施例中，计算机设备可以根据动作分类结果与动作类别标签构建第一交叉熵损失，根据边界分类结果与边界类别标签构建第二交叉熵损失，利用第一交叉熵损失与第二交叉熵损失构建总损失函数后同时训练以更新这两个网络的模型参数。

上述动作分割模型的处理方法中，在训练动作分割模型时，通过预测样本视频中每一视频帧的边界类别，以辅助视频帧的动作分类，将帧级边界预测和帧级动作分类一起进行训练，使得动作分割模型能够学习到视频帧在边界处更具鉴别性的特征，提高对动作边界附近视频帧进行动作分类的准确度。

此外，在预测视频帧的边界类别时，由于边界类别与具体的动作类别无关，难以直接基于视频帧的增强特征预测该视频帧是否为边界帧，而是利用每个视频帧与其相邻连续帧之间的相似性进行预测，具体地，将增强特征序列中处于对数上下文内的增强特征向量划分至多个对数上下文层级，根据划分至各个层级的增强特征向量获得样本视频对应的对数上下文特征序列，这样可以捕获每个视频帧在对数空间的上下文信息，根据每个视频帧的增强特征向量与其对数上下文特征之间的相似度进行边界分类，可以大大提升边界分类的准确性；并且，采用对数空间的上下文信息，可以在极大地增大每个视频帧的上下文信息感受野范围的同时，不增加计算每个视频帧与其附近视频帧之间的相似度的计算量，克服上下文范围和相似度计算量难以均衡的问题。

在一个实施例中，为了挖掘视频中各视频帧在时序关系上的特征，计算机设备可以采用多阶段时序卷积神经网络对特征向量序列进行增强处理。

具体地，步骤204，对样本视频的特征向量序列进行特征增强处理，得到增强特征序列，包括：在多阶段特征增强网络中，对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列；其中，前一动作分类结果是对前一阶段对应的前一增强特征序列进行动作分类获得的，首个增强特征序列是根据样本视频的特征向量序列生成的。

其中，多阶段特征增强网络包括多个阶段的特征增强子网络，多个阶段的特征增强子网络级联构成多阶段特征增强网络。计算机设备将特征向量序列输入多阶段特征增强网络，依次通过各阶段的子网络对帧特征进行增强处理，首个子网络根据样本视频的特征向量序列生成首个增强特征序列后，根据首个增强特帧序列生成首个动作分类结果，第二个子网络根据首个动作分类结果进行特征增强处理，以此类推，当前阶段的子网络对前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列，前一动作分类结果是对前一阶段对应的前一增强特征序列进行动作分类获得的，这样迭代多次，获得末尾阶段的子网络输出的增强特征序列。

具体地，计算机设备将特征向量序列X＝[x₁,x₂,x₃,...,x_T]∈R^d×T输入多阶段特征增强网络中进行特征增强，得到各阶段对应的增强特征序列

其中S为多阶段特征增强网络中的阶段数量，也就是子网络的数量。首个阶段对应的子网络，将特征向量序列X＝[x₁,x₂,x₃,...,x_T]∈R^d×T作为输入，并输出首个增强特征序列

Z⁰和X具有相同的长度，计算机设备根据首个阶段输出的增强特征序列Z⁰进行动作类别的预测得到前一动作分类结果：

其中C是动作类别的数量。类似地，第s个阶段会根据上一个阶段的动作分类结果

生成增强特征序列

每个阶段输出的增强特征序列Z^s都会用于当前阶段的动作分类与边界分类，得到动作分类结果

与边界分类结果

在多阶段特征增强网络中，每个阶段的子网络的网络结构是相同的。每个子网络包含多个双重空洞卷积层，其中每个层具有两个具有不同膨胀因子的空洞时序卷积，对于其中一个空洞卷积，膨胀因子从一个较小的值开始，并随层数的增加呈指数增加，对于其中另一个空洞卷积，膨胀因子从一个较大的值开始，并随层数的增加呈指数下降，这样，高层和低层都具有大的局部时序感受野，就可以在每个阶段的最后一层的捕获视频帧之间的长期依赖性和多尺度时间信息。

在本实施例中，利用多阶段特征增强网络中的各个子网络依次对输入的特征向量序列进行特征增强处理，可以挖掘出样本视频中各视频帧在先后时序上的关联，获得更准确的视频特征表示。

进一步地，多阶段特征增强网络每个阶段输出的增强特征序列都会用于边界分类。如图5所示，为一个实施例中在每个阶段进行边界预测的流程示意图。参照图5，步骤206，将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果，具体包括：

步骤502，将当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级。

具体地，计算机按照前文描述的特殊层级结构及超参数，根据当前阶段对应的增强特征序列确定每个视频帧对应的对数上下文范围，并将每个视频帧的对数上下文范围划分至多个对数上下文层级。

步骤504，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列。

其中，样本视频对应的对数上下文特征序列包括每个视频帧对应的上下文特征，每个视频帧对应的上下文特征包括2N个层级对应的平均向量，每个层级中的平均向量是根据划入该层级中的增强特征向量进行平均池化得到的。

步骤506，根据对数上下文特征序列与当前阶段对应的增强特征序列间的相似度，预测各视频帧在当前阶段对应的边界分类结果。

其中，当前阶段对应的增强特征序列，包括每个视频帧对应的增强特征向量。对于当前帧，计算机设备从对数上下文特征序列中获取当前帧对应的上下文特征，即包括2N个层级对应的平均向量，从增强特征序列中获取当前帧对应的增强特征向量，根据分别计算每个平均向量与当前帧的增强特征向量之间的相似度，从而获得当前帧的相似度序列，基于该相似度序列预测当前帧对应的边界分类结果，按照这样，计算机设备就可以获得样本视频中每个视频帧对应的边界分类结果。

在一个实施例中，步骤502，将当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，包括：对于样本视频中的每个视频帧，根据与邻近帧的相对方向和距离，将当前阶段对应的增强特征序列中处于对数上下文内的各增强特征向量划分至多个对数上下文层级；步骤504，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，包括：对于每个对数上下文层级，计算划分至同一层级的增强特征向量的平均向量，将每个对数上下文层级的平均向量所构成的序列，作为各视频帧在当前阶段对应的对数上下文特征序列。

具体地，第s个阶段生成的增强特征序列为

在第s个阶段，对于第t帧，按照前文描述的对数上下文构造方式，根据Z^s获得该帧的对数上下文，一共有2d₁f^N-1个视频帧，将它们划分至2N个对数上下文层级，对每个对数上下文层级，计算落入该层级的增强特征向量的平均值，获得对数上下文中共2N个层级的平均向量

n的取值范围包括-N，…，-1，，1，…，N，这2N个平均向量构成的序列作为第t帧在第s个阶段对应的上下文特征，通过分别获得第t帧在第s个阶段对应的增强特征向量z_t与第s个阶段对应的上下文特征中每个平均向量之间的相似度，就可以获得第t帧对应的相似度序列，从而对第t帧的边界类别进行分类，得到第t帧在第s个阶段对应的边界分类结果。

在本实施例中，在对数上下文划分至多个对数上下文层级后，由于只需要对每个对数上下文层级只计算一次相似度，而非对每个层级中的每个视频帧都计算一次相似度，即，随着上下文范围的指数增加，相似度的计算量只是线性增加，就可以在极大地增大每个视频帧的上下文信息感受野范围的同时，不增加计算每个视频帧与其附近视频帧之间的相似度的计算量，克服上下文范围和相似度计算量难以均衡的问题。

如图6所示，为一个实施例中基于对数上下文相似度进行边界预测的流程示意图。参照图6，步骤506，根据对数上下文特征序列与当前阶段对应的增强特征序列间的相似度，预测各视频帧在当前阶段对应的边界分类结果，具体包括：

步骤602，确定对数上下文特征序列与当前阶段对应的增强特征序列之间的相似度。

具体地，计算机设备可以分别将每个层级中的增强特征向量通过平均池化编码成一个键(Key)，通过平均池化可以降低噪声帧或异常帧的影响，并使用当前帧在当前阶段对应的增强特征向量作为查询(Query)，计算查询与每个键之间的相似度。

在一个实施例中，步骤602，确定对数上下文特征序列与当前阶段对应的增强特征序列之间的相似度，包括：对当前阶段对应的增强特征序列进行线性变换，获得特征变换序列；对对数上下文特征序列进行线性变换，获得上下文变换特征序列；通过点乘操作，获得特征变换序列中每个特征变换向量与上下文变换特征序列中相应上下文特征变换向量之间的相似度。

在本实施例中，为了更好地学习到邻近帧对当前帧的重要性，计算机设备对每个视频帧在当前阶段对应的增强特征向量进行线性变换，获得对应的特征变换向量，将变换后得到特征变换向量作为每个视频帧的查询，所有视频帧对应的特征变换向量构成特征变换序列。同样地，计算机设备对每个视频帧在当前阶段对应的2N个上下文特征进行线性变换，获得2N个变换后的上下文变换特征，将变换后的上下文变换特征作为键，所有视频帧对应的上下文变换特征构成上下文变换特征序列。

例如，计算机设备对当前帧在当前阶段对应的z_t施加一个线性变换：

其中W_q为投影矩阵，

为特征变换向量，作为查询。同时，计算机设备分别对2N个上下文特征

n＝-N，…，-1，1，…，N施加另一个线性变换：

其中W_k为投影矩阵，

为第n个上下文变换特征，将所有上下文特征

作为键。W_q和W_k均是模型训练需要学习的模型参数。计算机设备可以通过点乘操作分别计算查询和每个键之间的相似度，从而获得当前帧与每个对数上下文层级中视频帧之间的相似度。

步骤604，根据相似度获得各视频帧对应的对数上下文注意力分数。

在预测当前帧是否为边界帧时，对数上下文中距离当前帧越近的视频帧对预测结果的影响越大，距离当前帧越远的视频帧对预测结果的影响相对较小，通过本申请实施例将对数上下文划分为不同的层级，每个对数上下文层级中，距离当前帧越近的层级中包含的视频帧越少，距离当前帧越远的层级中包含的视频帧越多，由于相似度是根据层级中多个增强特征向量的平均向量计算得到的，层级中视频帧数量越多，该层级中视频帧的重要性就相对越弱，通过这种特殊的层级结构，从而将较大的重要性分配给距离较近的视频帧而将较小的重要性分配给距离较远的视频帧。

例如，如果当前帧的前向第1层级中包括1个视频帧，计算机设备就会直接根据该帧的增强特征向量与当前帧的增强特征向量计算相似度，重要度为1；如果当前帧的前向最远的层级包括8个帧，计算机设备需要先根据这8个视频帧的增强特征向量计算平均向量，再利用该平均向量与当前帧的增强特征向量计算相似度，那么该层级中每个视频帧的相对重要度为1/8。

计算机设备在获得每个视频帧在当前阶段对应的增强特征向量与每个平均向量之间的相似度，对每个视频帧对应的2N个相似度施加归一化操作，获得2N个上下文层级中每个邻近帧在当前阶段对当前帧的对数上下文注意力分数。

例如，根据增强特征向量z_t获得特征变换向量

根据上下文特征

获得上下文变换特征

后，通过点乘操作分别计算

和每个

之间的相似度后，对所有的相似度施加归一化操作，得到当前帧在每个对数上下文层级对应的注意力分数a_t，是一个长度为2N的向量。

步骤606，通过线性分类器，根据对数上下文注意力分数预测各视频帧在当前阶段对应的边界分类结果。

具体地，计算机设备用一个权重为W_a∈R^3×d′的线性分类器将第t帧的上下文注意力分数a_t分为三类，输出第t帧分别对应三种边界类别的分数b_t＝W_aa_t，b_t是维度为3的向量，表示第t帧为一个动作的起始帧、中间帧和结束帧的概率。

如图7所示，为一个实施例中基于对数上下文进行边界分类的示意图。参照图7，用于确定对数上下文的超参数d1取值2，f取值2，N取值3，增强特征序列Z中当前帧的对数上下文被划分为6个层级，分别为前向层级1、前向层级2和前向层级3、后向层级1、后向层级2和后向层级3，当前帧对应的增强特征向量为Wq，根据划入6个对数上下文层级中的增强特征向量分别进行平均池化，得到每个层级中的平均向量Wk，对当前帧的增强特征向量Wq进行线性投影得到变换后的特征，对这6个平均向量进行线性投影得到变换后的特征，再通过点乘操作分别计算当前帧变换后的特征与这6个变换后的特征之间的相似度，最后对这6个相似度进行归一化操作后利用边界分类器进行预测，获得当前帧分别对应开始帧、中间帧和结束帧的概率。

进一步地，多阶段特征增强网络每个阶段输出的增强特征序列都会用于动作分类。步骤208，根据增强特征序列，预测各视频帧对应的动作分类结果，具体包括：基于当前阶段对应的增强特征序列，预测各视频帧在当前阶段对应的动作分类结果。

计算机设备在生成在第s个阶段对应的增强特征序列

后，每个阶段输出的增强特征序列Z^s都会用于当前阶段的动作分类，得到动作分类结果

在一个实施例中，基于当前阶段对应的增强特征序列，预测各视频帧在当前阶段对应的动作分类结果，包括：通过线性分类器对当前阶段对应的增强特征序列中各视频帧对应的增强特征向量进行动作分类，获得各视频帧在当前阶段对应的动作分类结果。

计算机设备可以使用线性分类器对各阶段增强特征序列中的每一增强特征向量进行动作分类，得到动作分类结果

其中C为动作的类别数，S为总的阶段数，

为在第s个阶段预测的第t帧属于各个动作类别的概率。

在本实施例中，由于训练过程中边界分类与边界分类是一起进行训练的，使得多阶段特征增强网络输出的增强特征序列能够学习到视频帧在边界处更具鉴别性的特征，从而提高了基于该增强特征序列进行动作分类的准确度。

如图8所示，在一个实施例中，动作分割模型包括用于对样本视频进行特征提取的特征提取网络、用于对样本视频的特征向量序列进行特征增强处理，得到增强特征序列的多阶段特征增强网络、用于将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果的边界分类网络以及用于根据增强特征序列，预测各视频帧对应的动作分类结果的动作分类网络。

在一个实施例中，多阶段特征增强网络包括一个特征生成子网络和多个特征细化子网络。计算机设备依次通过特征生成子网络和多个特征细化子网络对样本视频的特征向量序列进行特征增强处理。

在一个实施例中，对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列，包括：将特征向量序列输入多阶段特征增强网络；在特征生成子网络中，对特征向量序列进行特征增强处理，获得样本视频在特征生成阶段对应的增强特征序列；基于当前阶段对应的增强特征序列，预测各视频帧在当前阶段对应的动作分类结果，包括：根据特征生成阶段对应的增强特征序列进行动作分类，获得样本视频在特征生成阶段对应的动作分类结果。

其中，阶段特征增强网络包括一个特征生成子网络和多个特征细化子网络，例如S个特征细化子网络，特征生成子网络生成特征生成阶段对应的增强特征序列，而每个特征细化子网络都会细化上一个阶段生成的增强特征序列。

例如，在特征生成阶段，将样本视频的特征向量序列X＝[x₁，x₂，x₃，...，x_T]∈R^d×T作为特征生成子网络的输入，并通过特征生成子网络输出增强后的序列

Z⁰与X具有相同的长度，Z⁰中第t帧对应的z_t通过融合长时依赖性增强了X中的x_t，特征生成子网络输出的增强特征序列

将用于动作分类，得到初始的动作分类结果，也就是在特征生成阶段对应的动作分类结果

进一步地，在生成特征生成阶段对应的动作分类结果之后，将特征生成阶段对应的动作分类结果作为输入，输入到特征细化阶段的特征细化子网络中，继续进行特征增强处理。

具体地，上述方法还包括：在首个特征细化子网络中，对特征生成阶段对应的动作分类结果进行特征增强处理，获得样本视频在首个特征细化阶段对应的增强特征序列后，迭代地根据前一特征细化阶段对应的动作分类结果获得样本视频在当前特征细化阶段对应的增强特征序列，直至获得在末尾特征细化阶段对应的增强特征序列时停止迭代；根据当前特征细化阶段对应的增强特征序列进行动作分类，获得样本视频在当前特征细化阶段对应的动作分类结果。

例如，首个特征细化子网络，将特征生成阶段对应的动作分类结果

作为输入，输出在首个特征细化阶段对应的增强特征序列

类似地，第s(s＝1,2,…，S)个特征细化阶段会根据上一个特征细化阶段的动作分类结果

生成增强特征序列

每个特征细化阶段输出的增强特征序列Z^s都会用于当前特征细化阶段的动作分类与边界分类，得到动作分类结果

与边界分类结果

每个特征细化阶段输出增强特征序列采用同一个分类网络进行动作分类，采用同一个边界分类网络进行边界分类。

在一个实施例中，根据边界分类结果与边界类别标签、动作分类结果与动作类别标签构建总损失函数，包括：

基于各阶段对应的边界分类结果与边界类别标签构建所有阶段的边界分类损失函数；基于各阶段对应的动作分类结果与动作类别标签构建所有阶段的动作分类损失函数；将所有阶段的边界分类损失函数与所有阶段的动作分类损失函数求和，获得总损失函数。

具体地，每个特征细化阶段都会输出样本视频中每个视频帧对应的动作分类结果与边界分类结果，为了提高模型的泛化性，对每个特征细化阶段进行约束，计算机设备可以统计所有阶段的分类损失与边界损失，使得每个阶段的输出也更具鉴别性。

计算机设备可以采用交叉熵损失作为分类损失，同时采用截断均方误差(TMSE，Truncated Mean Squared Error)损失用来减少过切分错误。

例如，样本视频在第s个阶段对应的交叉熵损失为：

其中，样本视频一共有T个视频帧，t是样本视频中第t个视频帧x_t，c_t是x_t对应的动作类别标签，

是

的第c_t个元素，

表示模型预测的x_t属于第c_t个类别的概率。

样本视频在第s个阶段对应的截断均方误差损失为：

其中，

表示预测的x_t在第s个阶段属于第c类的概率，一共有C个动作类别，

表示预测的上一帧x_t-1在第s个阶段属于第c类的概率，θ是预设的阈值。

计算机设备对所有阶段所有视频帧的分类损失与截断均方误差损失求和，构建所有阶段的动作分类损失函数：

其中，λ为预设的值。

计算机设备在构建边界分类损失时，需要先根据样本视频的动作类别标签c＝[c₁，c₂，c₃，...，c_T]获得对应的边界类别标签e＝[e₁，e₂，e₃，...，e_T]，其中e_t∈{0,1,2}，分别代表对应开始帧、中间帧和结束帧。

对于第s个阶段，所有帧的边界分类损失为：

其中，e_t是x_t对应的边界类别标签，

表示预测的x_t在第s个阶段对应的边界分类结果，是一个3维向量，表示第t帧为一个动作的起始帧、中间帧和结束帧的概率。

计算机设备对所有阶段所有视频帧的边界分类损失求和，构建所有阶段的边界分类损失函数：

最后，将所有阶段的边界分类损失函数与所有阶段的动作分类损失函数求和，获得总损失函数：

L＝L_cls+βL_bp。

如图9所示，为一个实施例中动作分割模型的整体框架示意图，参照图9，在训练阶段，动作分割模型的输入为样本视频对应的特征向量序列X，输出为样本视频中各视频对应的动作分类结果Y和边界分类结果B。将样本视频对应的特征向量序列X输入多阶段特征增强网络的特征生成子网络，经过特征生成子网络对特征向量序列X进行特征增强处理，获得样本视频在特征生成阶段对应的增强特征序列Z0，将Z0输入动作分类网络，获得样本视频中各视频帧在特征生成阶段对应的动作分类结果Y0，将Z0输入基于对数上下文注意力的边界分类网络，获得样本视频中各视频帧在特征生成阶段对应的边界分类结果B0，然后将动作分类结果Y0输入第1个特征细化子网络，输出第一个特征细化阶段对应的增强特征序列Z1，将Z1输入动作分类网络，获得样本视频中各视频帧在第1个特征细化阶段对应的动作分类结果Y1，将Z0输入边界分类网络，获得样本视频中各视频帧在第1个特征细化阶段对应的边界分类结果B1，以此类推，直至获得在末尾特征细化阶段对应的增强特征序列时停止迭代，最后根据末尾特征细化阶段对应的增强特征序列进行动作分类与边界分类，获得样本视频中各视频帧最终的动作分类结果与边界分类结果。计算机设备根据所有阶段输出的每个视频帧的动作分类结果构建动作分类损失，根据所有阶段输出的每个视频帧的边界分类结果构建边界分类损失。

对于通过测试集验证的动作分割模型，计算机设备可以采用该动作分割模型中的动作分类网络识别长视频中各视频帧的动作类别。

在一个实施例中，述方法还包括：将待处理视频输入训练好的动作分割模型；通过动作分割模型中的特征提取网络，获得待处理视频对应的特征向量序列，通过动作分割模型中的多阶段特征增强网络，对样本视频的特征向量序列进行特征增强处理，得到在末尾阶段对应的增强特征序列，通过动作分割模型中的动作分类网络，根据末尾阶段对应的增强特征序列进行预测，获得待处理视频中各视频帧对应的动作类别。

在本实施例中，训练好动作分割模型之后，在不需要边界分类的场景中，计算机设备可以只采用特征提取网络、多阶段特征增强网络和动作分类网络对输入的待处理视频进行动作分割，获得每个视频帧对应的动作类别。

在一个实施例中，方法还包括：通过动作分割模型中的边界分类网络，根据末尾阶段对应的增强特征序列进行预测，获得待处理视频中各视频帧对应的边界类别。

在本实施例中，在另一些场景中，计算机设备也可以采用边界分类网络预测待处理视频中各视频帧对应的边界类别。

在一个实施例中，方法还包括：获取待处理视频中各视频帧对应的动作类别；根据对应相同动作类别的视频帧，将待处理视频分割为多个视频片段。

如图10所示，为一个具体的实施例中动作分割模型的处理方法的流程示意图，参照图10，包括以下步骤：

步骤1002，获取样本视频及样本视频中视频帧的动作类别标签。

步骤1004，将样本视频及动作类别标签输入动作分割模型进行训练。

步骤1006，在动作分割模型的特征提取网络中，对样本视频的各视频帧提取特征向量。

步骤1008，根据视频帧的特征向量，获得样本视频对应的特征向量序列。

步骤1010，将特征向量序列输入动作分割模型的多阶段特征增强网络。

步骤1012，在多阶段特征增强网络的特征生成子网络中，对特征向量序列进行特征增强，获得在特征生成阶段对应的增强特征序列。

步骤1014，在动作分割模型的动作分类网络中，根据特征生成阶段对应的增强特征序列进行动作分类，获得样本视频在特征生成阶段对应的动作分类结果。

步骤1016，在动作分割模型的边界分类网络中，根据与当前帧的方向和距离，将增强特征序列中处于当前帧对数上下文内的增强特征向量划分至多个对数上下文层级；对于每个对数上下文层级，计算划分至同一层级的增强特征向量的平均向量，获得当前帧在特征生成阶段对应的对数上下文特征；计算特征向量序列中当前帧的特征向量与每个对数上下文特征之间的相似度，根据相似度获得当前帧对应的对数上下文注意力分数，根据对数上下文注意力分数预测当前帧在特征生成阶段对应的边界分类结果。

步骤1018，在多阶段特征增强网络的首个特征细化子网络中，根据特征生成阶段对应的动作分类结果进行特征增强，获得首个特征细化阶段对应的增强特征序列。

步骤1020，在动作分割模型的动作分类网络中，根据首个特征细化阶段对应的增强特征序列进行动作分类，获得样本视频在首个特征细化阶段对应的动作分类结果。

步骤1022，在动作分割模型的边界分类网络中，根据与当前帧的方向和距离，将首个特征细化阶段对应的增强特征序列中处于当前帧对数上下文内的增强特征向量划分至多个对数上下文层级；对于每个对数上下文层级，计算划分至同一层级的增强特征向量的平均向量，获得当前帧在首个特征细化阶段对应的对数上下文特征；计算增强特征序列中当前帧的增强特征向量与每个对数上下文特征之间的相似度，根据相似度获得当前帧对应的对数上下文注意力分数，根据对数上下文注意力分数预测当前帧在首个特征细化阶段对应的边界分类结果。

步骤1024，迭代地根据前一特征细化阶段对应的动作分类结果获得样本视频在当前特征细化阶段对应的增强特征序列，直至获得在末尾特征细化阶段对应的增强特征序列时停止迭代。

步骤1026，根据各视频帧的动作类别标签确定相应的边界类别标签。

步骤1028，基于各阶段对应的边界分类结果与边界类别标签构建所有阶段的边界分类损失函数。

步骤1030，基于各阶段对应的动作分类结果与动作类别标签构建所有阶段的动作分类损失函数。

步骤1032，将所有阶段的边界分类损失函数与所有阶段的动作分类损失函数求和，获得总损失函数。

步骤1034，根据总损失函数更新模型参数后继续训练，直至获得训练好的动作分割模型。

步骤1036，将待处理视频输入训练好的动作分割模型。

步骤1038，通过训练好的动作分割模型获得待处理视频中各视频帧对应的动作类别。

步骤1040，根据对应相同动作类别的视频帧，将待处理视频分割为多个视频片段。

上述动作分割模型的处理方法，基于相似度的边界分类器根据连续帧之间的相似度分数预测边界类型，迫使模型学习更有鉴别性的特征，以提高边界周围帧的动作分类精度，进而提高动作分割任务的性能。通过设置特殊的对数上下文注意力，将对数上下文中每个帧的相邻帧分为不同级别，以捕获结构化的上下文信息，并在不增加相似度计算量的情况下极大地增加局部时序感受野范围。在基准数据集上的大量实验表明，基于局部对数上下文注意力的动作分割方法与其它动作分割方法相比具有可比或更好的性能，表明了该方法在视频动作分割任务中的有效性和前景。

在一个实施例中，如图11所示，提供了一种视频处理方法，以该方法应用于图1中的计算机设备(图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤1102，获取待处理视频。

步骤1104，将待处理视频输入训练好的动作分割模型。

步骤1106，通过动作分割模型，获得待处理视频对应的特征向量序列，对待处理视频的特征向量序列进行特征增强处理，得到增强特征序列，根据增强特征序列进行预测，获得待处理视频中各视频帧对应的动作类别。

其中，动作分割模型是根据样本视频及样本视频中各视频帧的动作类别标签、边界分类结果和动作分类结果进行模型训练得到的；边界分类结果是将样本视频的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与样本视频的增强特征序列之间的相似度进行预测得到的；动作分类结果是基于样本视频的增强特征序列进行预测得到的；样本视频的增强特征序列是对样本视频的特征向量序列进行特征增强处理得到的。

关于上述视频处理方法中动作分割模型的训练步骤，可以通过上述动作分割模型的处理方法所提供的实施例，在此不再赘述。

应该理解的是，虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，述实施例中的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

关于本申请提供的动作分割模型的性能，在三个数据集上评估了本申请实施例动作分割模型的性能：50Salads数据集、GTEA数据集和Breakfast数据集。50Salads数据集包含具有17个动作类的50个顶视图视频，每个视频平均持续约6.4分钟，包含约20个动作实例，进行五次交叉验证后报告了平均效果。GTEA数据集包含28个以第一视角视频，具有11个动作类，包括7个背景类，每个视频平均大约有20个动作实例，进行四次交叉验证后报告了平均性能。Breakfast数据集包含1712个具有48个动作类别的第三人称视角视频，每个视频平均包含大约6个动作实例,执行四重交叉验证后报告平均性能。

在所有数据集上，将每个视频表示为一系列视觉特征。使用I3D帧特征作为输入，所有视频数据集的时间视频分辨率均固定为15fps，使用重叠阈值10％，25％，50％(F1@{10,25,50})上的分段F1得分，预测分割路径和真实分割路径之间的测量分段编辑距离(Edit)，以及逐帧准确率(Acc)作为评估指标。

对于多阶段特征增强网络，所有超参数(例如阶段数、层数、每层滤波器数、每层膨胀因子、随机种子等)均保持不变，所有细化阶段共享参数。使用Adam优化器，学习率设置为0.0005。根据当前帧与周围帧之间的相似性来预测当前帧是在动作的开始、中间还是结束，在这个过程中，可以使用有线性投影的帧特征之间的点积计算相似度，还可以使用没有线性投影的帧特征之间的点积作为它们的相似度，并直接将相似度作为输入来预测边界。

表1显示了在50salads数据集上本申请实施例的方法和不使用线性投影和/或不使用soft-max的简化模型的比较结果。超参数β、d1、f和N分别固定为0.15、1、2和3。线性投影和归一化均可提高性能。

表一线性投影和归一化非线性激活的影响

边界预测损失的权重由超参数β控制。表2比较了使用不同β值训练模型得到的结果。β＝0.25或0.35通常可获得最佳结果。

表2边界预测损失权重的影响

边界分类时对数上下文的设置包括三个超参数：最内层的帧数d1、增长率f和层级数N。通过将d1、f、N分别从1更改为3，以不同的超参数训练模型。结果比较显示在表3中。这些超参数控制上下文感受野的大小和粒度，较大的d1、较大的f和较大的N通过包含更多相邻帧来增加局部感受野，但是当层级数N固定时，因为每个级别包含更多帧，并且这些帧的信息被平均，所以级别更粗糙。当d1和f太大时，位于动作中间的某些帧可能会被错误地预测为边界候选对象，因为动作的边界可能包含在其内层层级中。当N太大时，最外层层级的帧数将非常大，并且平均后有效上下文信息可能会被淹没。当整个局部感受野的大小固定时，增加层级数有助于捕获局部上下文的更详细和更精细的配置。从表3中可以看到，设置d1＝1或2，f＝2，N＝3通常可以获得更好的结果。在所有数据集上，我们分别将d1、f、N固定为1、2、3。

表3超参数的影响

在表3中，当N设置为1时，正向和反向都只有一个级别，因此f没有影响，所以可以将两个方向上的d1个相邻帧作为上下文。对于每个方向，d1帧特征的平均值用作键。在所有性能指标中，3个层级且因子为2时分别优于具有d1＝1和d1＝2的退化模型。还可以在两个方向上均匀采样几个帧作为关键点，在表4中，每个方向采样3帧，采样间隔分别为1和2，当间隔为2时，上下文的感受野与d1＝1，f＝2，N＝3的对数上下文的感受野差不多，但是对数上下文的效果更好。

表4不同的上下文配置下的性能比较

预测动作边界的一种直接替代方法是将分类器直接应用于获得的增强帧特征。我们用“直接”表示这种方法。如表5中所示，本申请实施例提供的对数上下文边界分类方法在所有性能指标上均优于该方法，这验证了根据局部上下文范围之间的相似性预测动作边界的有效性。

本申请的方法区分开始和结束边界。但是，边界预测时也能只预测帧是否是边界帧，而不再细分边界类型到底是开始和结束。我们还与此方法进行了比较，该方法直接根据增强帧特征进行二进制预测，并以“直接二类”表示。本申请基于局部相似性的边界预测模块还可以在边界帧和非边界帧之间执行二类预测。我们用“二类”表示该方法。从表5中可以观察到，即使直接根据特征进行预测，区分边界类型也是有益的。本申请的方法在所有性能指标上均超过基于帧特征和基于局部相似度的二类边界预测方法，这证明了区分细粒度边界类型的优势。

表5与不同的边界预测方法的比较

表6、表7和表8分别在50Salads数据集、GTEA数据集和Breakfast数据集上比较了本申请的方法与其它最先进的动作分割方法的性能，其中MS-TCN++(sh)表示MS-TCN++的所有细化阶段共享参数。在所有数据集上，本申请的方法在性能指标上通常都优于MS-TCN++(sh)。通过根据局部对数上下文之间的相似性预测动作边界，本申请的方法对最终层的帧特征施加了额外的限制以进行正则化，这有助于学习更有鉴别性和边界敏感的帧特征。

在所有数据集上，本申请的方法都远远优于除了MS-TCN++之外的其它方法。与没有参数共享的MS-TCN++相比，本申请的方法在50Salads数据集上可获得可比的结果，而在其他两个数据集上可获得更好的结果。由于细化阶段未共享参数，因此MS-TCN++的参数总数增加了很多倍。本申请的方法的功能增强主干也可以使用MS-TCN++，通过不共享参数来实现进一步的性能提升。

表6在50Salads数据集上和其它动作分割方法的比较

表7在GTEA数据集上和其它动作分割方法的比较

表8在Breakfast数据集上和其它动作分割方法的比较

在一个实施例中，如图12所示，提供了一种动作分割模型的处理装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1202、特征增强模块1204、边界分类模块1206、动作分类模块1208和参数更新模块1210，其中：

获取模块1202，用于获取样本视频及样本视频中视频帧的动作类别标签；

特征增强模块1204，用于对样本视频的特征向量序列进行特征增强处理，得到增强特征序列；

边界分类模块1206，用于将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果；

动作分类模块1208，用于根据增强特征序列，预测各视频帧对应的动作分类结果；

参数更新模块1210，用于基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型。

在一个实施例中，动作分割模型的处理装置1200还包括特征提取模块，用于在特征提取网络中，对构成样本视频的各视频帧提取特征向量；根据视频帧的特征向量，获得样本视频对应的特征向量序列。

在一个实施例中，特征增强模块1204用于在多阶段特征增强网络中，对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列；其中，前一动作分类结果是对前一阶段对应的前一增强特征序列进行动作分类获得的，首个增强特征序列是根据样本视频的特征向量序列生成的。

在一个实施例中，边界分类模块1206用于将当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，根据对数上下文特征序列与当前阶段对应的增强特征序列间的相似度，预测各视频帧在当前阶段对应的边界分类结果；动作分类模块1208用于基于当前阶段对应的增强特征序列，预测各视频帧在当前阶段对应的动作分类结果。

在一个实施例中，特征增强模块1204用于将特征向量序列输入多阶段特征增强网络，多阶段特征增强网络包括一个特征生成子网络和多个特征细化子网络；在特征生成子网络中，对特征向量序列进行特征增强处理，获得样本视频在特征生成阶段对应的增强特征序列；动作分类模块1208用于根据特征生成阶段对应的增强特征序列进行动作分类，获得样本视频在特征生成阶段对应的动作分类结果。

在一个实施例中，特征增强模块1204用于在首个特征细化子网络中，对特征生成阶段对应的动作分类结果进行特征增强处理，获得样本视频在首个特征细化阶段对应的增强特征序列后，迭代地根据前一特征细化阶段对应的动作分类结果获得样本视频在当前特征细化阶段对应的增强特征序列，直至获得在末尾特征细化阶段对应的增强特征序列时停止迭代；动作分类模块1208用于根据当前特征细化阶段对应的增强特征序列进行动作分类，获得样本视频在当前特征细化阶段对应的动作分类结果。

在一个实施例中，动作分类模块1208用于通过线性分类器对当前阶段对应的增强特征序列中各视频帧对应的增强特征向量进行动作分类，获得各视频帧在当前阶段对应的动作分类结果。

在一个实施例中，边界分类模块1206用于对于样本视频中的每个视频帧，根据与邻近帧的相对方向和距离，将当前阶段对应的增强特征序列中处于对数上下文内的各增强特征向量划分至多个对数上下文层级；对于每个对数上下文层级，计算划分至同一层级的增强特征向量的平均向量，将每个对数上下文层级的平均向量所构成的序列，作为各视频帧在当前阶段对应的对数上下文特征序列。

在一个实施例中，边界分类模块1206用于确定对数上下文特征序列与当前阶段对应的增强特征序列之间的相似度；根据相似度获得各视频帧对应的对数上下文注意力分数；通过线性分类器，根据对数上下文注意力分数预测各视频帧在当前阶段对应的边界分类结果。

在一个实施例中，边界分类模块1206用于对当前阶段对应的增强特征序列进行线性变换，获得特征变换序列；对对数上下文特征序列进行线性变换，获得上下文变换特征序列；通过点乘操作，获得特征变换序列中每个特征变换向量与上下文变换特征序列中相应上下文特征变换向量之间的相似度。

在一个实施例中，参数更新模块1210用于根据各视频帧的动作类别标签确定相应的边界类别标签；根据边界分类结果与边界类别标签、动作分类结果与动作类别标签构建总损失函数；根据总损失函数更新模型参数后继续训练，直至获得训练好的动作分割模型。

在一个实施例中，参数更新模块1210用于基于各阶段对应的边界分类结果与边界类别标签构建所有阶段的边界分类损失函数；基于各阶段对应的动作分类结果与动作类别标签构建所有阶段的动作分类损失函数；将所有阶段的边界分类损失函数与所有阶段的动作分类损失函数求和，获得总损失函数。

在一个实施例中，动作分割模型包括用于对样本视频进行特征提取的特征提取网络、用于对样本视频的特征向量序列进行特征增强处理，得到增强特征序列的多阶段特征增强网络、用于将增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列，并根据对数上下文特征序列与增强特征序列之间的相似度，预测各视频帧对应的边界分类结果的边界分类网络以及用于根据增强特征序列，预测各视频帧对应的动作分类结果的动作分类网络。

在一个实施例中，动作分割模型的处理装置1200还包括待处理视频分类模块，用于将待处理视频输入训练好的动作分割模型；通过动作分割模型中的特征提取网络，获得待处理视频对应的特征向量序列，通过动作分割模型中的多阶段特征增强网络，对样本视频的特征向量序列进行特征增强处理，得到在末尾阶段对应的增强特征序列，通过动作分割模型中的动作分类网络，根据末尾阶段对应的增强特征序列进行预测，获得待处理视频中各视频帧对应的动作类别。

在一个实施例中，动作分割模型的处理装置1200还包括视频分割模块，用于获取待处理视频中各视频帧对应的动作类别；根据对应相同动作类别的视频帧，将待处理视频分割为多个视频片段。

在一个实施例中，待处理视频分类模块，还用于通过动作分割模型中的边界分类网络，根据末尾阶段对应的增强特征序列进行预测，获得待处理视频中各视频帧对应的边界类别。

在一个实施例中，如图13所示，提供了一种视频处理装置1300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1302、输入模块1304和动作分割模块1306，其中：

获取模块1302，用于获取待处理视频；

输入模块1304，用于将待处理视频输入训练好的动作分割模型；

动作分割模块1306，用于通过动作分割模型，获得待处理视频对应的特征向量序列，对待处理视频的特征向量序列进行特征增强处理，得到增强特征序列，根据增强特征序列进行预测，获得待处理视频中各视频帧对应的动作类别；

上述动作分割模型的处理装置1200和视频处理装置1300，在训练动作分割模型时，通过预测样本视频中每一视频帧的边界类别，以辅助视频帧的动作分类，将帧级边界预测和帧级动作分类一起进行训练，使得动作分割模型能够学习到视频帧在边界处更具鉴别性的特征，提高对动作边界附近视频帧进行动作分类的准确度。

关于动作分割模型的处理装置1200的具体限定可以参见上文中对于动作分割模型的处理方法的限定，关于视频处理装置1300的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动作分割模型的处理方法和/或视频处理方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种动作分割模型的处理方法，包括：

获取样本视频及所述样本视频中视频帧的动作类别标签；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述样本视频的特征向量序列进行特征增强处理，得到增强特征序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，并根据所述对数上下文特征序列与所述增强特征序列之间的相似度，预测各所述视频帧对应的边界分类结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对前一阶段对应的前一动作分类结果进行特征增强处理，获得当前阶段对应的增强特征序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述当前阶段对应的增强特征序列，预测各所述视频帧在当前阶段对应的动作分类结果，包括：

8.根据权利要求4所述的方法，其特征在于，所述将所述当前阶段对应的增强特征序列中处于对数上下文内的增强特征向量，划分至多个对数上下文层级，根据划分至同一层级的增强特征向量获得所述样本视频对应的对数上下文特征序列，包括：

9.根据权利要求4所述的方法，其特征在于，所述根据所述对数上下文特征序列与所述当前阶段对应的增强特征序列间的相似度，预测各所述视频帧在当前阶段对应的边界分类结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述确定所述对数上下文特征序列与所述当前阶段对应的增强特征序列之间的相似度，包括：

11.根据权利要求3所述的方法，其特征在于，所述根据各所述视频帧的动作类别标签、所述边界分类结果和所述动作分类结果更新模型参数后继续训练，直至获得训练好的动作分割模型，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述边界分类结果与所述边界类别标签、所述动作分类结果与所述动作类别标签构建总损失函数，包括：

13.根据权利要求1至12任一项所述的方法，其特征在于，所述方法还包括：

将待处理视频输入训练好的所述动作分割模型；

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

获取所述待处理视频中各所述视频帧对应的动作类别；

15.一种视频处理方法，包括：

获取待处理视频；

将所述待处理视频输入训练好的动作分割模型；