CN110362715A

CN110362715A - 一种基于图卷积网络的未剪辑视频动作时序定位方法

Info

Publication number: CN110362715A
Application number: CN201910575041.6A
Authority: CN
Inventors: 王乐; 翟长波
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-22
Anticipated expiration: 2039-06-28
Also published as: CN110362715B

Abstract

本发明公开了一种基于图卷积网络的未剪辑视频动作时序定位方法，包括：获取带标注的未剪辑的视频中每个视频片段是否为动作的置信度分数；用“双阈值法”对视频片段进行合并，获得视频的动作提议；计算动作提议与真值的交叠率IoU值，将IoU值满足条件的动作提议作为图模型的节点；计算邻接矩阵定义图模型中任意两个节点之间的相似度；获得图模型中任意一个节点与其他所有节点之间的交互信息，并更新图模型中节点的特征表示，然后对动作提议进行时间边界回归和动作分类，得到动作时序定位结果。本发明的方法可以描述数据间的相关性关系，可提高动作时序定位的准确性，同时也可提高定位结果鲁棒性。

Description

一种基于图卷积网络的未剪辑视频动作时序定位方法

技术领域

本发明属于计算机视觉领域，涉及未剪辑视频动作时序定位技术领域，特别涉及一种基于图卷积网络的未剪辑视频动作时序定位方法。

背景技术

未剪辑视频动作定位技术作为视频处理的关键步骤，对视频分析处理有很大的影响，在理论和实际应用中有重要的研究价值。

目前，现有的视频动作时序定位方法普遍存在以下问题：(1)多数未剪辑视频动作时序定位方法是完全基于动作分类方法，根据视频片段的分类结果来确定动作发生的时间区间，但是视频片段定位出的动作发生区间的边界比较模糊，而且在分类过程中会出现分类错误的情况，这会导致最终的定位结果鲁棒性较差；(2)未剪辑视频(比如体育比赛视频)一般都会包含多个相同动作实例，这些动作实例之间具有相关性，利用此相关性可以实现每个动作实例之间可以达到相互促进的效果，提高动作定位的准确性，但是目前提出的未剪辑视频动作定位方法还没有利用此相关性来辅助动作定位。

综上，亟需一种新的未剪辑视频动作时序定位方法。

发明内容

本发明的目的在于提供一种基于图卷积网络的未剪辑视频动作时序定位方法，以解决上述存在的一个或多个技术问题。本发明的方法可以描述数据间的相关性关系，有效地利用视频中动作实例之间的关系，可提高动作时序定位的准确性，同时也可提高定位结果鲁棒性。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于图卷积网络的未剪辑视频动作时序定位方法，包括以下步骤：

步骤1，将带标注的未剪辑的视频分割成多个预设固定长度的视频片段，提取每一个视频片段的深度特征并进行二分类，得到每个视频片段是否为动作的置信度分数；

步骤2，根据步骤1获得的各个视频片段是否为动作的置信度分数，用“双阈值法”对视频片段进行合并；用阈值α确定动作提议的开始，用阈值β确定动作提议的结束，获得所述带标注的未剪辑的视频的动作提议；其中，β＜α；

步骤3，计算步骤2中得到的动作提议与真值的交叠率IoU值，将IoU值满足以下两个条件中任意一个条件的动作提议作为图模型的节点；其中，条件1)为IoU值大于等于预设IoU阈值；条件2)为所有动作提议中IoU值最大的动作提议；动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到，满足条件的动作提议的特征用来初始化节点的表示，用表示图模型中节点的集合；

步骤4，计算邻接矩阵定义图模型中任意两个节点之间的相似度；获得图模型中任意一个节点与其他所有节点之间的交互信息；其中，相似度包括：利用深度特征计算节点之间的相似度；

步骤5，利用步骤4获得的图模型中任意一个节点与其他所有节点之间的交互信息，更新图模型中节点的特征表示；

步骤6，利用步骤5更新之后的节点特征表示对动作提议进行时间边界回归和动作分类，得到最终的未剪辑视频动作时序定位结果。

本发明的进一步改进在于，步骤1中，提取每一个视频片段的深度特征并进行二分类的步骤具体包括：用在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类。

本发明的进一步改进在于，步骤2中，用“双阈值法”对视频片段进行合并的步骤具体包括：如果某一个视频片段的动作置信度分数大于等于α且该视频片段之前的相邻视频片段的动作置信度分数小于α，则该视频片段为动作发生的起点；从起点开始向后扩展，如果后面连续的视频片段的动作置信度分数大于β则属于同一个动作提议；直至动作置信度分数小于等于β的视频片段，该视频片段为动作提议的终点；

通过设置不同的阈值α和阈值β，得到一组动作提议

本发明的进一步改进在于，步骤3中，用表示图模型中节点的集合，表示为：

其中，N是节点的个数，i表示图模型中的第i个节点，t_s，i、t_e，i和k_i分别是该节点对应动作提议的开始时间、结束时间和动作类别，F_i是该节点的初始特征表示；

步骤4中，利用深度特征计算节点之间的相似度的步骤包括：计算图模型中任意两个节点X_i和X_j的特征向量点积值，得到相似性关系adj₁，计算公式为：

adj₁(i，j)＝F_t·F_j

式中，·表示向量点积。

本发明的进一步改进在于，相似度还包括：利用动作提议对应的时间区间计算各节点之间的相似度；

具体步骤包括：计算图模型中任意两个节点X_i和X_j对应的动作提议的时间重合度，得到一种相似性关系adj₂，表达式为：

式中，i和j分别表示图模型中的第i和第j个节点，min(·，·)表示两者中的最小值，max(·，·)表示两者中的最大值；

相似度由adj₁和adj₂加权求和得到。

本发明的进一步改进在于，相似度还包括：利用语义信息计算节点之间的相似度；

具体步骤包括：把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络，得到它们之间的语义相似性adj₃，表达式为：

式中，表示一个堆叠的全连接层网络，网络的输入是两个特征向量F_i和F_j拼接之后的特征向量，输出是这两个向量的语义相似性；

最终的相似度的表达式为：

其中，和依次为adj₁、adj₂和adj₃这三种相似性关系的权重参数。

本发明的进一步改进在于，步骤5中，更新图模型中节点的特征表示的步骤具体包括：用门控循环单元迭代更新节点的特征表示。

本发明的进一步改进在于，步骤5中，在节点特征更新之前，收集该节点和其他所有节点之间的交互信息；收集交互信息的过程公式化表示为：

式中，m_i是该节点和其他所有节点的交互信息。

本发明的进一步改进在于，步骤5中，用门控循环单元迭代更新节点的特征表示的步骤具体包括：将该节点的特征信息F_i和与其他节点的交互信息m_i输入到GRU单元实现节点之间的信息交互和节点特征更新：

其中，分别是第i个节点在第s轮迭代时GRU单元的输出状态和隐藏状态，用隐藏状态更新节点特征。

本发明的进一步改进在于，步骤3中，预设IoU阈值为0.5。

与现有技术相比，本发明具有以下有益效果：

本发明的基于图卷积网络的未剪辑视频动作时序定位方法，考虑了相同类别的动作实例之间具有相似性(同一个视频里面包含多个相同类别的动作实例)，利用动作提议之间的特征点积相似性关系计算不同动作实例之间的相似性，并采用图卷积网络来建模未剪辑视频中不同动作提议之间的相似性关系，在图卷积网络更新的过程中实现动作实例之间特征信息的交互和传递，可更好地表征动作实例的特征，能够提高动作定位的准确率；其中，利用深度特征计算节点之间的相似度中，相同类别的动作提议的外观和运动信息具有较高的语义相似性，利用深度网络提取出来的特征向量也差别不大，两个动作提议特征向量点积值的大小可以作为相似性的衡量标准，点积值越大表示它们的相似度越大。本发明方法针对包含多个动作实例的未剪辑长视频，根据动作分类和视频聚合方法生成该视频的多个动作提议，用得到的视频动作提议构造和初始化图模型的节点，用高层特征和低层信息计算任意两个动作提议之间的相似性计算图模型的邻接矩阵，之后用图卷积网络更新图上的节点特征表示并进行边界位置回归，实现动作时序定位。本发明中，用“双阈值法”对视频片段进行合并，可提高生成动作提议的鲁棒性。

进一步地，利用动作提议之间的时间重合度、特征点积和语义相似性三种关系计算不同动作实例之间的相似性，并采用图卷积网络来建模未剪辑视频中不同动作提议之间的相似性关系，在图卷积网络更新的过程中实现动作提议之间特征信息的交互和传递，可更好地表征动作提议的特征，能够进一步提高动作定位的准确率。其中，利用动作提议对应的时间区间计算节点之间的相似度中，一个动作实例可能会生成多个动作提议，这些动作提议会有重合，如果两个动作提议有较高的重合度则说明它们的相似度较大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中验证数据集示例示意图；其中，图1(a)是THUMOS’14数据集示意图，图1(b)是MEXaction2数据集示意图；

图2是本发明实施例的一种基于图卷积网络的未剪辑视频动作时序定位方法的流程示意图；

图3是本发明实施例中生成动作提议的示例示意图；其中，图3(a)是生成动作提议的过程示意图，图3(b)是生成的动作提议结果示意图；

图4是本发明实施例中图模型更新示意图；

图5是本发明实施例中在THUMOS’14数据集上的验证结果示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

步骤1：动作提议生成：

1)将带标注的未剪辑的视频分割成多个预设固定长度的视频片段，用一个在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类，得到每个视频片段是否是动作的置信度分数；

2)用“双阈值法”对视频片段进行合并，提高生成动作提议的鲁棒性，用一个较大的阈值α确定动作提议的开始，用另一个阈值β确定动作提议的结束，其中，β＜α，即动作置信度分数大于α的视频片段是动作提议的开始，动作置信度小于β的视频片段是动作提议的结束。利用不同的的阈值可以得到一组动作提议

步骤2：图模型节点表示：

1)计算步骤1中得到的动作提议和真值的交叠率(IoU)，从中选出IoU值满足以下任意一个条件的动作提议作为图模型的节点：(1)IoU值不小于0.5；(2)所有动作提议中IoU值最大的那个动作提议。

2)动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到，满足条件的动作提议的特征被用来初始化图模型的节点，用表示图中节点的集合。

步骤3：计算邻接矩阵定义任意两个节点之间的相似度：

1)利用深度特征计算节点之间的相似度：相同类别的动作提议的外观和运动信息具有较高的相似性，利用深度网络提取出来的特征向量也差别不大，两个动作提议特征向量点积值的大小可以作为相似性的衡量标准，点积值越大表示它们的相似度越大，计算图中任意两个节点X_i和X_j的特征向量点积值可以得到一种相似性关系adj₁；

2)利用视频动作提议对应的时间区间计算节点之间的相似度：一个动作实例可能会生成多个动作提议，这些动作提议会有重合，如果两个动作提议有较高的重合度则说明它们的相似度较大，计算图中任意两个节点X_i和X_j对应的动作提议的时间重合度可以得到一种相似性关系adj₂；

3)利用语义信息计算节点之间的相似度：相同类别的动作实例具有相似的语义信息，深度网络较深层的特征图可以反映图像和视频中的语义信息，把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络可以得到它们之间的语义相似性adj₃；

4)最终的相似度由上述三个相似性关系加权求和得到。

步骤4：基于图卷积网络的图更新：

1)图中任意一个节点和其他所有节点的交互信息都可以用来辅助该节点特征更新，用门控循环单元(GRU)迭代更新节点的特征表示；

2)用更新之后的节点特征表示对动作提议进行时间边界回归和动作分类，得到最终动作时序定位的结果。

综上，本发明是一种基于图卷积网络的未剪辑视频动作时序定位方法，考虑到相同类别的动作实例之间具有相似性，采用图卷积网络来建模视频中不同动作提议之间的相似性关系，在图卷积网络更新的过程中实现动作提议之间特征信息的交互和传递，更好的表征动作提议的特征，有利于对动作提议进行分类和边界回归，提高动作定位的准确率。本发明方法针对包含多个动作实例的未剪辑长视频，根据动作分类和视频聚合方法生成多个动作提议，用得到的动作提议构造和初始化图模型的节点，用高层特征和低层信息计算任意两个动作提议之间的相似性计算图模型的邻接矩阵，之后用图卷积网络更新图上的节点特征表示并进行边界位置回归，实现动作时序定位。本发明的方法与现有方法进行对比实验分析，在THUMOS’14和MEXaction2两个公开数据集上验证了动作定位算法的有效性和准确性。

实施例

请参阅图1，图1(a)和图1(b)分别是用于验证本发明方法可行性的公开数据集：图1(a)是THUMOS’14数据集中跳高动作的一个视频示例，该数据集包含20类带真值的动作，所有的视频均是真实场景中的体育比赛视频。图1(b)是MEXaction2数据集中斗牛动作的一个视频示例，该数据集包含2类动作：斗牛和骑马，视频的时长比较长而且动作的持续时间占比很少。这两个示例中上面一行是视频中的部分视频帧，下面一行是其对应的真值，灰色方块代表背景，黑色方块代表目标动作(附有动作发生的开始和结束时间)。

请参阅图2至图4，本发明实施例的一种基于图卷积网络的未剪辑视频动作时序定位方法，包括步骤如下：

步骤1：动作提议生成：

1)将带标注的未剪辑的视频分割成多个固定长度的片段，用一个在Kinetics数据集上预训练的分类器提取每一个片段的深度特征并进行二分类，得到每个片段是动作的置信度分数，如图3(a)是一个视频中所有视频片段的动作置信度分数示意图；

2)用“双阈值法”对视频片段进行合并，提高生成动作提议的鲁棒性，如图3(a)所示，用一个较大的阈值α确定动作提议的开始，用另一个阈值β(β＜α)确定动作提议的结束，图3(b)是生成的动作提议的示例示意图，获得未剪辑的视频的动作提议。

步骤2：图模型节点表示：

1)计算步骤1中得到的动作提议和真值的交叠率(IoU)，IoU值满足以下任意一个条件的动作提议作为图模型的节点：(1)IoU值不小于0.5；(2)所有动作提议中IoU值最大的那个动作提议；

2)动作提议的特征表示由该动作提议包含的所有视频片段的特征向量的平均池化得到，满足条件的动作提议的特征被用来初始化节点的表示，用表示图中节点的集合：

其中，N是节点的个数，i表示图中的第i个节点，t_s，t、t_s，t和k_i分别是该节点对应动作提议的开始时间、结束时间和动作类别，F_i是该节点的初始特征表示。

步骤3：计算邻接矩阵定义任意两个节点之间的相似度：

1)利用深度特征计算节点之间的相似度：相同类别的动作提议的外观和运动信息具有较高的相似性，利用深度网络提取出来的特征向量也差别不大，两个动作提议特征向量点积值的大小可以作为相似性的衡量标准，点积值越大表示它们的相似度越大，计算图中任意两个节点X_i和X_j的特征向量点积值可以得到一种相似性关系adj₁：

adj₁(i，j)＝F_t·F_j

其中，·表示向量点积。

2)利用动作提议对应的时间区间计算节点之间的相似度：一个动作实例可能会生成多个动作提议，这些动作提议会有重合，如果两个动作提议有较高的重合度则说明它们的相似度较大，计算图中任意两个节点X_i和X_j对应的动作提议的时间重合度可以得到一种相似性关系ajd₂：

其中i和j分别表示图中的第i和第j个节点，min(·，·)表示两者中的最小值，max(·，·)表示两者中的最大值。

3)利用语义信息计算节点之间的相似度：相同类别的动作实例具有相似的语义信息，深度网络较深层的特征图可以反映图像和视频中的语义信息，把任意两个节点的特征表示拼接起来输入给一个堆叠的全连接层网络可以得到它们之间的语义相似性adj₃：

其中，表示一个堆叠的全连接层网络，网络的输入是两个特征向量F_i和F_j拼接之后的特征向量，输出是这两个向量的语义相似性。

4)最终的相似度由上述三个相似性关系加权求和得到：

其中，和是这三种相似性关系的权重参数。

步骤4：基于图卷积网络的图更新

1)图4是图更新过程的示例图，图中任意一个节点和其他所有节点的交互信息都可以用来辅助该节点特征更新；在节点特征更新之前，首先需要收集该节点和其他所有节点之间的交互信息，收集交互信息的过程公式化如下：

其中，m_i是该节点和其他所有节点的交互信息。

用门控循环单元(GRU)迭代更新节点的特征表示，将该节点的特征信息F_i和与其他节点的交互信息m_t输入到GRU单元实现信息交互和节点特征更新：

其中，分别是第i个节点在第s轮迭代时GRU单元的输出状态和隐藏状态，我们用隐藏状态来更新节点特征。

2)用更新之后的节点特征表示对动作提议进行时间边界回归和动作分类，得到最终动作定位的结果。

表1a在THUMOS’14数据集上的实验结果

表1b在MEXaction2数据集上的实验结果

表1a、1b分别是动作定位方法的实验结果，表1a为在THUMOS’14数据集上的实验结果，表1b为在MEXaction2数据集上的实验结果。

请参阅图5，图5为THUMOS’14数据集上每个类别的定位结果，在IoU阈值为0.5的情况下，本方法在超过10类(一共20类)动作的定位结果都取得了最好的效果。从表1a中可以看出，本发明方法在不同IoU阈值的情况下都能取得具有竞争力的效果，特别是在IoU阈值超过0.5时取得了最好的结果。从表1b中可以看出，本发明方法总体的效果是最佳的，特别是在“骑马”这类动作上的结果远远超过其他方法。综上所述，采用本发明的基于图卷积网络的方法进行未剪辑视频动作时序定位，能够有效提高未剪辑视频动作时序定位的准确率。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤1中，提取每一个视频片段的深度特征并进行二分类的步骤具体包括：用在Kinetics数据集上预训练的分类器提取每一个视频片段的深度特征并进行二分类。

3.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤2中，用“双阈值法”对视频片段进行合并的步骤具体包括：如果某一个视频片段的动作置信度分数大于等于α且该视频片段之前的相邻视频片段的动作置信度分数小于α，则该视频片段为动作发生的起点；从起点开始向后扩展，如果后面连续的视频片段的动作置信度分数大于β则属于同一个动作提议；直至动作置信度分数小于等于β的视频片段，该视频片段为动作提议的终点；

通过设置不同的阈值α和阈值β，得到一组动作提议

4.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤3中，用表示图模型中节点的集合，表示为：

其中，N是节点的个数，i表示图模型中的第i个节点，t_s，t、t_e，i和k_i分别是该节点对应动作提议的开始时间、结束时间和动作类别，F_i是该节点的初始特征表示；

adj₁(i，j)＝F_i·F_j

式中，·表示向量点积。

5.根据权利要求4所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，相似度还包括：利用动作提议对应的时间区间计算各节点之间的相似度；

式中，i和j分别表示图模型中的第i和第j个节点，max(·，·)表示两者中的最小值，max(·，·)表示两者中的最大值；

相似度由adj₁和adj₂加权求和得到。

6.根据权利要求5所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，相似度还包括：利用语义信息计算节点之间的相似度；

最终的相似度的表达式为：

7.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤5中，更新图模型中节点的特征表示的步骤具体包括：用门控循环单元迭代更新节点的特征表示。

8.根据权利要求1所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤5中，在节点特征更新之前，收集该节点和其他所有节点之间的交互信息；收集交互信息的过程公式化表示为：

式中，m_i是该节点和其他所有节点的交互信息。

9.根据权利要求7所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤5中，用门控循环单元迭代更新节点的特征表示的步骤具体包括：将该节点的特征信息F_i和与其他节点的交互信息m_i输入到GRU单元实现节点之间的信息交互和节点特征更新：

10.根据权利要求1至9中任一项所述的一种基于图卷积网络的未剪辑视频动作时序定位方法，其特征在于，步骤3中，预设IoU阈值为0.5。