CN110147876B

CN110147876B - 基于视觉特征相似度的神经网络及其动作提案生成方法

Info

Publication number: CN110147876B
Application number: CN201910385118.3A
Authority: CN
Inventors: 陈弟虎; 郑靖也; 胡海峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2023-01-03
Anticipated expiration: 2039-05-09
Also published as: CN110147876A

Abstract

本发明公开了一种基于视觉特征相似度的神经网络及其动作提案生成方法。该基于视觉特征相似度的神经网络生成方法包括以下步骤：S1：构造视觉特征相似性比较网络；S2：构造动作候选提案生成及特征再提取网络，用于候选提案分类神经网络；S3：构造候选提案分类神经网络，得到用于抑制冗余动作提案的网络。本发明提出了一种新的用于动作提案生成的基于视觉特征相似度的神经网络及其生成方法，该神经网络能够有效地从视频中提取视觉特征相似度发生突变的时间位置，从而捕获用于准确表达视频中的动作的开始和结束时间，对于视频中的动作片段查找，该方法具有比较好的表现，能够准确并且快速的实现视频中动作片段的查找。

Description

基于视觉特征相似度的神经网络及其动作提案生成方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于视觉特征相似度的神经网络及其动作提案生成方法。

背景技术

动作提案生成技术作为计算机视觉领域中的一个重要的课题，具有非常广泛的应用前景。人机交互，智能监控，视频检索等领域具有非常强的应用前景，高效的动作提案生成方法具有非常强的现实意义。比如针对当前视频网站上出现的海量视频数据，使用人工去对这些数据进行时间标注明显是不现实的，我们可以通过动作提案生成技术，使用计算机自动的对上传到网络上的视频进行自动标注，从而提供更好的检索，使得信息能够得到更大程度上的利用。在视频监控中，通过现场的监控视频获得视频信息，对视频信息进行动作片段分析，预测监控目标的状态，在出现紧急情况时能够自动的报警来达到视频监控的目的。早期的动作提案生成技术以人工设计特征的方法为主，效果一般。近年来随着深度学习方法在计算机视觉领域中的广泛应用，形成了以神经网络为基础的一系列的动作识别方法，取得了比较大的成功。

2014年，Zheng Shou等人提出了在未修剪视频上的多阶段卷积神经网络，使用多尺度的滑动窗口来获取视频中的动作片段，取得了比较大的成功。2017年Yue Zhao等人利用分水岭算法设计了一种结构化的片段神经网络，该网络结构将视频动作分数序列视为一维信号，通过分水岭算法，获得视频中的动作片段，能够比较好的获取长时间的动作片段。

虽然多阶段卷积神经网络和分水岭算法在动作提案生成中取得了一定的效果，但是这些模型使用的时间尺度是固定的，具有几个问题。一方面当动作片段的持续时间大于网络的最大时间尺度时，获取的动作片段并不完整，另一方面分水岭算法存在着由于动作分数序列质量不好而忽略了正确的动作提案的情况。因此这些方法无法在实际应用上取得突破。

发明内容

本发明提供一种基于视觉特征相似度的神经网络及其动作提案生成方法，该神经网络可以自动找出视频中发生动作的片段。

为此，本发明提供了一种基于视觉特征相似度的神经网络动作提案生成方法，包括以下步骤：

S1：构造视觉特征相似性比较网络；

S2：构造动作候选提案生成及特征再提取网络，用于候选提案分类神经网络；

S3：构造候选提案分类神经网络，得到用于抑制冗余动作提案的网络。

优选地：所述步骤S1包括：

S1.1：获取数据集，所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集；

S1.2：将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分，其中光流部分由堆叠的光流图构成，视频可以表示为s_n＝(r_n，o_n)；

S1.3：将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征，以将所述视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取；

S1.4：对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接，得到最终的视觉特征，可以表示为f_n＝(f_r，n，f_o，n)；

S1.5：采用余弦相似比较作为视觉特征相似度的计算公式，

S1.6：将每一维的特征逐一进行相似度计算，得到特征的相似度序列，可以表示为

优选地，所述步骤S2包括：

S2.1：利用相似度序列的二阶导数找出相似度序列中的突变点，其中所述突变点是指相似度发生剧烈变化的时间位置；

S2.2：对于所述突变点的数量大于预设值的视频，选取变化最剧烈的前150个突变点来构建突变点序列；对于所述突变点少于150个的视频则选取全部的时间点，构建的突变点序列可以表示为

S2.3：将步骤S2.2中生成的突变点序列进行结合，得到候选提案序列，所述候选提案序列表示为C＝(t_i，s，t_i，e)；

S2.4：根据所述候选提案序列中的时间位置，对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵；

S2.5：通过等比例采样和线性插值，将所述特征矩阵的维数固定在32维。

优选地，所述步骤S3包括：

S3.1：构建动作提案分类神经网络，所述动作提案分类神经网络通过三层全连接层复合而成，将步骤S2.5中再提取的所述特征矩阵作为所述动作提案分类神经网络的输入；

S3.2：使用随机初始化对所述动作提案分类神经网络进行初始化，然后使用损失函数开始对所述动作提案分类神经网络进行训练以实现参数的优化，其中，所述损失函数为

其中，n_train是训练集中视频的数量，l_i，iou是第i个动作提案与该时间标签的重叠程度，将重叠程度大于0.7的设为正样本，小于0.3的设为负样本；

S3.3：将预设的动作提案的分类结果与给定的时间标签进行对比，使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新，实现动作提案分类神经网络的训练；

S3.4：将神经网络的输出结果，以及每个动作提案与时间标签的重合程度的得分相融合，作为最终该动作提案的分类得分，可以表示为：P_i＝(t_i，s，t_i，e，s_i)；

S3.5：对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制，将输出得分高但是与时间标签重叠度低的动作提案进行抑制，降低其预测分数，其余的动作提案保持预测分数不变；

S3.6：使用训练好的动作提案分类神经网络进行视频中动作的检测。

一种基于视觉特征相似度的神经网络，包括：

视觉特征相似性比较网络，

动作候选提案生成及特征再提取网络，用于候选提案分类神经网络；

候选提案分类神经网络，用于得到抑制冗余动作提案的网络。

优选地，所述视觉特征相似性比较网络通过以下步骤获得：

获取数据集，所述数据集包括THUMOS-14视频数据集和ActivityNet-v1.3视频数据集；

S1.5：采用余弦相似比较作为视觉特征相似度的计算公式，

优选地，所述动作候选提案生成及特征再提取网络通过以下步骤获得：

优选地，所述候选提案分类神经网络通过以下步骤获得：

S3.5：对动作提案分类神经网络的输出得分采用软-非极大值抑制方法进行冗余动作提案的抑制，将输出得分高但是与时间标签重叠度低的动作提案进行抑制，降低其预测分数，其余的动作提案保持预测分数不变。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出了一种新的用于动作提案生成的基于视觉特征相似度的神经网络及其生成方法，该神经网络基于视觉特征相似度，由三个部分构成，分别是特征相似度计算模块、动作提案生成及特征提取模块与动作提案分类及后续处理模块，用于提取视频中包含动作的视频片段。本发明能够有效地从视频中提取视觉特征相似度发生突变的时间位置，从而捕获用于准确表达视频中的动作的开始和结束时间，对于视频中的动作片段查找，该方法具有比较好的表现，能够准确并且快速的实现视频中动作片段的查找。

附图说明

图1为基于视觉特征相似度的神经网络动作提案生成模型；

图2为动作提案分类神经网络模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸。对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1～2所示，一种基于视觉特征相似度的神经网络动作提案生成方法，包括以下步骤：

S1：构造视觉特征相似性比较网络。

S1.1：获取数据集。本实施方式中，采用目前通用的两个大型视频数据集，THUMOS-14视频数据集和ActivityNet-v1.3视频数据集，这两个数据集可以从数据集官网下载数据集对应的视频和相关信息，每个数据集包含三个文件夹，分别存放背景类、测试类和验证类信息，每个文件夹当中包含对应类下的若干个视频。

S1.2：将两个数据集中的每一个视频分为视频单帧和视频光流两部分，其中光流部分由堆叠的光流图构成，视频可以表示为s_n＝(r_n，o_n)。其中，视频单帧的提取方法是通过对视频等间隔抽样获得的.jpg图片。在ActivityNet上是每16帧抽取1帧，在Thumos-14上是每5帧抽取1帧，因为Activitynet当中的视频比Thumos的长很多。视频光流图是通过flownet2.0method方法获得的。视频单帧是指从视频中提取出来的某一帧的彩色图片(如RGB图)。视频光流是根据一帧的像素点，通过光的运动轨迹来追踪它在视频中的轨迹点，从而计算它在每一帧的相应位置的光流向量，它只包含运动信息的灰度图，多张叠加后能明显发现视频中目标的动作变化。

S1.3：将视频单帧和视频光流分别通过空间神经网络和时间神经网络进行视觉特征的提取，我们将双流网络的最后一层全连接层的输出作为视频的时间特征和空间特征。其中，双流网络可以是2014年‘Two-stream convolutional networks for actionrecognition in videos’文章中提出的方法，它将视频分为空间流(输入是单帧)和时间流(输入是多帧的光流)。时间特征和空间特征是分别由将单帧作为输入的空间卷积网络和将光流作为输入的时间卷积网络的最后一层全连接层的输出获得的。

S1.4：对得到每一个视频的时间特征和空间特征进行拼接，得到最终的视觉特征，可以表示为f_n＝(f_r，n，f_o，n)。在一些实施方式中，拼接方法是按时间特征-空间特征的方式进行的。一个视频的特征向量的列数是400，前200列是时间特征，后200列是空间特征。每个视频对应一个视觉特征文件，视觉特征的行数由视频长度决定，列数都是400。

S1.5：采用余弦相似比较作为视觉特征相似度的计算公式，

S1.6：将每一维的特征进行逐一计算，得到特征的相似度序列，可以表示为

S2：构造动作候选提案生成及特征再提取网络，用于候选提案分类神经网络。

S2.1：利用相似度序列的二阶导数找出相似度序列中相似度发生剧烈变化的时间位置。

S2.2：对于突变点过多的视频，选取变化最剧烈的前150个时间点来构建突变点序列，突变点少于150个的视频则选取全部的时间点。突变点序列可以表示为

选择突变点的数量需要获得尽可能全面的特征变化点，发明人通过实验发现选取150个点的时候，提案生成的效果最好。每个视频获得大约一万个左右的提案用于后续的筛选，但是有的视频长度比较小，特征变化点不满足150个，可以选取全部的点。

S2.3：将S1.3中生成的突变点序列进行两两结合，得到具有灵活边界和不固定长度的候选提案序列，可以表示为C＝(t_i，s，t_i，e)。

S2.4：根据候选提案序列中的时间位置，对S1.1中的相应范围的原始视觉特征进行视觉特征的再提取。

S2.5：通过等比例采样和线性插值，将特征矩阵的维数固定在32维，其中，该分类器训练网络要求输入的矩阵维度和它的维度要相同。

S3：构造候选提案分类神经网络，得到最后用于动作提案冗余抑制的网络。

S3.1：构建动作提案分类神经网络。动作提案分类神经网络由三层全连接层复合而成，将S2.2中再提取的视觉特征作为动作提案分类神经网络的输入。

S3.2：使用随机初始化对动作提案分类神经网络进行初始化，然后使用损失函数开始对整个网络进行训练，实现参数的优化，损失函数为

其中，n_train是训练集中视频的数量，l_i，iou是第i个动作提案与该时间标签的重叠程度，将重叠程度大于0.7的设为正样本，小于0.3的设为负样本。

S3.3：将动作提案的分类结果与给定的时间标签进行对比，使用随机梯度下降的方法对整个动作提案分类神经网络的参数进行反向更新，实现动作提案分类神经网络的训练。

S3.4：将神经网络的输出结果，以及每个动作提案与时间标签的重合程度的得分相融合，作为最终该动作提案的分类得分，可以表示为：P_i＝(t_i，s，t_i，e，s_i)。

S3.6：训练好的动作提案的分类结果可以用于进行视频中动作的检测任务。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于视觉特征相似度的神经网络动作提案生成方法，其特征在于：包括以下步骤：

S1：构造视觉特征相似性比较网络；

S2：构造动作候选提案生成及特征再提取网络，用于候选提案分类神经网络；所述步骤S2包括：

S2.3：将步骤S2.2中生成的突变点序列进行结合，得到候选提案序列，所述候选提案序列表示为C＝(t_i,s,t_i,e)；

S2.4：根据所述候选提案序列中的时间位置，对THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频的相应范围的原始视觉特征进行视觉特征的再提取以获得所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频对应的特征矩阵；

S2.5：通过等比例采样和线性插值，将所述特征矩阵的维数固定在32维；

S3：构造候选提案分类神经网络，得到用于抑制冗余动作提案的网络；所述步骤S3包括：

其中，n_train是训练集中视频的数量，l_i,iou是第i个动作提案与时间标签的重叠程度，将重叠程度大于0.7的设为正样本，小于0.3的设为负样本；

S3.4：将神经网络的输出结果，以及每个动作提案与时间标签的重合程度的得分相融合，作为最终该动作提案的分类得分，可以表示为：P_i＝(t_i,s,t_i,e,s_i)；

2.根据权利要求1所述的基于视觉特征相似度的神经网络动作提案生成方法，其特征在于：所述步骤S1包括：

S1.2：将所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集中的每一个视频分为视频单帧和视频光流两部分，其中光流部分由堆叠的光流图构成，视频可以表示为s_n＝(r_n,o_n)；

S1.4：对所述THUMOS-14视频数据集和ActivityNet-v1.3视频数据集进行特征提取得到每一个视频的时间特征和空间特征进行拼接，得到最终的视觉特征，可以表示为f_n＝(f_r,n,f_o,n)；

S1.5：采用余弦相似比较作为视觉特征相似度的计算公式，

3.一种基于视觉特征相似度的神经网络，其特征在于，包括：

视觉特征相似性比较网络，动作候选提案生成及特征再提取网络，用于候选提案分类神经网络；所述动作候选提案生成及特征再提取网络通过以下步骤获得：

候选提案分类神经网络，用于得到抑制冗余动作提案的网络；所述候选提案分类神经网络通过以下步骤获得：

S3.4：将神经网络的输出结果，以及每个动作提案与时间标签的重合程度的得分相融合，作为最终该动作提案的分类得分，表示为：P_i＝(t_i,s,t_i,e,s_i)；

4.如权利要求3所述的基于视觉特征相似度的神经网络，其特征在于，所述视觉特征相似性比较网络通过以下步骤获得：

S1.5：采用余弦相似比较作为视觉特征相似度的计算公式，