CN113312980B

CN113312980B - 一种视频密集描述方法、装置及介质

Info

Publication number: CN113312980B
Application number: CN202110489246.XA
Authority: CN
Inventors: 肖焕侯; 史景伦; 胡晨晨; 熊静远; 沈卫强
Original assignee: Guangdong Weibo Intelligent Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Weibo Intelligent Technology Co ltd; South China University of Technology SCUT
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2022-10-14
Anticipated expiration: 2041-05-06
Also published as: CN113312980A

Abstract

本发明公开了一种视频密集描述方法、装置及介质，其中方法包括：采用C3D网络对输入视频进行特征提取；根据视频特征和双向SST算法对事件定位模块进行训练；结合事件定位模块、特征损失和基于注意力模型的事件描述模块进行训练，获得密集描述系统；将待处理视频输入密集描述系统进行预测，经过联合排序后，将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果。本发明采用能同时利用过去信息和未来信息的双向SST算法来获得视频的事件候选框；使用基于注意力机制的分层LSTM模型来获得描述句子；使用联合排序的方法来综合定位模块和描述模块的置信度，提高系统整体的密集描述质量，可广泛应用于计算机视觉领域。

Description

一种视频密集描述方法、装置及介质

技术领域

本发明涉及计算机视觉领域和自然语言处理领域，尤其涉及一种视频密集描述方法、装置及介质。

背景技术

视频作为信息传播的重要介质，近几年来在各个领域的重要性已越发凸显，如安防领域、零售领域和娱乐领域等。在安防领域，物联网时代万物互联，智慧城市建设提上日程，视频监控覆盖区域愈发广阔，有效地分析理解视频对城市安全、找寻失踪人口和交通安全监测等具有重要意义。在零售领域，线上电商平台直播，线下无人商店建设逐渐成为主流。利用计算机视觉分析商店中摄像头实时录制的视频，可以识别出客户的身份以及购物信息。在娱乐领域，各种视频软件每天产生海量的视频，如何对其进行审核、分类、检索和推荐具有巨大的现实意义和商业价值。

在视频智能分析中，让机器理解视频内容是非常关键的一步。这包括很多方面，最基本的有视频行为分类，即识别出视频中物体的主要动作，例如游泳、跳跃、跑步等。除此之外，还有将视频信息自动翻译成语言的研究，即使用结构化的自然语言对视频内容进行描述，属于高层次的视频语义理解。视频描述对很多研究课题的发展有巨大的促进作用，包括视频检索、视频摘要、基于语言查询的视频片段提取等等。从视频描述结合了视觉和自然语言的特性来看，它能够为有视觉障碍的人群提供文字描述和朗读等服务，如为盲人描述电影内容和提供交通指导等，帮助他们更好地融入社会，改善生活质量。

现实生活中各个平台的视频数据长短不一，除了一般只包含一个主要事件的短视频外，也有时长长达几小时的长视频。对于长视频来说，其可能包含多个子事件，因此，针对长视频的描述相比于短视频而言需要多做一步事件定位的工作。也就是说，长视频的密集描述指的是同时定位和描述一个视频中发生的所有行为。值得注意的是，不同事件在时间上可能是有重叠的。目前大部分研究工作集中在针对短视频的描述上，主要包括基于语言模板的描述和基于深度学习的描述两大类。而长视频的密集描述是近几年兴起的一个研究方向，目前的方法主要先得到视频的局部特征，然后使用循环神经网络学习时序编码器，将过去信息编码到每个时刻产生的隐状态中。接着该隐状态会同时作为事件候选框分类器和事件描述的输入。该方法简单有效，但其对视频内不同事件片段的特征区分度和事件表征能力不强，导致最终描述结果的不理想。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供基于特征损失和注意力模型的视频密集描述方法、装置及介质。

本发明所采用的技术方案是：

一种视频密集描述方法，包括以下步骤：

获取输入视频，采用C3D网络对输入视频进行特征提取，获得视频特征；

根据视频特征和双向SST算法对事件定位模块进行训练；

结合事件定位模块和基于注意力模型的事件描述模块进行训练，获得密集描述系统；

将待处理视频输入密集描述系统进行预测，经过联合排序后，将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果。

对事件定位模块进行训练过程中，在前向过程获取前向候选框，在后向过程获取后向候选框，对拥有相同起止时间的前向候选框和后向候选框进行融合，获取视频中的事件候选框，以及候选框定位损失。

进一步，所述采用C3D网络对输入视频进行特征提取，获得视频特征，包括：

对于一个包含L帧的视频序列X＝{x₁，x₂，...，x_L}，以δ＝16帧的间隔提取出4096维的C3D特征，使用PCA算法将4096维降维至500维；

输入的视频序列离散化为T＝L/δ个时刻，获得视频特征V＝{v₁，v₂，...，v_T}。

进一步，所述根据视频特征和双向SST算法对事件定位模块进行训练，包括：

将提取的视频特征输入到正向LSTM网络和反向LSTM网络进行时序编码，在每个编码时刻对多个时间尺度的候选框进行预测；

前向过程：

将视频特征V输入正向LSTM网络，在t时刻，正向LSTM网络输出的隐状态向量

包含t时刻和t时刻之前的视觉信息；

隐状态向量

被送入K个二分类器，获得对应的K个候选框的置信度

表示结束时间为t，开始时间为t-l_i的时序候选框是真实候选框的可能性；其中

表示预定义的K个候选框的长度；

根据候选框和真实候选框获取前向损失；

后向过程：

将视频特征V从后往前输入反向LSTM网络，在t时刻，获得K个候选框以及与候选框对应的置信度

根据候选框和真实候选框获取后向损失；

融合过程：

将前向过程和后向过程获得的拥有相同起止时间的候选框及置信度进行融合，获得最终的候选框，以及与最终的候选框对应的最终置信度；

根据前向损失和后向损失获得候选框定位损失L_p。

进一步，前向过程和后向过程的置信度计算公式分别为(以前向过程为例)：

其中，

和

为模型全连接层的参数；

最终的置信度计算方式为：

前向损失和后向损失的计算公式为：

其中，权重

和

通过计算训练样本中的正负样本比例得到，对于任意j∈{1，2，...，K}，均有

进一步，所述视频密集描述方法还包括特征损失结合的步骤，包括：

假设视频中包含

个子事件，选取最后一个事件作为基准事件，计算基准事件与其它所有事件的特征损失总和；

其中，两个事件的特征损失的计算公式如下：

其中，

和f_i是第

个子事件和第i个子事件对应的视觉特征，k是视觉特征的维度，β_i是损失项的偏置，intersection是视频中第i个子事件和第

个子事件在时序上的重叠部分；

视频总的特征损失为：

进一步，所述结合事件定位模块和基于注意力模型的事件描述模块进行训练，获得密集描述系统，包括：

将事件候选框对应的视频特征，及双向SST的时序编码器中产生的上下文隐状态向量输入到事件描述模块，生成描述句子；

将事件定位模块与事件描述模块进行耦合训练；

事件描述模块的损失函数为：

其中w_i表示标记句子的第i个单词；

密集描述系统的联合损失函数为：

L＝η×L_p+μ×L_f+λ×L_c

其中η，μ，λ为调节参数。

进一步，事件描述模块通过以下方式生成描述句子：

先使用第一层LSTM网络对视频特征进行编码，再使用两个分层的LSTM网络进行解码生成文字描述；

其中，第二层LSTM网络对原始句子进行编码，第三层LSTM网络以注意力机制和第二层LSTM网络的输出作为输入进行下一个单词的预测；

假设事件片段特征为

检测出的事件长度为p＝n-m+1，经第一层LSTM网络编码后的视觉特征为

则在t时刻，视觉注意力机制的输出可以写成：

α_t，i＝softmax(e_t，i)

其中，

表示空特征，以防止将视觉注意力机制应用在非视觉单词上，

和

表示

和

以利用事件片段的上下文信息；w_g，W_g，V_g和b_g是模型需要学习的参数，

是t-1时刻最后一层LSTM网络的隐藏层状态。

进一步，所述经过联合排序后，将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果，包括：

采用联合排序方法，结合事件定位模块和事件描述模块的预测对密集描述结果进行排序；

获取排序靠前的事件候选框及其对应的描述句子，作为最终的密集描述结果；

对于描述句子，定义其置信度为所有预测单词的对数概率：

假设

表示预测的N个候选事件对应的描述句子的置信度集合，则联合排序的计算方式如下：

其中，

是一个调节的参数。

本发明所采用的另一技术方案是：

一种视频密集描述装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明采用能同时利用过去信息和未来信息的双向SST算法来获得视频的事件候选框；设计特征损失增强视频内不同事件片段的特征区分度；使用分层的网络更好地对事件片段特征进行了编码；使用联合排序的方法综合定位模块和描述模块的置信度来对描述结果进行排序，提高了系统整体的密集描述质量。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中密集描述系统的框架图；

图2是本发明实施例中事件定位模块的框架图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供了一种基于特征损失和注意力模型的视频密集描述方法，通过双向SST算法(SST的中文：单流时序行为定位)来获得视频的事件候选框，并结合特征损失增强不同事件片段的特征区分度。对于事件描述，在注意力模型的基础上引入事件片段的上下文信息，并使用联合排序的方法综合定位模块和描述模块的置信度来对描述结果进行排序。具体包括以下步骤：

步骤1、使用C3D网络对输入视频进行特征提取，具体为：

对于一个包含L帧的视频序列X＝{x₁，x₂，...，x_L}，以δ＝16帧的间隔提取出4096维的C3D特征，并使用PCA降维至500维。如此，输入的视频序列离散化为T＝L/δ个时刻，记为V＝{v₁，v₂，...，v_T}。

步骤2、使用双向SST算法对事件定位模块进行训练，对前向过程和后向过程分别进行处理和融合。如图2所示，具体过程如下：

先将步骤1中提取的视频特征输入到正向LSTM和反向LSTM中进行时序编码，接着模型在每个编码时刻对多个时间尺度的候选框进行预测。

前向过程：在t时刻，LSTM输出的隐状态向量

包含了t时刻和t时刻之前的视觉信息。

随后会被送入K个独立的二分类器中得到对应K个anchor(不同时间长度的一维框)的置信度

表示结束时间为t，开始时间为t-l_i的时序候选框是真实候选框的可能性。其中

表示预定义的K个anchor的长度。这K个预定义的候选框的长度可以有多种选择，例如设置为等差的数列：δ，2δ，...，Kδ，或者收集训练视频中所有真实事件候选框的长度，然后使用K均值聚类得到。这些候选框都拥有相同的结束时间，它们的置信度通过一个全连接层进行计算：

其中全连接层参数

和

在所有时刻共享权值。

后向过程：该过程旨在捕捉行为发生的未来信息，以改善事件候选框的质量。我们将输入特征流V从后往前送入反向LSTM。注意，后向过程不是在事件结束往前预测anchor，而是在事件的开始往后预测。这是因为特征流被从后往前进行了处理，因此在事件开始位置预测时，隐状态编码了未来的信息。与前向过程类似，在某个时刻可以得到K个候选框以及它们的置信度

融合过程：经过前面两个过程，对于一个视频，假设总共得到了N个时序候选框。为了进一步获得高置信度的结果，需将上述两个过程的候选框及其置信度进行融合。对于起止时间(编码得到的特征流中每个特征对应的离散时间)一样的候选框，最终的置信度计算为：

在获得每个候选框的置信度后，先通过设置阈值将置信度低的候选框剔除。之后，使用非极大值抑制选择高置信度且相互重叠程度低的候选框。

在每个时刻，对应输出的真实标签是一个K维的0-1向专

1表示对应的预定义候选框与真实候选框的tIoU大于0.5。tIoU定义为两个候选框在时间维度上的交集长度除以两个候选框的并集长度。对于一个训练样本，t时刻的损失定义如下：

其中，权重

和

正样本越少，

越大，在训练中就会给正样本对应的损失项添加较大的权重，以提高召回率。

前向过程和后向过程分别使用上式计算得到前向损失和后向损失，最终的损失即为前后损失的和。记事件候选框定位损失为L_p。

步骤3、结合特征损失进一步增强不同事件片段的区分度，具体为：

假设视频中包含

个子事件，选取其中一个为基准(如最后一个)，并计算该事件与其它所有事件的特征损失总和。假设最后一个事件的起止时间分别为

和

(这里的起止时间指的是编码得到的特征流中每个特征对应的离散时间)，其对应的视觉特征为

(步骤2中正向LSTM和反向LSTM的对应隐藏层输出，并对特征进行mean pooling操作以保证不同长度事件片段拥有同样的视觉特征维度)，第i个事件的起止时间分别为start_i和end_i，

其对应的视觉特征为f_i，则可由下面公式计算这两个事件的特征损失：

其中，k是视觉特征的维度，β_i是损失项的偏置。对应地，一个视频总的特征损失可以写成：

步骤4、加入基于注意力模型的事件描述模块一起训练，更新算法模型所有的可训练参数。具体过程如下：

在通过步骤2获得视频的候选事件后，将候选事件对应的事件片段特征以及双向SST的时序编码器中产生的上下文隐状态向量输入到描述模块中去生成描述句子。描述模块先使用一层LSTM对片段特征进行编码，之后再使用两个分层的LSTM进行解码生成文字描述。其中，第二层LSTM对原始句子进行编码，第三层LSTM则以注意力机制和第二层LSTM的输出作为输入去预测下一个单词。假设事件片段特征为

检测出的事件长度为p＝n-m+1，经第一层LSTM编码后的视觉特征为

则在t时刻，视觉注意力机制的输出可以写成：

α_t，i＝softmax(e_t，i)

其中，

和

表示

和

以利用事件片段的上下文信息。w_g，W_g，V_g和b_g是模型需要学习的参数，

是(t-1)时刻最后一层LSTM的隐藏层状态。

在训练过程中，只有与标记的候选框重叠程度较高的候选框会被选择送入事件描述模块，然后将标记候选框对应的描述句子作为Ground Truth(参考句子)。在实际的训练中，由于事件定位模块与描述模块是耦合在一起进行训练的，不符合上述条件的事件候选框会被添加掩码，使其不影响事件描述模块损失的计算。对于一个包含M个单词的句子，描述模块的损失函数可以定义为：

其中w_i表示标记句子的第i个单词。

在加入描述模块之前，首先对事件定位模块进行预训练。接着，以端到端的方式使用联合损失函数训练整个视频密集描述网络。这里的联合损失函数包括事件候选框定位损失、特征损失和事件描述损失，具体定义如下：

L＝η×L_p+μ×L_f+λ×L_c

其中η，μ，λ为调节参数。

步骤5、测试过程中输入任意视频至密集描述系统，经过联合排序后将排序靠前的事件候选框及其对应的描述提取出来作为最终的密集描述结果。具体为：

使用一种联合排序方法，在推理阶段结合两个模块的预测对密集描述进行排序。事件候选框的置信度为步骤2中介绍的C_p。对于描述句子，定义其置信度为所有预测单词的对数概率：

虽然上式计算的置信度是负数，但不影响相对大小。假设

这里

是一个调节的参数。

综上所述，本实施例的方法相对于现有方法，具有如下有益效果：

(1)本实施例在双向SST的基础上结合特征损失，进一步增强了不同事件片段的特征区分度，提高了事件定位质量。

(2)本实施例在注意力模型的基础上结合了事件片段的上下文信息，同时分层的设计更好地对事件片段特征进行了编码，提高了事件描述质量。

(3)本实施例通过联合排序方法综合事件定位模块和事件描述模块的置信度来对描述结果进行排序，提高了系统整体的密集描述质量。

本实施例还提供一种视频密集描述装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种视频密集描述装置，可执行本发明方法实施例所提供的一种视频密集描述方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种视频密集描述方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。