CN110704601A

CN110704601A - 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Info

Publication number: CN110704601A
Application number: CN201910965525.1A
Authority: CN
Inventors: 赵洲; 张品涵; 金韦克; 陈默沙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-17

Abstract

本发明公开了一种利用问题‑知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，包括如下步骤：针对一段视频，利用Faster‑RCNN得到视频对象集；在外部知识库中检索视频对象集对应的注释文本，得到外部知识；使用Doc2Vec提取外部知识的语义特征，得到视频的知识特征集；针对问题，利用嵌入层(embedding layer)将输入单词转换为词嵌入向量；将词嵌入向量输入渐进式时空注意力网络，生成答案；本发明通过使用附加信息，可以回答更具体的问题，例如一些常识性问题；将外部知识与问题结合起来，在空间和时间维度上引导渐进式的视频注意力，学习细粒度联合视频表示以进行答案预测。

Description

利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

技术领域

本发明涉及视频问答答案生成领域，尤其涉及一种利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法。

背景技术

视觉问答(VQA)是一种用于连接计算机视觉(CV)和自然语言处理(NLP)的任务，它根据用户的问题自动从参考视觉内容返回准确的答案。根据视觉内容的类型，主要有两种视觉问答，一种是图像问答，另一种是视频问答。近年来，人们在视觉问答领域做了很多工作。但是，大多数现有工作都侧重于静态图像问答。

视频问答是一个新生领域，目前在该领域研究人员所做的工作比图像问答要少得多。与让计算机理解图像相比，让计算机理解视频更具挑战性。为了实现图像问答，最基本的方法是将文本内容和视觉内容映射到一个公共空间。之后，用这个联合表达预测给定问题的正确答案。本质上，视频是具有特定时间线的一系列静态图像，并且在处理视频内容时不能忽略视频固有的时间动态性。此外，视频中的大量帧是冗余的，与问题无关，这显然会影响视觉内容的表示。因此，在图像问答领域表现良好的方法拓展到视频领域可能无法有很好的表现。为了解决这个问题，研究人员提出了时间注意力机制这一概念。时间注意力机制的主要思想是冗余帧和不相关帧不应该和问题相关帧一样重要，换句话说，应该关注与问题相关的帧。另外，上下文信息在视频内容的逻辑理解中也起着重要作用。时间注意力机制也考虑到了这一点。

因为视频是图像序列，所以图像表示的方法可以用于视频表示。例如，可以使用CNN进行帧特征化。但是，这种方式是视觉内容的粗略表示，缺少更详细的信息，例如帧中的对象。这将导致这种方式不足以回答依赖于视频内容细节的问题。因此，最好在视频中添加有关详细信息的其他表示，例如帧中的对象。

回答人类提出的关于视觉内容的一般性问题，不可避免地需要参考视觉内容中未包含的外部知识。结构化知识库提供了这种辅助信息的显式表示。这些知识库可以通过手动注释(如DBpedia，Freebase和Wikidata)构建，也可以通过自动转换非结构化/半结构化数据(如YAGO，NEIL，OpenIE和ConceptNet)。近年来，研究人员对结构化知识库的自然语言问答任务(称为KB-QA)越来越感兴趣。KB-QA方法通常有两类：信息检索方法检索一组备用答案然后执行排名以获得最终答案；语义解析方法尝试将问题转换为逻辑表达式，然后映射到知识库查询。

使用外部知识的视觉问答系统仍然相对较少。Wu等人(Qi Wu，Peng Wang，ChunhuaShen，Anthony Dick，and Anton van den Hengel.2016.Ask me anything：Free-formvisual question answering based on knowledge from external sources.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition.4622-4630.)通过Word2Vec模型将从DBpedia提取的文本(知识)编码为矢量表示。他们将知识表示与视觉特征相结合，以使用LSTM模型预测最终答案。本发明试图将Wu等人提出的方法推广到视频领域。

本发明提出了一种基于知识的渐进式时空注意力网络(K-PSTANet)，用于视频问答任务。由于全局帧特征是粗略表示，使用区域提案网络(RPN)来获得样本帧中的对象和对应的区域特征。通过RPN的强大功能，可以观察到有关视频内容的更多详细信息，例如人物，特定种类的动物和工具。然后使用这些对象信息，从DBpedia中检索相关的外部知识。由于获得的外部知识是用自然语言描述的，需要将其转化为机器可以理解的形式。本发明使用Doc2Vec模型编码外部知识信息。这样就能获得几种候选知识。正如并非所有对象都是主要对象一样，并非所有知识都可用于回答特定问题。因此，采用一种单词级别注意力机制，根据问题选择最相关的知识作为最终知识表示。最后，开发了问题-知识引导的渐进式时空注意力网络(question-knowledge-guided progressive spatial-temporal attentionnetwork)，来学习视频问答任务的联合视频表达，以得到最终答案。

发明内容

本发明提出了一种用于视频问答的新模型，称为基于知识的渐进式时空注意力网络(knowledge-based progressive spatial-temporal attention network，K-PSTANet)。本发明所采用的具体技术方案是：

利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，包括如下步骤：

S1：针对一段视频，利用Faster-RCNN得到视频对象集；

S2：在外部知识库中检索视频对象集对应的注释文本，得到外部知识；

S3：使用Doc2Vec提取外部知识的语义特征，得到视频的知识特征集；

S4：针对问题，利用嵌入层将输入单词转换为词嵌入向量；

S5：构建渐进式时空注意力网络，包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络；将步骤S4得到的词嵌入向量输入到LSTM神经网络中，得到LSTM的隐藏状态；将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中，得到单词的外部知识表达；将单词的外部知识表达、LSTM隐藏状态和视频中的所有样本帧输入到时空注意力单元，生成针对问题的答案。

进一步的，所述步骤S1具体为：

针对一段视频，使用在MS COCO数据集上预先训练的Faster-RCNN网络来检测每个样本帧中的对象；对于视频中的第j帧，选择得分最高的前D个对象构成第j帧的对象集，表示为o_j＝(o_j1，o_j2，...，o_jD)；对于整段视频，将所有帧中出现次数最多的前E个对象作为视频对象集o_v。

进一步的，所述步骤S2具体为：

使用外部知识库DBpedia作为背景信息，DBpedia是维基百科中所提取信息的结构化数据库，使用查询语言SPARQL访问DBpedia中的数据；将o_v中的视频对象作为关键字来生成DBpedia查询，检索o_v中每一个视频对象对应的注释文本，将注释文本作为外部知识。

进一步的，所述步骤S3具体为：

使用Doc2Vec来提取外部知识的语义特征，获得视频的知识特征集f^k，表示为

其中

表示视频中第i个对象的知识特征，i＝0，1，...E。

进一步的，所述步骤S4具体为：

将问题所含单词逐个输入嵌入层中，得到每个单词对应的词嵌入向量，最终得到问题的单词级别表达q＝(q₁，q₂，...，q_n)，其中n是问题所含单词的数量，q_t是问题中第t个单词的词嵌入向量。

进一步的，所述步骤S5具体为：

S51，将问题中的每一个单词对应的词嵌入向量q_t依次输入到一个LSTM神经网络中，将此神经网络记为LSTM_q，得到LSTM的隐藏状态

其中

表示问题的第t个单词所对应LSTM的隐藏状态；

将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中，计算得到注意力得分，计算公式如下：

其中W，W_q和W_k是要学习的参数矩阵，b是偏置向量；

表示问题的第t个单词的所对应LSTM隐藏状态，表示视频中第i个对象的知识特征，

表示视频中第i个对象的注意力得分；

应用softmax函数生成不同知识特征的注意力分布，由下式给出：

其中E是知识特征集f^k的长度，

表示视频中第i个对象的注意力分布；

根据问题的第t个单词所对应LSTM的隐藏状态外部知识表达由下式给出：

其中

表示问题的第t个单词的外部知识表达；

S52，所述时空注意力单元包括空间注意力机制、时间注意力机制、区域提案网络和双向LSTM网络；所述视频中的所有样本帧输入到区域提案网络中得到样本帧的对象级区域表达，得到样本帧的帧表达；将样本帧的帧表达和

输入到空间注意力机制，得到结合空间注意力的帧特征；将结合空间注意力的帧特征作为双向LSTM网络的输入序列，对双向LSTM网络的隐藏状态应用时间注意力机制，得到结合时空注意力的视频表达；采用LSTM神经网络对v_video进行编码，将此神经网络记为LSTM_v，LSTM_v的最终隐藏状态表示为

将所述

和

进行连接以生成给定问题的答案。

进一步的，所述步骤S52具体为：

对于一段视频中的每个样本帧，使用预训练的VGG16网络产生全局帧特征V＝(v₁，v₂，...，v_n)，其中v_j代表视频中的第j个样本帧的特征；将全局帧特征V输入到区域提案网络RPN中进行训练，输出RoI提案，计算每一个RoI提案的IoU分数，选择IoU分数高于阈值η的提案并经过RoI池化，然后输入到多层全连接网络中进行对象区域特征提取，得到视频中第j个样本帧的对象级区域表达

其中j表示第j个样本帧，

表示第j个样本帧的第i个对象区域特征，K是对象区域特征的数量；

进一步得到视频中第j帧的帧表达

其中

计算视频中第j帧的空间注意力得分

其中W^s、

和

是参数矩阵；b_s是偏置向量；k＝1，2，...K+1；对于每个区域，由softmax函数在空间维度上进行激活，

然后，结合空间注意力的帧表达由下式给出：

得到结合空间注意力的帧特征

其中

表示结合空间注意力的的第j帧的帧表达；

将v^s作为双向LSTM网络的输入序列，该双向LSTM的隐藏状态表示为

对隐藏状态h^s应用时间注意力机制，得到正在处理的问题的第t个单词的时间注意力得分

其中W^t、和

是参数矩阵；b_t是偏置向量；对于每个隐藏状态，由softmax函数在时间维度上进行的激活，

最后，结合注意力的视频表达由下式给出：

其中

表示问题的第t个单词的视频表达，在处理完问题最后一个词嵌入向量之后，得到一系列结合注意力的视频表达

其中n为问题中单词的数量。

采用LSTM神经网络对v_video进行编码，将此神经网络记为LSTM_v，LSTM_v的最终隐藏状态表示为

含有结合注意力的时空视觉信息；外部知识表达

包含相关知识的语义信息，问题的最终隐藏状态

包含问题的语义信息；将所述

和

进行连接以生成给定问题的答案，答案生成方式如下：

其中W_g是参数矩阵，b_g是偏置向量；

对于开放式视频问答，使用LSTM解码器通过使用

和初始化，

作为第一个输入来生成自由形式的答案；具体地，LSTM解码器生成一系列候选答案向量，然后用和上式一样的softmax分类器用于逐单词生成答案a′＝(a′₁，a′₂，...，a′_T)，其中T表示开放式视频问答任务的答案的长度。

本发明具备的有益效果：

(1)本发明使用外部知识库作为附加信息并且学习对象级视觉表示。通过使用附加信息，可以回答更具体的问题，例如一些常识性问题。

(2)本发明提出了一种基于知识的渐进式时空注意力网络，它将外部知识与问题结合起来，在空间和时间维度上引导渐进式的视频注意力，学习细粒度联合视频表示以进行答案预测。

附图说明

图1是基于知识的渐进式时空注意力机制示意图；

图2是时空注意力单元示意图。

具体实施方式

如图1所示，本发明使用LSTM逐字处理问题。问题感知知识注意力单元和时空注意力单元操纵注意力机制以在每个时间步骤分别生成知识特征和视频特征。在处理完问题中的所有单词之后，将视频、问题和知识的最终表示融合在一起以产生答案。

如图2所示，时空注意力单元采用问题-知识引导的时空注意力机制(question-knowledge-guided spatial-temporal attention mechanis)来学习联合视频表达。其中空间注意力机制来定位每个帧中的目标对象区域，以获得更详细的信息，时间注意力机制来定位包含用于回答的关键信息的相关样本帧。在这里，本发明使用问题和外部知识来引导这两个注意力过程。

具体实施步骤如下：

步骤一、针对一段视频，利用Faster-RCNN得到视频对象集；对于视频中的第j帧，选择得分最高的前五个对象构成第j帧的对象集，表示为o_j＝(o_j1，o_j2，...，o_j0)；对于整段视频，将所有帧中出现次数最多的前八个对象作为视频对象集o_v。

步骤二、在外部知识库中检索视频对象集对应的注释文本，得到外部知识；使用外部知识库DBpedia作为背景信息，DBpedia是维基百科中所提取信息的结构化数据库，使用查询语言SPARQL访问DBpedia中的数据；将o_v中的视频对象作为关键字来生成DBpedia查询，检索o_v中每一个视频对象对应的注释文本，将注释文本作为外部知识。

步骤三、使用Doc2Vec提取外部知识的语义特征，得到视频的知识特征集f^k，表示为

其中

表示视频中第i个对象的知识特征，i＝0，1，...E。；

步骤四、针对问题，利用嵌入层将输入单词转换为词嵌入向量，得到问题的单词级别表达q＝(q₁，q₂，...，q_n)，其中n是问题所含单词的数量，q_t是问题中第t个单词的词嵌入向量。

步骤五、构建渐进式时空注意力网络，包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络；

将步骤S4得到的词嵌入向量输入到LSTM神经网络中，得到LSTM的隐藏状态；将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中，得到单词的外部知识表达；

所述时空注意力单元包括空间注意力机制、时间注意力机制、区域提案网络和双向LSTM网络；所述视频中的所有样本帧输入到区域提案网络中得到样本帧的对象级区域表达，得到样本帧的帧表达；将样本帧的帧表达和

将所述

和

进行连接以生成给定问题的答案。

对于开放式视频问答，使用LSTM解码器通过使用

和

初始化，作为第一个输入来生成自由形式的答案。具体地，LSTM解码器生成一系列候选答案向量，然后用和上式一样的softmax分类器用于逐单词生成答案a′＝(a′₁，a′₂，...，a′_T)，其中T表示开放式视频问答任务的答案的长度，a′_i表示答案中的第i个单词。

实施例

本实施例从YouTubeClips视频数据集构建了一个视频问题回答数据集，其中包含从YouTube网站收集的1,987个视频和122,708个自然语言描述。由于YouTubeClips视频数据集包含丰富的自然语言描述，因此本发明会根据自动问题生成方法生成问题和相关答案。本实施例根据答案属性将YouTube-QA数据集中生成的问题-答案对分为五类{“what”，“who”，“how”，“where”，“other”}。有关数据集的详细信息总结如下。

本实施例会舍弃那些无法从描述中生成问题的视频。因此，YouTube-QA数据集最终包含1,970个视频，以及122,708个自然语言描述和50,505个问答对。本实施例将数据集分为三个部分：训练集，验证集和测试集。训练集包含来自1,200个视频的30,933个问答对。验证和测试集分别有来自250和520个视频的6,415和13,157个问答对。通过确保来自一个视频的问答对仅出现在三个集合中的一个中来进行分割。表1显示了有关YouTube-QA数据集的更多信息。

表1 YouTube-QA数据集统计信息

除了YouTube-QA数据集，本实施方式还在实验中使用了另一个数据集Video-QA数据集。表2显示了Video-QA数据集的统计信息。虽然本实施方式的数据集和Video-QA数据集的视觉信息来自相同的源数据集，但由于采用的问题生成算法不同，这两个数据集的问答配对内容完全不同。问题类型的划分也不同。本实施方式的数据集有五种特定的问题类型；但是，Video-QA数据集只有三个问题类别，其中“其他”类别包括几个不同的问题类型，没有特定的划分。Video-QA数据集包括两类任务：开放式任务和多项任务。

表2 Video-QA数据集统计信息

本实施方式使用了三个现有模型与本发明进行比较，下面给出对比的三个现有模型出自的文献：

文献1：Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Margaret Mitchell，Dhruv Batra，C.Lawrence Zitnick，and Devi Parikh.2015.Vqa：Visual questionanswering.In Proceedings of the IEEE International Conference on ComputerVision.2425-2433.

文献2：Li Yao，Atousa Torabi，Kyunghyun Cho，Nicolas Ballas，ChristopherPal，Hugo Larochelle，and Aaron Courville.2015.Describing videos by exploitingtemporal structure.In Proceedings of the IEEE International Conference onComputer Vision.4507-4515.

文献3：Sainbayar Sukhbaatar，Jason Weston，Rob Fergus，et a1.2015.End-to-end memory networks.In Advances in Neural Information ProcessingSystems.2440-2448.

VQA+模型(VQA+)(文献1)该模型包含两个LSTM网络，一个用于编码问题中的所有单词，另一个LSTM网络用于编码视频中的帧。然后将问题和视频的表达融合为统一表达，用于解码答案。该模型考虑了视频和问题的顺序性。

Soft-Attention+模型(SA+)(文献2)。该模型首先使用一个LSTM网络对问题中的单词进行编码，然后使用该问题的编码表达来参与生成帧特征。问题表达和加权视频表达都用于生成最终答案。该模型增强了基于问题选择重要帧的能力。

N2N Memory Networks+(MN+)(文献3)。该模型使用双向LSTM网络来更新给定视频的帧表达。然后，更新的表达被映射到存储器中，并且问题表达用于执行多个推断步骤以生成最终的答案预测。该模型不仅具有上述两种模型的能力，而且还增强和改进了推理过程。

本发明在数据集上的实现细节如下：

对于视频预处理，本发明首先将给定视频均匀地采样到20帧。然后提取VGG网络的fc7层特征，其维度为4,096，用于全局表达。对于所述的对象级特征表达，其大小也设置为4,096。对于问题嵌入，采用预先训练的300维Word2Vec模型。问题由嵌入层转换，嵌入层实际上是一个矩阵，包含词汇表中所有单词的向量表示，并由Word2Vec初始化。至于在词汇表中找不到的单词，本发明根据其他现有的单词嵌入来给出一个特定的平均嵌入来表示它们。LSTM_q的隐藏状态大小设置为300，与单词嵌入的维度相匹配。本发明使用Doc2Vec来获取相关的知识特征，其大小也设置为300。

本发明使用mini-batch随机梯度下降来优化模型，默认学习率为0.001。由于原始问题之间的长度不同，将独热码都填充到30的大小，这也是数据集中问题的最大长度。同时，利用early stopping机制使所有模型的训练轮数不超过100轮。模型的损失函数定义如下：

损失函数第一部分是交叉熵的对数损失，其中N是批量大小，K是答案的长度(对于YouTube-QA和Video-QA数据集，K＝1)，M是候选答案集的大小，y_i，j，k是真实答案(二进制值)，p_i，j，k是生成答案的概率。第二部分是最小二乘的L2正则化，其中Ω表示模型的参数，λ是超参数，它控制正则化的重要性。正则化项用于防止模型过度拟合。选择在验证集上实现最佳性能的参数和超参数来进行测试评估。

下面简述评估指标：

本实施方式使用Accuracy和WUPS Score的评估标准评估本发明提出的K-PSTANet方法在开放式视频问答环节中的表现。

Accuracy(准确性)。给定测试问题q∈Q_t和视频v∈V_t与真实答案a，本实施方式用K-PSTANet模型表示预测答案为a′。下面介绍准确度的评估标准：

其中Accuracy＝1(最佳)表示生成的答案和真实答案完全相同，而Accuracy＝0表示相反；K是两个答案的公共长度。由于目前YouTube-QA数据集中的答案只包含一个单词，在实验中将K的值设置为1。对于具有变化长度的更多自由形式答案，K的值将大于1。

WUPS Score(WUPS得分)。该指标的目的是将不同概念的模糊性考虑在内。给定生成的答案A′＝(a′₁，a′₂，...)和真实答案A＝(a₁，a₂，...)，其中a′_i是生成的答案的第i个token，a_i是真实答案的第i个token，阈值为γ的WUPS Score定义如下：

其中阈值为γ的WUP Score定义如下：

其中WUP Score是Wu-Palmer相似度，它是一种句子的词级相似性度量。

下面展示模型效果：

使用Accuracy和WUPS Score评估三个基线模型和在YouTube-QA数据集上提出的K-PSTANet的性能。为得到更有说服力的结果，本实施方式还在Video-QA数据集上评估了本发明的方法。由于原始Video-QA论文中没有WUPS Score的评估，本发明仅对比模型在此数据集上的Accuracy指标。

表3 YouTube-QA数据集实验结果

表4 Video-QA数据集实验结果

下面给出对比的r-ANL模型出自的文献：

文献4：Yunan Ye，Zhou Zhao，Yimeng Li，Long Chen，Jun Xiao，and YuetingZhuang.2017.Video question answering via attribute-augmented attentionnetwork learning.In Proceedings of the 40th International ACM SIGIRConference on Research and Development in Information Retrieval.ACM，829-832.

表3显示了基于YouTube-QA数据集的不同类型问题的总体实验结果。如表所示，本发明的方法(K-PSTANet)在Accuracy和WUPS Score两个指标上均比其他基线模型有更好的表现，这表明了本发明有效性。此外，还展示了每个问题类型的Accuracy指标的细节，本发明在“what”，“who”和“when”类型中Accuracy指标是所有参与比较的模型中得分最高的，但在其他两类问题上的性能略低。但是，“what”和“who”类型的问题数量在数据集中占比很高，其他三类问题的问答对非常有限，通常不足以反映本发明模型的表现。表4显示了Video-QA数据集的实验结果。本发明的方法在开放式问题和多选择任务上都能达到最佳性能，并且优于提出Video-QA数据集的论文(文献4)中的r-ANL方法。

Claims

1.利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于，包括如下步骤：

S1：针对一段视频，利用Faster-RCNN得到视频对象集；

S4：针对问题，利用嵌入层将输入单词转换为词嵌入向量；

2.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S1具体为：

3.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S2具体为：

4.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S3具体为：

其中f_i ^k表示视频中第i个对象的知识特征，i＝0，1，...E。

5.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S4具体为：

6.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S5具体为：

其中

表示问题的第t个单词所对应LSTM的隐藏状态；

其中W，W_q和W_k是要学习的参数矩阵，b是偏置向量；

表示问题的第t个单词的所对应LSTM隐藏状态，f_i ^k表示视频中第i个对象的知识特征，

表示视频中第i个对象的注意力得分；

其中E是知识特征集fk的长度，

表示视频中第i个对象的注意力分布；

根据问题的第t个单词所对应LSTM的隐藏状态

外部知识表达由下式给出：

其中

表示问题的第t个单词的外部知识表达；

将所述

和

进行连接以生成给定问题的答案。

7.如权利要求6所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法，其特征在于所述步骤S52具体为：

对于一段视频中的每个样本帧，使用预训练的VGG16网络产生全局帧特征V＝(v₁，v₂，...，v_n)，其中v_j代表视频中的第j个样本帧的特征；将全局帧特征V输入到区域提案网络RPN中进行训练，输出RoI提案，计算每一个RoI提案的IoU分数，选择IoU分数高于阈值η的提案并经过RoI池化，然后输入到多层全连接网络中进行对象区域特征提取，得到视频中第j个样本帧的对象级区域表达其中j表示第j个样本帧，