CN110765921B

CN110765921B - 一种基于弱监督学习和视频时空特征的视频物体定位方法

Info

Publication number: CN110765921B
Application number: CN201910994258.0A
Authority: CN
Inventors: 毋立芳; 汪敏贵; 简萌; 李则昱; 陈禹锟; 曲昊翔
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-04-19
Anticipated expiration: 2039-10-18
Also published as: CN110765921A

Abstract

本发明提供了一种基于弱监督学习和视频时空特征的视频物体定位方法。该方法仅以视频段和视频段描述作为输入来定位描述中物体在视频中的位置，解决了现有方法需要大量边框标注的问题。同时本方法引入了候选框的时空关联并设计了一种多特征关系度量网络，解决了度量学习中多模态关系表达问题。该方法先对视频段分帧，用训练好的目标检测网络对每一帧提候选框，再对视频段描述进行实体解析，然后提取候选框和定位物体的特征，并用时空关联捕获模块得到候选框关联，最后将这些特征输入多特征关系度量网络得到候选框与物体的匹配度。该方法旨在减少人工标注成本，提高定位精度，并通过测试验证了方法的可行性，具有重要应用价值。

Description

一种基于弱监督学习和视频时空特征的视频物体定位方法

技术领域

本发明应用于计算机视觉领域，具体涉及目标检测、特征提取、距离度量等计算机视觉与数字图像处理技术。该方法根据输入的视频段和该视频段对应的描述语句，通过候选框提取、实体解析、特征提取、时空关联捕获和多模态特征交互表达等模块得到候选框与被定位物体的匹配度，最终实现视频物体定位。

背景技术

视频物体定位是一项重要的计算机视觉任务，如图1所示，给出一个视频段和对应的视频描述，需要在视频帧中定位出视频描述中提到物体的位置。现有的大部分解决方法都是基于有监督的深度学习策略，这些方法更类似于基于图片的目标检测技术在视频领域的延申。虽然这些方法能取得较好的效果，但需要大量的人工边框标注，在视频领域进行这种稠密的边框标注无疑花费巨大。还有一部分方法基于弱监督深度学习策略来解决这个问题，这些方法将基于图片的多实例学习迁移到视频领域，将物体定位看作一个候选框与物体匹配的问题，仅用视频段对应的视频描述作为监督信号，通过度量学习计算每一个候选框与物体的匹配度(相似度)，最后根据匹配度来选择物体定位匹配的候选框。但是这些方法只考虑了候选框的视觉特征和物体文本特征的匹配，忽略了视频独有的时空特性。如图2所示，视频中的物体在时间和空间上存在很多潜在的关联。如果能将这些时空信息引入，将有效地提高物体定位精度。同时，这些方法采用了传统的度量学习来表达相似度，即将A和B对应的特征向量变换到同一个特征空间，然后计算它们的欧式距离、余弦距离或者点积。然而这种距离度量方法无法解决多特征表达的问题，即当A或者B同时对应多个特征向量表征，A和B的相似度无法直接计算。

综上所述，现有的有监督方法虽然精度较高但是需要大量的边框标注，而现有的弱监督方法忽视了视频的时空特性和候选框多特征情形下的相似度表达，精度较低。

发明内容

为了克服上述现有技术的不足，本发明提出了一种基于弱监督学习和视频时空特征的视频物体定位方法。

本发明所采用的技术方案如图3所示。该方案将视频段和视频段对应的描述语句作为输入，首先对视频描述语句进行实体解析得到被检测的物体文本，然后进行特征提取得到需要定位物体的特征向量。接着对视频段进行分帧，运用训练好的目标检测网络来获取每一帧的候选框，并分别提取候选框的视觉特征、空间特征和时间特征。接下来，通过自注意力机制(self-attention)来捕获不同候选框间的时空关联，然后将多个包含了时空关联的候选框特征和需要定位的物体特征输入多模态关系表达模块，该模块将候选框特征和被定位物体特征作为输入，输出候选框与被定位物体的匹配度。在训练阶段，基于候选框与物体的匹配度设计对应的对网络进行训练，使得物体与其正确的候选框进行匹配。在前向推理时，将每一帧与该物体匹配度最大的候选框作为该物体在这一帧的定位结果。

本方法各主要模块的发明内容如下：

1.视频分帧与候选框提取

视频可以看作是一系列连续帧的集合，这些帧之间存在着很大的信息冗余，所以不需要将视频所有帧都进行训练。本发明对视频帧进行下采样，采用频率为1fps。基于监督学习的视频定位方法有大量的人工边框标注，而在弱监督学习中仅用对应的描述语句作为监督信号，需要采用训练好的目标检测网络来产生候选框。在本发明中采用了基于MSCOCO数据集训练的Faster-RCNN目标检测网络来进行候选框提取，对视频的每一帧取置信度靠前的N个边框作为该帧的候选框。

2.实体解析与文本特征提取

视频对应的文本描述通常是一到两句话，其中会带有在视频中出现的物体，例如“put apple milk in the pan and stir”，这里需要被定位的物体分别是‘apple milk’和‘pan’。实体解析就是要自动的识别出句子中哪些词是实体，从而得到被定位物体的文本表示。如图4所示，该模块首先对语句进行分词，然后对每个单词进行词性分析，最后结合语句的上下文得到语句中表示实体的词。在得到每个被定位物体的文本表示后，就可以根据训练好的词向量字典得到被定位物体的文本特征，本发明中的基础词向量采用了基于Glove和维基百科语料库训练的300维特征，为了方便计算，本发明在得到物体文本的基本特征后又将这些物体文本特征通过性线性变换统一到D维的特征空间。

3.候选框特征提取

候选框表示视频某一帧的一块矩形区域，候选框特征提取就是对这块区域进行表征，现有的方法通常只用视觉特征来表征该区域，然而在视频中，该区域所在的空间位置，该区域所在帧的顺序都可以极大地增强该区域的辨别度。在此，本发明不仅提取候选框对应的视觉特征，还引入其对应的空间和时间特征。具体方式如下：

关于视觉特征，本发明采用现在主流的特征提取方法，即基于训练好的Faster-RCNN目标检测网络，将每个候选框进行感兴趣区域池化后的结果作为候选框对应的视觉特征。

关于空间特征，每一个候选框都有对应边框坐标(x₁,y₁,x₂,y₂),其中x₁,y₁,x₂,y₂分别是边框左上和右下角未归一化的坐标值；根据视频帧的高度H和宽度W对其进行归一化，用归一化坐标(x₁/W,y₁/H,x₂/W,y₂/H)统一表示候选框的空间位置；

关于时间特征，将视频分解为T帧的集合，t是每一帧的顺序索引，那么每一帧归一化的时间顺序为t/T；在同一帧的候选框拥有相同的时间顺序，因此可以将每一帧的时间顺序作为该帧中所有候选框的时间特征。

在最后，为了方便计算，本发明将候选框的视觉特征、空间特征、时间特征通过线性变换统一到D维特征空间。

4.时空关联捕获

不同于孤立的图片，在视频帧中是存在着时空关联的。例如，在视频中出现液体总会伴随着容器，出现切炒等动作时总会出现对应的工具。现有的方法独立的计算每个候选框与物体的匹配度，并没有考虑不同候选框的潜在关联。本发明通过专门的模块捕获这些潜在的物体关联，来丰富候选框的特征，使得物体的定位更加精准。

在本发明中，将基于自注意力机制来捕获这种潜在的时空关联。具体的，空间关联指在同一帧中的候选框的关系，时间关联指在不同帧间的关系。给定一个视频段R,将其看作是一个T帧的集合，对每一帧提取N个候选框，将一个候选框的特征记为r，那么可以得到一个视频段的候选框特征为集合

其中t为帧的索引，n为每一帧候选框的索引。它们空间关联的表达方式如下：

其中Trans表示矩阵转置，D为特征向量的维度，softmax是归一化函数，attention表示捕获特征

的关联。通过这种方式计算得到新特征与原来的特征拥有相同的维度，因为每一个新特征都是由同一帧的所有特征加权表示，所以每个新的候选框特征都隐含了其他候选框的关联。对于同一帧的每个候选框它们的时间特征是一样的，因此将同一帧的候选框特征进行最大值池化，就可以得到得到帧级别特征

其中f表示对同一帧所有候选框特征进行最大值池化得到的新特征，每一帧对应一个，T表示帧的总数，t表示帧的索引。它们的时间关联表达方式如下：

的关联。同样的，通过这种方式计算得到的新特征包含了不同帧之间的隐含联系。

5.多模态特征交互表达

现有的方法都是基于候选框的视觉特征和被定位物体的文本特征来得到候选框与物体的匹配度，常见的方式有计算这两个特征的欧式距离、余弦距离内积等。然而，当候选框同时存在视觉特征、空间特征和时间特征三种不同的表征时，现有的方法不再能直接计算出候选框与物体之间的匹配度(相似度)。为了解决这个问题，本发明设计了多模态特征关系表达模块来度量多特征情形下的候选框和物体的匹配度。如图5所示，该模块将候选框的视觉特征、空间特征、时间特征和物体的文本特征作为输入，输出该候选框和物体的匹配度得分。首先，分别将候选框的各个特征与物体特征逐点相乘得到视觉-文本、空间-文本、时间-文本的交互，再将这些特征向量拼接在一起得到一个联合特征向量记作v，并将其输入一个两层的全连接网络，最后得到候选框与物体的关联得分记为s，计算方式为：

s＝tanh(W₂tanh(W₁v))，

其中W₁、W₂分别是全连接网络第一和第二层的权重，先按正态分布随机初始化，随着网络训练不断更新，直到网络损失收敛。tanh是全连接网络的激活函数，v是候选框与被定位物体所有特征进行拼接得到的特征向量。

6.网络训练

本发明基于弱监督学习来解决视频物体定位问题，并将该问题转化为候选框与被定位物体的匹配问题，监督信号为与视频对应的文本描述。首先，将一个视频段包含的所有候选框定义为一个‘包’，如果这个‘包’至少有一个候选框与文本中被定位物体匹配，那么这个‘包’被视为正包，否则视为负包。显然，当一个‘包’包含被定位物体的候选框(正包)，那么该物体与其中候选框的匹配度应该大于不包含该物体的包(负包)。

具体地，定义一个视频段为R，该视频段对应描述为Q，其中视频R包含T帧，每一帧包含N个候选框，记一个候选框为b，则一个视频段的候选框集合为

其中t为帧的索引，n为每一帧候选框的索引；假设视频描述Q包含K个需要定位的物体，记需定位物体为q，则需要定位的物体集合为

其中k表示需定位物体的索引；根据多模态特征交互表达模块得到一个候选框

和一个物体q_k的匹配度，记为

那么将视频段R与视频描述Q的匹配度定义为：

其中max是取最大值的函数；定义视频段R′和视频描述Q′是不同于Q、R的另一对视频-描述对，根据正负包定义有(Q，R)是正包，(Q′，R)、(Q，R′)是负包；那么理论上要有S(Q,R)＞S(Q′,R)和S(Q,R)＞S(Q,R′)，于是损失函数被定义为：

L_rank＝relu(S(Q,R′)-S(Q,R)+Δ)+relu(S(Q′,R)-S(Q,R)+Δ),

其中Δ表示正负包匹配度的最小差异间隔，relu是修正线性单元函数。该损失函数使得正包的匹配度要大于负包的匹配度，促进候选框与被定位物体进行正确的匹配，即使得物体与正确候选框匹配度变大。进行前向推理时，将每一帧与被定位物体匹配度最大的候选框作为该物体的定位结果。

附图说明

图1视频物体定位任务示意图；

图2视频物体定位存在时空关联特性示意图；

图3本方案的总体框架；

图4实体解析与文本特征提取流程；

图5多模态特征关系表达框架；

图6与现有方法在YouCookII数据集上的结果对比；

图7在YouCookII数据集上定位结果示例；

具体实施方式

本发明提出了一种基于弱监督学和视频时空特征的视频物体定位方法。下面结合在YouCookII数据集上的具体实现，对该发明进一步说明。

1.数据需求与处理

根据视频物体定位任务的要求，该方法需要大量带有文本级标注的视频片段。如视频段1-描述1，视频段2-描述2......每一个视频描述提到的物体至少要在视频中出现一次。YouCookII数据集就是满足该条件的视频物体定位数据集。该数据集是一个大规模的视频数据集，有2000个来源于Youtube的烹饪视频，包含89种不同的菜品类别。每一个烹饪视频由3到15个步骤组成，每一个步骤都有精确的时间标注和对应的语句描述。为了对视频物体定位结果进行评测，该数据集还在测试集进行了额外的边框标注，包含67类不同的物体，用于评价定位方法的性能。在此本发明将基于YouCookII数据集进行实现。

首先，根据该数据集的步骤标注将该数据集的视频分成一个一个的视频片段，每一个视频片段对应一段文本描述。该数据集共包含约15000个视频片段，其中约10000个无边框标注的视频段将用于训练，剩下约5000个带边框标注的用于测试。为了去除数据冗余，本发明将视频段进行分帧，并以1fps的频率进行下采样。

2.候选框提取与特征表达

首先，将分好帧的视频段看作是一个T帧的集合，本发明将用预训练好的Faster-RCNN网络进行候选框的提取。该网络的backbone为ResNet-101，基于MSCOCO数据集进行训练，并达到了38.5％的mAP。本发明将该网络第一阶段输出的前景框按置信度进行排序，取前20个作为每一帧的候选框，同时将该网络进行感兴趣区域池化后输出的2048维特征作为对应候选框的视觉特征。然后，根据候选框的坐标和所在帧的索引分别提取候选框对应的空间和时间特征。在得到候选框的视觉、空间、时间特征后，通过线性变换将它们统一编码到512维的特征空间。

在该数据集中文本最大长度为40个词，不同类别的被定位物体为67类。针对视频段的文本描述，先去除其中的特殊字符如数字、下划线等，然后对文本进行分词和实体分析，得到需要被定位的命名实体。根据物体对应的命名实体和基于Glove和维基百科预料训练的300维词向量库，就可以得到需要被定位物体的文本特征表示。为了方便计算，本发明通过线性变换将这些物体的300维文本特征统一编码到512维的特征空间。

3.时空关联捕获与匹配度计算

每一个候选框都有视觉、时间、空间三个特征，其中同一帧的候选框具有相同的时间特征，不同帧的候选框可能有接近的空间特征，所以本发明只捕获时间特征的时间关联，空间特征的空间关联。对于视觉特征分别捕获其时间和空间关联，并将视觉-时间和视觉-空间特征进行相加取均值得到新的视觉特征。将候选框经过时空关联捕获的新视觉、时间、空间特征和被定位物体的文本特征一起输入多特征关系表达模块计算每一个候选框与每一个被定位物体的相似度。

4.模型训练与测试结果对比

本发明基于Pytorch深度学习框架，在Linux系统中运行，采用GPU进行运算，将制作好的数据集和提好的特征放入网络进行训练，一般迭代约30-50个epoch即可收敛到较好的精度。在本发明中网络优化器常用的有SGD和Adam，学习率常用取值范围在0.00001-0.1之间，每一帧候选框数量一般在10-100之间，参数Δ取值在0-0.5之间，特征编码维度常用的有128、512、1024、2048等。经过反复的试验和测试，在该数据集上，本发明采用adam优化器，学习率设置为0.0001，取每一帧候选框数量N＝20，统一编码维度D＝512，Δ＝0.2时可以达到最好的效果。

本发明在在该数据集上，与现有的弱监督方法进行了对比，结果如图6所示，可以看到本发明在所有定位精度评价指标上都有极大的提高。图7是定位结果示例。

Claims

1.一种基于弱监督学习和视频时空特征的视频物体定位方法，其特征在于：

1)视频分帧与候选框提取

对视频帧进行下采样，采用频率为1fps；在弱监督学习中仅用对应的描述语句作为监督信号，采用了基于MSCOCO数据集训练的Faster-RCNN目标检测网络来进行候选框提取，对视频的每一帧取置信度靠前5％-10％的N个边框作为该帧的候选框；

2)实体解析与文本特征提取

视频对应的文本描述通常是一到两句话，其中会带有在视频中出现的物体，自动的识别出句子中哪些词是实体，从而得到被定位物体的文本表示；首先对语句进行分词，然后对每个单词进行词性分析，最后结合语句的上下文得到语句中表示实体的词；在得到每个被定位物体的文本表示后，就根据训练好的词向量字典得到被定位物体的文本特征，将这些物体文本特征通过线性变换统一到D维的特征空间；

3)候选框特征提取

候选框表示视频某一帧的一块矩形区域，候选框特征提取就是对这块区域进行表征，具体方式如下：

关于视觉特征，基于训练好的Faster-RCNN目标检测网络，将每个候选框进行感兴趣区域池化后的结果作为候选框对应的视觉特征；

关于时间特征，将视频分解为T帧的集合，t是每一帧的顺序索引，那么每一帧归一化的时间顺序为t/T；在同一帧的候选框拥有相同的时间顺序，因此可以将每一帧的时间顺序作为该帧中所有候选框的时间特征；

最后将候选框的视觉特征、空间特征、时间特征通过线性变换统一到D维特征空间；

4)时空关联捕获

将基于自注意力机制来捕获这种潜在的时空关联；空间关联指在同一帧中的候选框的关系，时间关联指在不同帧间的关系；

给定一个视频段R,将其看作是一个T帧的集合，对每一帧提取N个候选框，将一个候选框的特征记为r，得到一个视频段的候选框特征为集合

其中t为帧的索引，n为每一帧候选框的索引；它们空间关联的表达方式如下：

的关联；通过这种方式计算得到新特征与原来的特征拥有相同的维度，因为每一个新特征都是由同一帧的所有特征加权表示，所以每个新的候选框特征都隐含了其他候选框的关联；对于同一帧的每个候选框它们的时间特征是一样的，因此将同一帧的候选框特征进行最大值池化，就得到帧级别特征

其中f表示对同一帧所有候选框特征进行最大值池化得到的新特征，T表示帧的总数，t表示帧的索引；它们的时间关联表达方式如下：

其中Trans表示矩阵转置，D为特征向量的维度，softmax是归一化函数，attention表示捕获特征{f^t}的关联；

5)多模态特征交互表达

将候选框的视觉特征、空间特征、时间特征和物体的文本特征作为输入，输出该候选框和物体的匹配度得分；首先，分别将候选框的各个特征与物体的文本特征逐点相乘得到视觉-文本、空间-文本、时间-文本的交互，再将这些特征向量拼接在一起得到一个联合特征向量记作v，并将其输入一个两层的全连接网络，最后得到候选框与物体的关联得分记为s，计算方式为：

s＝tanh(W₂tanh(W₁v))，

其中W₁、W₂分别是全连接网络第一和第二层的权重，tanh是全连接网络的激活函数，v是候选框与被定位物体所有特征进行拼接得到的特征向量；

6)网络训练

首先，将一个视频段包含的所有候选框定义为一个‘包’，如果这个‘包’至少有一个候选框与文本中被定位物体匹配，那么这个‘包’被视为正包，否则视为负包；显然，当一个‘包’包含被定位物体的候选框即正包，那么该物体与其中候选框的匹配度应该大于不包含该物体的包即负包；

和一个物体q_k的匹配度，记为

那么将视频段R与视频描述Q的匹配度定义为：

其中max是取最大值的函数；定义视频段R′和视频描述Q′是不同于Q、R的另一对视频-描述对，根据正负包定义有(Q，R)是正包，(Q′，R)、(Q，R′)是负包；那么理论上要有S(Q,R)>S(Q′,R)和S(Q,R)>S(Q,R′)，于是损失函数被定义为：

L_rank＝relu(S(Q,R′)-S(Q,R)+Δ)+relu(S(Q′,R)-S(Q,R)+Δ),

其中Δ表示正负包匹配度的最小差异间隔，relu是修正线性单元函数；该损失函数使得正包的匹配度要大于负包的匹配度，促进候选框与被定位物体进行正确的匹配，即使得物体与正确候选框匹配度变大；进行前向推理时，将每一帧与被定位物体匹配度最大的候选框作为该物体的定位结果。