CN110390289A

CN110390289A - 基于指称理解的视频安防检测方法

Info

Publication number: CN110390289A
Application number: CN201910647022.XA
Authority: CN
Inventors: 刘纯平; 高友明; 陈宁强; 徐云龙; 季怡
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-29

Abstract

本发明公开了一种基于指称理解的视频安防检测方法，其特征在于，包括以下步骤：获取待处理的视频中的图像帧数据及待检测目标的指称数据；由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成指称理解系统；对图像帧数据采用实例分割模型检测出候选目标，获得一个或多个候选目标区域；对指称数据采用语言注意力模块处理，分别映射获得视觉主语表达、位置表达和关系表达，并确定各表达的权重；分别用基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块进行相似度匹配打分，利用加权方式融合得到相似度得分，得分最高的区域判断为目标区域。本发明用于视频安防检测，提高了目标检测的准确性，尤其适用于具有多人物视频图像的识别。

Description

基于指称理解的视频安防检测方法

技术领域

本发明涉及一种目标检测方法，具体涉及一种根据指称检测图像中的特定目标的方法。

背景技术

随着视频获取和处理技术的迅速发展，利用摄像头进行监控，实现入侵报警、安防监控、犯罪嫌疑人筛查的方案被广泛利用。而利用设置在大街小巷的大量摄像头组成监控网络，构成天网监控系统，也成为公安机关打击街面犯罪的一项法宝。由于视频信息流量极大，如何在大量视频信息中实现自动化的目标检测，对于安防监控的效率有着重大的影响。

指称是对图像中特定目标的自然语言描述，而指称理解就是在图像中检测出与给定的指称相对应的目标。近年来，传统的目标检测在卷积神经网络（CNN）的帮助下取得了很大的进展。然而在自然的场景中，人们通常使用指称来描述目标而不是定义好的目标类别。因为指称包括类别、属性、空间位置以及与其他对象的关系等不同的短语，所以目前指称理解任务仍是一个巨大的挑战。随着人机交互以及自然语言目标检测等应用需求的发展，指称理解在计算机视觉领域、机器人研究领域具有重要的研究意义。

现有典型的指称理解研究基于图像与自然语言两者的编码，将其视作为目标边界盒定位。研究方法主要可以分为基于训练好的生成模型和基于联合视觉-语言共同特征空间框架两类。基于训练好的生成模型的研究方法主要是基于CNN-LSTM框架，在给定指称前提下，从候选区域集合中利用后验概率最大原则选择一个与指称匹配度最高的区域。例如，Mao等人使用CNN-LSTM框架来度量图像中每一个候选目标与指称的相似度，并选择相似度最高的候选目标作为检测到的目标。Hu等人提出的空间上下文循环卷积神经网络（SpatialContext Recurrent ConvNet），不仅利用了候选目标的局部特征，还融合了图像全局特征和语言特征。Yu等人基于Mao的模型，更进一步考虑了候选目标的视觉和位置差异，使得生成的描述更加具有差异性。Nagaraja等人则以Mao的模型为基础，加入了目标的上下文信息。他们将检测分成了两步，首先利用上下文检测出相关目标，然后结合相关目标确定最后的目标。

基于视觉语言联合嵌入框架的研究方法将视觉特征和语言特征分别转换到同一个嵌入空间中，然后通过两者之间的距离计算相似度，选择相似度最高的作为检测到的目标。Wang等人使用双分支多层感知机学习视觉特征和语言特征的联合嵌入来计算两种特征之间的相似度。Hu等人提出通过注意力机制提取视觉特征重建指称，从而进行指称理解。优点就是可以灵活的选择是无监督，半监督还是监督训练。Liu等人则通过引入目标的属性信息来增强视觉特征的表达。Hu等人提出Speaker-Listener-Reinforcer模型联合学习指称理解和指称生成。Hu建立了图像中目标实体、实体之间的关系与指称中单词的对应关系来分别计算相似度。Yu等人综合了Hu、Liu、Wang等人各方法的优点，提出了模块注意力网络。

上述方法主要存在两个问题：

1、准确率：已存在的方法对于存在多个相似目标的图像，检测结果仍不能达到满意的效果。例如一张图像中存在多个人，而这些人具有穿红色衣服、金黄色的头发、带黑框眼镜等不同的属性特征。目前的方法对于这些细小的特征还不够敏感，导致目标检测不准确。

2、相关目标视觉表达不充分。现有的几种方法都考虑到了相关目标对于目标检测结果具有很大的影响。但是这些方法对于相关目标的利用还都停留在局部视觉特征或坐标特征上。而这些不充分的视觉表达并没有对目标的检测提供很好的辅助作用。

因此，当用于视频安防系统中的目标检测，尤其是犯罪嫌疑人检测时，需要对检测方法进行改进，以提高目标检测的准确性。

发明内容

本发明的发明目的是提供一种基于指称理解的视频安防检测方法，通过协同注意力和视觉上下文的结合，解决指称理解精度和相关目标视觉表达不充分的问题，以提高对视频安防系统中的目标检测的准确性。

为达到上述发明目的，本发明采用的技术方案是：一种基于指称理解的视频安防检测方法，包括以下步骤：

(1) 获取待处理的视频中的图像帧数据；

(2) 获取待检测目标的指称数据；

(3) 构建指称理解系统，所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成；

(4) 对步骤(1)中的图像帧数据采用实例分割模型（Mask R-CNN）检测出候选目标，获得一个或多个候选目标区域；对步骤(2)中的指称数据采用语言注意力模块处理，分别映射获得视觉主语表达、位置表达和关系表达，并确定各表达的权重；

(5) 将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块，进行相似度匹配打分，利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分，当多个候选目标区域中相似度得分最高的区域得分大于设定域值时，将该候选目标区域判断为目标区域。

上述技术方案中，所述语言注意力模块采用GloVe模型编码生成词向量，利用双向LSTM网络编码整个指称的表示；然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力，并将词向量的加权和作为模块的语言表达。

上述技术方案中，利用Mask R-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述；主语模块通过语言表达引导空间注意力得到候选目标的视觉表达；在位置模块中，坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得；关系模块中的相关目标特征采用平均池化后的C4特征，并选取与目标距离最近的5个相关目标构成它们的相对位置表示；随后将C4和相对位置表示融合构成每个相关目标的视觉表达。

对视觉主语的处理包括以下步骤：

步骤1：利用GloVe编码指称获得词向量，式中，u为一个单词的词向量，t为单词句子中顺序，l为词向量起始单词顺序为1，并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达；

步骤2：利用Mask R-CNN模型提取ROI区域图像，采用与MAtttNet相同的方式生成视觉特征V，随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力，最后将注意力与V进行加权和得到属性增强的视觉表达；

步骤3：使用属性增强视觉表达再次引导语言对属性的语言注意力，并获得属性增强的指称表达；

步骤4：最后将和送入匹配函数计算相似度，匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间，随后计算它们的内积作为相似度得分。

基于视觉上下文的关系模块的处理方法为，

模块中视觉上下文的提取是目标区域和候选目标区域，利用各自原始视觉特征V之差获得，目标区域和相关目标区域5-d位置向量为，其中（x1,y1）,（x2,y2）分别为目标区域的左上、右下坐标，wh,WH分别为目标区域和图像宽高，位置上下文则是目标5-d位置向量l _i和相关目标5-d位置向量l _j之差及它们面积比率，即；在视觉特征和视觉上下文特征融合，位置特征和位置上下文特征融合基础上，再次将它们融合得到相关目标的视觉表达，最后将指称表达与视觉表达送入匹配函数进行匹配打分，并选择最高的分数作为关系模块的相似度分数计入总分，N为候选目标区域的个数。

优选地，所述匹配函数为多层感知机和L2正则化层的组合。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1、本发明提出了一种协同注意力与视觉上下文相结合的指称理解方法，用于视频安防检测，提高了目标检测的准确性，尤其适用于具有多人物视频图像的识别；

2、本发明改变了MAttNet模型中指称的词向量生成方法，基于GloVe词向量方法生成指称的表达，利用共现描述增强指称中单词的区分性；

3、本发明通过协同注意力机制联合引导视觉和语言的注意力，增强主语模块对目标属性信息的关注，从而准确分辨图像中的相似目标；

4、与现有技术中通常基于局部特征或全局特征构建关系模块不同，本发明通过在关系模块中引入视觉上下文，加强目标与相关目标的潜在联系，获得更好的关系模块视觉表达，从而使相关目标定位更准确。

附图说明

图1是本发明实施例的方法的整体框架图；

图2是实施例中具体的模型框架图；

图3是图1中基于协同注意力的主语模块的具体框架图；

图4是图1中基于视觉上下文关系模块的具体框架图；

图5是实施例中相对增长率对比图；

图6是引入协同注意力模型前后的预测结果、语言注意力和视觉注意力对比图；

图7是引入视觉上下文模型前后的预测结果对比图；

图8是实施例中的全模型预测样例图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：本发明在给出基于协同注意力与视觉上下文的指称理解算法的基础上，实现了视频安防的目标检测。

该方法的整体框架如图1 所示，以MAttNet模型为基本架构，由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成的。在语言注意力模块中，选择GloVe代替one hot编码来生成词向量，该模块的整个流程如图2所示。位置模块保留了MAttNet模型的经典结构。主语模块使用协同注意力机制来增强模块对属性信息的关注，该模块具体的结构如图3所示。关系模块则通过引入视觉上下文挖掘候选目标与相关目标的潜在联系来提高关系模块的视觉表达，具体结构如图4所示。

参见附图2，输入一张图像和一句指称，图像经Mask R-CNN检测出候选目标，指称则被语言注意力网络分别映射为视觉主语、位置和关系相应模块的语言表达和模块的权重。随后分别对三个视觉模块的视觉表达和语言表达进行匹配打分。最后，利用加权方式融合3个模块的分数得到一个测量候选目标和指称间的相似性的全局匹配得分。

对于给定的指称，语言注意网络首先使用GloVe 编码将指称中的每个单词转换为词向量，并利用双向LSTM网络编码整个指称的表示；然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力，并将词向量的加权和作为模块的语言表达。

在视觉模型中，利用Mask R-CNN提取网络中包含颜色、形状等低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述。主语模块通过语言表达引导空间注意力得到候选目标的视觉表达。在位置模块中，坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合而来。关系模块中的相关目标特征采用平均池化后的C4特征，并选取与目标距离最近的5个相关目标构成它们的相对位置表示。随后将C4和相对位置表示融合构成每个相关目标的视觉表达。

基于协同注意力的主语模块：

属性经常被指称用于区别同类目标。以图1中的三个人为例，如果仅通过相关目标“skateboard”最多仅能排除一个人，而通过属性“blurry”一词就能够立刻确定目标。因此引入协同注意力机制来加强对候选目标属性特征的关注。首先通过带单词注意力的短语表达引导目标视觉特征V，获得属性增强的视觉特征表示；然后再利用属性增强的视觉特征引导原始指称E，获得属性增强指称表示，最后通过匹配函数获得主语模块的相似度得分，该模块的整体结构如图3所示。实现该模块分为以下步骤：

步骤1：利用GloVe编码指称获得词向量，并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达；

步骤2：利用Mask R-CNN模型提取ROI区域图像，采用与MAtttNet相同的方式生成视觉特征V。随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力。最后将注意力与V进行加权和得到属性增强的视觉表达；

步骤4：最后将和送入匹配函数计算相似度。匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间，随后计算它们的内积作为相似度得分。

上述步骤可以表达为以下算法：

算法1 基于协同注意力的主语模块

。

基于视觉上下文的关系模块：

上下文对于视觉表达的研究由来以久，之前大部分的方法都是把全局图像或者局部图像提取的高层语义特征（resnet101提取的pool5特征或fc7特征）作为上下文输入，这使得模型在计算过程中要么考虑全局信息，要么局部的单一目标的信息，从而忽略了一张图像中不同目标之间的潜在联系。为此，本发明提取候选目标与相关目标的视觉特征差异作为视觉上下文来增强候选目标与相关目标之间关系表达，图4给出了关系模块框架图。

q ^rel是语言注意力模块的提取的与关系模块对应的语言表达，v _i和v _j分别代表候选目标区域ROI _i和相关目标区域ROI _j，j=1,…,N提取的高层与语义特征。l _i和l _j则分别代表候选目标区域和相关目标区域的位置特征，其位置特征为5d向量，（x1,y1）,（x2,y2）分别为区域的左上角、右下角坐标，wh,WH分别为区域和整张图像的宽高。

随后视觉上下文是由视觉特征v _i和v _j之差获得（即特征值相减）。位置上下文则是目标5-d位置向量l _i和相关目标5-d位置向量l _j之差及它们面积比率，即。在视觉特征和视觉上下文特征融合（concat融合策略，即将两个特征对应维度的特征值首尾相接拼接在一起，然后再通过全连接层融合到原来的维度），位置特征和位置上下文特征融合基础上，再次将它们融合得到相关目标的视觉表达，最后将指称表达q ^rel与视觉表达送入匹配函数进行匹配打分，并选择最高的分数作为关系模块的相似度分数计入总分。

在以下的测试中，设定N=5。

该模块的具体实现如算法2所示。

算法2 基于视觉上下文的关系模块

。

基于上述方法，为验证效果，使用的数据集是：RefCOCO、RefCOCO+和RefCOCOg。这三个数据集的图像虽都来自MSCOCO，但是指称却采用了不同的方式采集。RefCOCO和RefCOCO+都使用ReferitGame收集而来。RefCOCO指称中的单词没有限制，但位置词偏多。而RefCOCO+的描述禁止使用位置词，所以它的描述是纯粹基于目标的外观的。两个数据集被划分为训练集，验证集，测试集A和测试集B。测试集A主要包含多个人，而测试集B则包含的是多种物体。RefCOCOg是在Amazon Mechanical Turk上通过非交互式的方式收集的。早期RefCOCOg根据数据集的目标随机分为训练集和验证集。由于测试集未公开，所以评估一般是在验证集（val*）上进行。目前大部分的实验则是把数据集内的图像随机分为训练集，验证集和测试集。我们的实验采用的是第二种数据集划分方式。

实验硬件环境：操作系统为Ubuntu 16.04.2，CPU为E5-2620处理器，主频为2.1G，内存为16G， GPU为GeForce GTX 1080 Ti，显存为11G。代码运行环境是：python 2.7，pytorch 0.3.0，cuda 8.0。

1、定量评估

针对本实施例的模型进行消融分析，来分析每个部分的修改对模型的贡献程度。选择MAttNet模型作为基模型（baseline），其中词向量改为用GLOVE编码，候选目标区域图像采用的是MSCOCO的真值框，区域表示则使用res101-mrcn提取。从表1中可以看出，协同注意力(Baseline+co_att)和视觉上下文（Baseline+v_c）在三个数据集上都取得了一定的增长，尤其在RefCOCO+、RefCOCOg效果突出。说明本发明提出的方法确实充分利用了指称中的属性信息和相关目标，改善了基模型的相似目标定位不准确的问题。最后，综合运用协同注意力和视觉上下文（Baseline+v_c+co_att），与它们单独改进的模型相比也取得了一定的提升。这侧面反映了模块化网络优良的容错性。当三个模块中存在一个模块不起作用时，模型依然能够保证较好的完成任务。

表1 基于真值目标的模型不同模块的消融分析

。

通过相对增长率对比图（图5）来分析GloVe对模型的改进效果。每组3根柱状线中，左和中分别代表协同注意力和全模型在使用GloVe前后的相对增长率。它们较高的相对增长率反映了GloVe确实为模型带来了显著提升。而右则代表了在都使用了GloVe后全模型对于协同注意力的相对增长率。灰色的低增长率表明GloVe所改善的词的语义信息主要是被协同注意力机制很好的利用了。

在表2中，展示了由Mask R-CNN自动检测目标的指称理解实验结果。尽管由于目标检测的错误导致整体精度都下降了，但是各个模块的改进效果与表1基本保持一致。这证明本实施例的模型具有很好的鲁棒性。

表2 基于自动检测目标的模型不同模块的消融分析

。

如表3所示，将本实施例的模型与之前的模型在三个数据集上分别进行了比较。没有利用单词与视觉特征的对应关系的模型（一到5行）精度都普遍偏低，而MAttNet（6行）提出的模块化网络则使精度上升了一大截，这使得它成为了当前最优的方法。由于本实施例模型（8行）的特征是由基于res101的Mask R-CNN提取的。为了公平，也用同样的特征重新做了MAttNet模型的实验（7行）。可以看到，本实施例模型的准确率比MAttNet（7行）还平均高了1%。这证明本发明确实解决了MAttNet模型存在的问题，超越了当前最优的模型。

表3 模型与最优模型的准确率对比

。

2、定性分析

为了证明本发明方法的有效性，可视化了一些实验结果在图6、7中。图6展示了基模型和加入了协同显著性的视觉、语言注意力以及模型预测的结果对比。在图6中左侧可以看到，基模型语言注意力多关注于目标本身。当关系模块没有提供很好的辅助作用又存在多个相似目标时，模型就会预测错误。而无论是视觉还是语言方面的特征，协同注意力都很好的关注到了目标的属性信息。

图7展示了基模型和加入了视觉上下文的实验结果对比。白色实线包围盒展示的是模型预测结果，白色椭圆是相关目标。黑色实线包围盒是真值目标，白色虚线的则为模型预测的错误结果。以第一行第一组结果为例，指称为“man on yellow bike”。基模型没有充分的提取到关系模块的视觉表达，所以把绿色的摩托预测为了相关目标。而加入了视觉上下文的关系模块提取了相关目标与目标的联系，增强了视觉表达，从而准确的定位了相关目标。

图8中还展示了完整模型的预测结果样例。无论是属性信息还是相关目标，本发明的模型都很好的利用它们预测出了正确目标。

Claims

1.一种基于指称理解的视频安防检测方法，其特征在于，包括以下步骤：

(1) 获取待处理的视频中的图像帧数据；

(2) 获取待检测目标的指称数据；

2.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：所述语言注意力模块采用GloVe模型编码生成词向量，利用双向LSTM网络编码整个指称的表示；然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力，并将词向量的加权和作为模块的语言表达。

3.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：利用MaskR-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述；主语模块通过语言表达引导空间注意力得到候选目标的视觉表达；在位置模块中，坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得；关系模块中的相关目标特征采用平均池化后的C4特征，并选取与目标距离最近的5个相关目标构成它们的相对位置表示；随后将C4和相对位置表示融合构成每个相关目标的视觉表达。

4.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：对视觉主语的处理包括以下步骤：

5.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：基于视觉上下文的关系模块的处理方法为，

6.根据权利要求5所述的基于指称理解的视频安防检测方法，其特征在于：所述匹配函数为多层感知机和L2正则化层的组合。