CN110390289A - 基于指称理解的视频安防检测方法 - Google Patents
基于指称理解的视频安防检测方法 Download PDFInfo
- Publication number
- CN110390289A CN110390289A CN201910647022.XA CN201910647022A CN110390289A CN 110390289 A CN110390289 A CN 110390289A CN 201910647022 A CN201910647022 A CN 201910647022A CN 110390289 A CN110390289 A CN 110390289A
- Authority
- CN
- China
- Prior art keywords
- module
- expression
- attention
- target
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 55
- 230000000007 visual effect Effects 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 24
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于指称理解的视频安防检测方法,其特征在于,包括以下步骤:获取待处理的视频中的图像帧数据及待检测目标的指称数据;由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成指称理解系统;对图像帧数据采用实例分割模型检测出候选目标,获得一个或多个候选目标区域;对指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;分别用基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块进行相似度匹配打分,利用加权方式融合得到相似度得分,得分最高的区域判断为目标区域。本发明用于视频安防检测,提高了目标检测的准确性,尤其适用于具有多人物视频图像的识别。
Description
技术领域
本发明涉及一种目标检测方法,具体涉及一种根据指称检测图像中的特定目标的方法。
背景技术
随着视频获取和处理技术的迅速发展,利用摄像头进行监控,实现入侵报警、安防监控、犯罪嫌疑人筛查的方案被广泛利用。而利用设置在大街小巷的大量摄像头组成监控网络,构成天网监控系统,也成为公安机关打击街面犯罪的一项法宝。由于视频信息流量极大,如何在大量视频信息中实现自动化的目标检测,对于安防监控的效率有着重大的影响。
指称是对图像中特定目标的自然语言描述,而指称理解就是在图像中检测出与给定的指称相对应的目标。近年来,传统的目标检测在卷积神经网络(CNN)的帮助下取得了很大的进展。然而在自然的场景中,人们通常使用指称来描述目标而不是定义好的目标类别。因为指称包括类别、属性、空间位置以及与其他对象的关系等不同的短语,所以目前指称理解任务仍是一个巨大的挑战。随着人机交互以及自然语言目标检测等应用需求的发展,指称理解在计算机视觉领域、机器人研究领域具有重要的研究意义。
现有典型的指称理解研究基于图像与自然语言两者的编码,将其视作为目标边界盒定位。研究方法主要可以分为基于训练好的生成模型和基于联合视觉-语言共同特征空间框架两类。基于训练好的生成模型的研究方法主要是基于CNN-LSTM框架,在给定指称前提下,从候选区域集合中利用后验概率最大原则选择一个与指称匹配度最高的区域。例如,Mao等人使用CNN-LSTM框架来度量图像中每一个候选目标与指称的相似度,并选择相似度最高的候选目标作为检测到的目标。Hu等人提出的空间上下文循环卷积神经网络(SpatialContext Recurrent ConvNet),不仅利用了候选目标的局部特征,还融合了图像全局特征和语言特征。Yu等人基于Mao的模型,更进一步考虑了候选目标的视觉和位置差异,使得生成的描述更加具有差异性。Nagaraja等人则以Mao的模型为基础,加入了目标的上下文信息。他们将检测分成了两步,首先利用上下文检测出相关目标,然后结合相关目标确定最后的目标。
基于视觉语言联合嵌入框架的研究方法将视觉特征和语言特征分别转换到同一个嵌入空间中,然后通过两者之间的距离计算相似度,选择相似度最高的作为检测到的目标。Wang等人使用双分支多层感知机学习视觉特征和语言特征的联合嵌入来计算两种特征之间的相似度。Hu等人提出通过注意力机制提取视觉特征重建指称,从而进行指称理解。优点就是可以灵活的选择是无监督,半监督还是监督训练。Liu等人则通过引入目标的属性信息来增强视觉特征的表达。Hu等人提出Speaker-Listener-Reinforcer模型联合学习指称理解和指称生成。Hu建立了图像中目标实体、实体之间的关系与指称中单词的对应关系来分别计算相似度。Yu等人综合了Hu、Liu、Wang等人各方法的优点,提出了模块注意力网络。
上述方法主要存在两个问题:
1、准确率:已存在的方法对于存在多个相似目标的图像,检测结果仍不能达到满意的效果。例如一张图像中存在多个人,而这些人具有穿红色衣服、金黄色的头发、带黑框眼镜等不同的属性特征。目前的方法对于这些细小的特征还不够敏感,导致目标检测不准确。
2、相关目标视觉表达不充分。现有的几种方法都考虑到了相关目标对于目标检测结果具有很大的影响。但是这些方法对于相关目标的利用还都停留在局部视觉特征或坐标特征上。而这些不充分的视觉表达并没有对目标的检测提供很好的辅助作用。
因此,当用于视频安防系统中的目标检测,尤其是犯罪嫌疑人检测时,需要对检测方法进行改进,以提高目标检测的准确性。
发明内容
本发明的发明目的是提供一种基于指称理解的视频安防检测方法,通过协同注意力和视觉上下文的结合,解决指称理解精度和相关目标视觉表达不充分的问题,以提高对视频安防系统中的目标检测的准确性。
为达到上述发明目的,本发明采用的技术方案是:一种基于指称理解的视频安防检测方法,包括以下步骤:
(1) 获取待处理的视频中的图像帧数据;
(2) 获取待检测目标的指称数据;
(3) 构建指称理解系统,所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成;
(4) 对步骤(1)中的图像帧数据采用实例分割模型(Mask R-CNN)检测出候选目标,获得一个或多个候选目标区域;对步骤(2)中的指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;
(5) 将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块,进行相似度匹配打分,利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分,当多个候选目标区域中相似度得分最高的区域得分大于设定域值时,将该候选目标区域判断为目标区域。
上述技术方案中,所述语言注意力模块采用GloVe模型编码生成词向量,利用双向LSTM网络编码整个指称的表示;然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力,并将词向量的加权和作为模块的语言表达。
上述技术方案中,利用Mask R-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述;主语模块通过语言表达引导空间注意力得到候选目标的视觉表达;在位置模块中,坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得;关系模块中的相关目标特征采用平均池化后的C4特征,并选取与目标距离最近的5个相关目标构成它们的相对位置表示;随后将C4和相对位置表示融合构成每个相关目标的视觉表达。
对视觉主语的处理包括以下步骤:
步骤1:利用GloVe编码指称获得词向量,式中,u为一个单词的词向量,t为单词句子中顺序,l为词向量起始单词顺序为1,并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达;
步骤2:利用Mask R-CNN模型提取ROI区域图像,采用与MAtttNet相同的方式生成视觉特征V,随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力,最后将注意力与V进行加权和得到属性增强的视觉表达;
步骤3:使用属性增强视觉表达再次引导语言对属性的语言注意力,并获得属性增强的指称表达;
步骤4:最后将和送入匹配函数计算相似度,匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间,随后计算它们的内积作为相似度得分。
基于视觉上下文的关系模块的处理方法为,
模块中视觉上下文的提取是目标区域和候选目标区域,利用各自原始视觉特征V之差获得,目标区域和相关目标区域5-d位置向量为,其中(x1,y1),(x2,y2)分别为目标区域的左上、右下坐标,wh,WH分别为目标区域和图像宽高,位置上下文则是目标5-d位置向量l i 和相关目标5-d位置向量l j 之差及它们面积比率,即;在视觉特征和视觉上下文特征融合,位置特征和位置上下文特征融合基础上,再次将它们融合得到相关目标的视觉表达,最后将指称表达与视觉表达送入匹配函数进行匹配打分,并选择最高的分数作为关系模块的相似度分数计入总分,N为候选目标区域的个数。
优选地,所述匹配函数为多层感知机和L2正则化层的组合。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1、本发明提出了一种协同注意力与视觉上下文相结合的指称理解方法,用于视频安防检测,提高了目标检测的准确性,尤其适用于具有多人物视频图像的识别;
2、本发明改变了MAttNet模型中指称的词向量生成方法,基于GloVe词向量方法生成指称的表达,利用共现描述增强指称中单词的区分性;
3、本发明通过协同注意力机制联合引导视觉和语言的注意力,增强主语模块对目标属性信息的关注,从而准确分辨图像中的相似目标;
4、与现有技术中通常基于局部特征或全局特征构建关系模块不同,本发明通过在关系模块中引入视觉上下文,加强目标与相关目标的潜在联系,获得更好的关系模块视觉表达,从而使相关目标定位更准确。
附图说明
图1是本发明实施例的方法的整体框架图;
图2是实施例中具体的模型框架图;
图3是图1中基于协同注意力的主语模块的具体框架图;
图4是图1中基于视觉上下文关系模块的具体框架图;
图5是实施例中相对增长率对比图;
图6是引入协同注意力模型前后的预测结果、语言注意力和视觉注意力对比图;
图7是引入视觉上下文模型前后的预测结果对比图;
图8是实施例中的全模型预测样例图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:本发明在给出基于协同注意力与视觉上下文的指称理解算法的基础上,实现了视频安防的目标检测。
该方法的整体框架如图1 所示,以MAttNet模型为基本架构,由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成的。在语言注意力模块中,选择GloVe代替one hot编码来生成词向量,该模块的整个流程如图2所示。位置模块保留了MAttNet模型的经典结构。主语模块使用协同注意力机制来增强模块对属性信息的关注,该模块具体的结构如图3所示。关系模块则通过引入视觉上下文挖掘候选目标与相关目标的潜在联系来提高关系模块的视觉表达,具体结构如图4所示。
参见附图2,输入一张图像和一句指称,图像经Mask R-CNN检测出候选目标,指称则被语言注意力网络分别映射为视觉主语、位置和关系相应模块的语言表达和模块的权重。随后分别对三个视觉模块的视觉表达和语言表达进行匹配打分。最后,利用加权方式融合3个模块的分数得到一个测量候选目标和指称间的相似性的全局匹配得分。
对于给定的指称,语言注意网络首先使用GloVe 编码将指称中的每个单词转换为词向量,并利用双向LSTM网络编码整个指称的表示;然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力,并将词向量的加权和作为模块的语言表达。
在视觉模型中,利用Mask R-CNN提取网络中包含颜色、形状等低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述。主语模块通过语言表达引导空间注意力得到候选目标的视觉表达。在位置模块中,坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合而来。关系模块中的相关目标特征采用平均池化后的C4特征,并选取与目标距离最近的5个相关目标构成它们的相对位置表示。随后将C4和相对位置表示融合构成每个相关目标的视觉表达。
基于协同注意力的主语模块:
属性经常被指称用于区别同类目标。以图1中的三个人为例,如果仅通过相关目标“skateboard”最多仅能排除一个人,而通过属性“blurry”一词就能够立刻确定目标。因此引入协同注意力机制来加强对候选目标属性特征的关注。首先通过带单词注意力的短语表达引导目标视觉特征V,获得属性增强的视觉特征表示;然后再利用属性增强的视觉特征引导原始指称E,获得属性增强指称表示,最后通过匹配函数获得主语模块的相似度得分,该模块的整体结构如图3所示。实现该模块分为以下步骤:
步骤1:利用GloVe编码指称获得词向量,并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达;
步骤2:利用Mask R-CNN模型提取ROI区域图像,采用与MAtttNet相同的方式生成视觉特征V。随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力。最后将注意力与V进行加权和得到属性增强的视觉表达;
步骤3:使用属性增强视觉表达再次引导语言对属性的语言注意力,并获得属性增强的指称表达;
步骤4:最后将和送入匹配函数计算相似度。匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间,随后计算它们的内积作为相似度得分。
上述步骤可以表达为以下算法:
算法1 基于协同注意力的主语模块
。
基于视觉上下文的关系模块:
上下文对于视觉表达的研究由来以久,之前大部分的方法都是把全局图像或者局部图像提取的高层语义特征(resnet101提取的pool5特征或fc7特征)作为上下文输入,这使得模型在计算过程中要么考虑全局信息,要么局部的单一目标的信息,从而忽略了一张图像中不同目标之间的潜在联系。为此,本发明提取候选目标与相关目标的视觉特征差异作为视觉上下文来增强候选目标与相关目标之间关系表达,图4给出了关系模块框架图。
q rel 是语言注意力模块的提取的与关系模块对应的语言表达,v i 和v j 分别代表候选目标区域ROI i 和相关目标区域ROI j ,j=1,…,N提取的高层与语义特征。l i 和l j 则分别代表候选目标区域和相关目标区域的位置特征,其位置特征为5d向量,(x1,y1),(x2,y2)分别为区域的左上角、右下角坐标,wh,WH分别为区域和整张图像的宽高。
随后视觉上下文是由视觉特征v i 和v j 之差获得(即特征值相减)。位置上下文则是目标5-d位置向量l i 和相关目标5-d位置向量l j 之差及它们面积比率,即。在视觉特征和视觉上下文特征融合(concat融合策略,即将两个特征对应维度的特征值首尾相接拼接在一起,然后再通过全连接层融合到原来的维度),位置特征和位置上下文特征融合基础上,再次将它们融合得到相关目标的视觉表达,最后将指称表达q rel 与视觉表达送入匹配函数进行匹配打分,并选择最高的分数作为关系模块的相似度分数计入总分。
在以下的测试中,设定N=5。
该模块的具体实现如算法2所示。
算法2 基于视觉上下文的关系模块
。
基于上述方法,为验证效果,使用的数据集是:RefCOCO、RefCOCO+和RefCOCOg。这三个数据集的图像虽都来自MSCOCO,但是指称却采用了不同的方式采集。RefCOCO和RefCOCO+都使用ReferitGame收集而来。RefCOCO指称中的单词没有限制,但位置词偏多。而RefCOCO+的描述禁止使用位置词,所以它的描述是纯粹基于目标的外观的。两个数据集被划分为训练集,验证集,测试集A和测试集B。测试集A主要包含多个人,而测试集B则包含的是多种物体。RefCOCOg是在Amazon Mechanical Turk上通过非交互式的方式收集的。早期RefCOCOg根据数据集的目标随机分为训练集和验证集。由于测试集未公开,所以评估一般是在验证集(val*)上进行。目前大部分的实验则是把数据集内的图像随机分为训练集,验证集和测试集。我们的实验采用的是第二种数据集划分方式。
实验硬件环境:操作系统为Ubuntu 16.04.2,CPU为E5-2620处理器,主频为2.1G,内存为16G, GPU为GeForce GTX 1080 Ti,显存为11G。代码运行环境是:python 2.7,pytorch 0.3.0,cuda 8.0。
1、定量评估
针对本实施例的模型进行消融分析,来分析每个部分的修改对模型的贡献程度。选择MAttNet模型作为基模型(baseline),其中词向量改为用GLOVE编码,候选目标区域图像采用的是MSCOCO的真值框,区域表示则使用res101-mrcn提取。从表1中可以看出,协同注意力(Baseline+co_att)和视觉上下文(Baseline+v_c)在三个数据集上都取得了一定的增长,尤其在RefCOCO+、RefCOCOg效果突出。说明本发明提出的方法确实充分利用了指称中的属性信息和相关目标,改善了基模型的相似目标定位不准确的问题。最后,综合运用协同注意力和视觉上下文(Baseline+v_c+co_att),与它们单独改进的模型相比也取得了一定的提升。这侧面反映了模块化网络优良的容错性。当三个模块中存在一个模块不起作用时,模型依然能够保证较好的完成任务。
表1 基于真值目标的模型不同模块的消融分析
。
通过相对增长率对比图(图5)来分析GloVe对模型的改进效果。每组3根柱状线中,左和中分别代表协同注意力和全模型在使用GloVe前后的相对增长率。它们较高的相对增长率反映了GloVe确实为模型带来了显著提升。而右则代表了在都使用了GloVe后全模型对于协同注意力的相对增长率。灰色的低增长率表明GloVe所改善的词的语义信息主要是被协同注意力机制很好的利用了。
在表2中,展示了由Mask R-CNN自动检测目标的指称理解实验结果。尽管由于目标检测的错误导致整体精度都下降了,但是各个模块的改进效果与表1基本保持一致。这证明本实施例的模型具有很好的鲁棒性。
表2 基于自动检测目标的模型不同模块的消融分析
。
如表3所示,将本实施例的模型与之前的模型在三个数据集上分别进行了比较。没有利用单词与视觉特征的对应关系的模型(一到5行)精度都普遍偏低,而MAttNet(6行)提出的模块化网络则使精度上升了一大截,这使得它成为了当前最优的方法。由于本实施例模型(8行)的特征是由基于res101的Mask R-CNN提取的。为了公平,也用同样的特征重新做了MAttNet模型的实验(7行)。可以看到,本实施例模型的准确率比MAttNet(7行)还平均高了1%。这证明本发明确实解决了MAttNet模型存在的问题,超越了当前最优的模型。
表3 模型与最优模型的准确率对比
。
2、定性分析
为了证明本发明方法的有效性,可视化了一些实验结果在图6、7中。图6展示了基模型和加入了协同显著性的视觉、语言注意力以及模型预测的结果对比。在图6中左侧可以看到,基模型语言注意力多关注于目标本身。当关系模块没有提供很好的辅助作用又存在多个相似目标时,模型就会预测错误。而无论是视觉还是语言方面的特征,协同注意力都很好的关注到了目标的属性信息。
图7展示了基模型和加入了视觉上下文的实验结果对比。白色实线包围盒展示的是模型预测结果,白色椭圆是相关目标。黑色实线包围盒是真值目标,白色虚线的则为模型预测的错误结果。以第一行第一组结果为例,指称为“man on yellow bike”。基模型没有充分的提取到关系模块的视觉表达,所以把绿色的摩托预测为了相关目标。而加入了视觉上下文的关系模块提取了相关目标与目标的联系,增强了视觉表达,从而准确的定位了相关目标。
图8中还展示了完整模型的预测结果样例。无论是属性信息还是相关目标,本发明的模型都很好的利用它们预测出了正确目标。
Claims (6)
1.一种基于指称理解的视频安防检测方法,其特征在于,包括以下步骤:
(1) 获取待处理的视频中的图像帧数据;
(2) 获取待检测目标的指称数据;
(3) 构建指称理解系统,所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成;
(4) 对步骤(1)中的图像帧数据采用实例分割模型(Mask R-CNN)检测出候选目标,获得一个或多个候选目标区域;对步骤(2)中的指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;
(5) 将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块,进行相似度匹配打分,利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分,当多个候选目标区域中相似度得分最高的区域得分大于设定域值时,将该候选目标区域判断为目标区域。
2.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:所述语言注意力模块采用GloVe模型编码生成词向量,利用双向LSTM网络编码整个指称的表示;然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力,并将词向量的加权和作为模块的语言表达。
3.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:利用MaskR-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述;主语模块通过语言表达引导空间注意力得到候选目标的视觉表达;在位置模块中,坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得;关系模块中的相关目标特征采用平均池化后的C4特征,并选取与目标距离最近的5个相关目标构成它们的相对位置表示;随后将C4和相对位置表示融合构成每个相关目标的视觉表达。
4.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:对视觉主语的处理包括以下步骤:
步骤1:利用GloVe编码指称获得词向量,式中,u为一个单词的词向量,t为单词句子中顺序,l为词向量起始单词顺序为1,并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达;
步骤2:利用Mask R-CNN模型提取ROI区域图像,采用与MAtttNet相同的方式生成视觉特征V,随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力,最后将注意力与V进行加权和得到属性增强的视觉表达;
步骤3:使用属性增强视觉表达再次引导语言对属性的语言注意力,并获得属性增强的指称表达;
步骤4:最后将和送入匹配函数计算相似度,匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间,随后计算它们的内积作为相似度得分。
5.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:基于视觉上下文的关系模块的处理方法为,
模块中视觉上下文的提取是目标区域和候选目标区域,利用各自原始视觉特征V之差获得,目标区域和相关目标区域5-d位置向量为,其中(x1,y1),(x2,y2)分别为目标区域的左上、右下坐标,wh,WH分别为目标区域和图像宽高,位置上下文则是目标5-d位置向量l i 和相关目标5-d位置向量l j 之差及它们面积比率,即;在视觉特征和视觉上下文特征融合,位置特征和位置上下文特征融合基础上,再次将它们融合得到相关目标的视觉表达,最后将指称表达与视觉表达送入匹配函数进行匹配打分,并选择最高的分数作为关系模块的相似度分数计入总分,N为候选目标区域的个数。
6.根据权利要求5所述的基于指称理解的视频安防检测方法,其特征在于:所述匹配函数为多层感知机和L2正则化层的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647022.XA CN110390289A (zh) | 2019-07-17 | 2019-07-17 | 基于指称理解的视频安防检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647022.XA CN110390289A (zh) | 2019-07-17 | 2019-07-17 | 基于指称理解的视频安防检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110390289A true CN110390289A (zh) | 2019-10-29 |
Family
ID=68284995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910647022.XA Pending CN110390289A (zh) | 2019-07-17 | 2019-07-17 | 基于指称理解的视频安防检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390289A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127513A (zh) * | 2019-12-02 | 2020-05-08 | 北京交通大学 | 一种多目标跟踪方法 |
CN111563532A (zh) * | 2020-04-07 | 2020-08-21 | 西北工业大学 | 一种基于属性权重融合的未知目标识别方法 |
CN112184738A (zh) * | 2020-10-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN112509009A (zh) * | 2020-12-16 | 2021-03-16 | 深圳龙岗智能视听研究院 | 一种基于自然语言信息辅助的目标追踪方法 |
CN112765955A (zh) * | 2021-01-22 | 2021-05-07 | 中国人民公安大学 | 一种中文指代表达下的跨模态实例分割方法 |
CN113298748A (zh) * | 2020-02-21 | 2021-08-24 | 安徽大学 | 一种基于注意力机制的图像协同显著目标检测模型 |
CN114239594A (zh) * | 2021-12-06 | 2022-03-25 | 西北工业大学 | 基于注意力机制的自然语言视觉推理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
-
2019
- 2019-07-17 CN CN201910647022.XA patent/CN110390289A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
Non-Patent Citations (1)
Title |
---|
LICHENG YU等: "MAttNet: Modular Attention Network for Referring Expression Comprehension", 《ARXIV》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127513B (zh) * | 2019-12-02 | 2024-03-15 | 北京交通大学 | 一种多目标跟踪方法 |
CN111127513A (zh) * | 2019-12-02 | 2020-05-08 | 北京交通大学 | 一种多目标跟踪方法 |
CN113298748A (zh) * | 2020-02-21 | 2021-08-24 | 安徽大学 | 一种基于注意力机制的图像协同显著目标检测模型 |
CN113298748B (zh) * | 2020-02-21 | 2022-11-18 | 安徽大学 | 一种基于注意力机制的图像协同显著目标检测模型 |
CN111563532B (zh) * | 2020-04-07 | 2022-03-15 | 西北工业大学 | 一种基于属性权重融合的未知目标识别方法 |
CN111563532A (zh) * | 2020-04-07 | 2020-08-21 | 西北工业大学 | 一种基于属性权重融合的未知目标识别方法 |
WO2022089115A1 (zh) * | 2020-10-30 | 2022-05-05 | 北京有竹居网络技术有限公司 | 图像分割方法、装置、设备及存储介质 |
CN112184738A (zh) * | 2020-10-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN112509009A (zh) * | 2020-12-16 | 2021-03-16 | 深圳龙岗智能视听研究院 | 一种基于自然语言信息辅助的目标追踪方法 |
CN112509009B (zh) * | 2020-12-16 | 2024-04-12 | 深圳龙岗智能视听研究院 | 一种基于自然语言信息辅助的目标追踪方法 |
CN112765955A (zh) * | 2021-01-22 | 2021-05-07 | 中国人民公安大学 | 一种中文指代表达下的跨模态实例分割方法 |
CN112765955B (zh) * | 2021-01-22 | 2023-05-26 | 中国人民公安大学 | 一种中文指代表达下的跨模态实例分割方法 |
CN114239594A (zh) * | 2021-12-06 | 2022-03-25 | 西北工业大学 | 基于注意力机制的自然语言视觉推理方法 |
CN114239594B (zh) * | 2021-12-06 | 2024-03-08 | 西北工业大学 | 基于注意力机制的自然语言视觉推理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Pose recognition with cascade transformers | |
CN110390289A (zh) | 基于指称理解的视频安防检测方法 | |
Yang et al. | Cross-modal relationship inference for grounding referring expressions | |
Qiao et al. | LGPMA: complicated table structure recognition with local and global pyramid mask alignment | |
Yu et al. | Trajectory-based ball detection and tracking with applications to semantic analysis of broadcast soccer video | |
CN109919122A (zh) | 一种基于3d人体关键点的时序行为检测方法 | |
CN102682302B (zh) | 一种基于关键帧的多特征融合的人体姿态识别方法 | |
Jiang et al. | Informative joints based human action recognition using skeleton contexts | |
CN110781838A (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
Chen et al. | LSTM with bio inspired algorithm for action recognition in sports videos | |
Hsu et al. | Deep hierarchical network with line segment learning for quantitative analysis of facial palsy | |
CN113537027B (zh) | 基于面部划分的人脸深度伪造检测方法及系统 | |
Fu et al. | ORGM: occlusion relational graphical model for human pose estimation | |
CN108280421A (zh) | 基于多特征深度运动图的人体行为识别方法 | |
CN107992854A (zh) | 基于机器视觉的林业生态环境人机交互方法 | |
CN109697727A (zh) | 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质 | |
CN114283355A (zh) | 一种基于小样本学习的多目标濒危动物跟踪方法 | |
Hammam et al. | Real-time multiple spatiotemporal action localization and prediction approach using deep learning | |
Zhou et al. | MTCNet: Multi-task collaboration network for rotation-invariance face detection | |
US11854306B1 (en) | Fitness action recognition model, method of training model, and method of recognizing fitness action | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
Lan et al. | Learning action primitives for multi-level video event understanding | |
Chen et al. | Online spatio-temporal action detection in long-distance imaging affected by the atmosphere | |
Needham | Tracking and modelling of team game interactions | |
Wang et al. | Instance motion tendency learning for video panoptic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191029 |
|
RJ01 | Rejection of invention patent application after publication |