CN111626116A - 基于融合多注意力机制和Graph的视频语义分析方法 - Google Patents

基于融合多注意力机制和Graph的视频语义分析方法 Download PDF

Info

Publication number
CN111626116A
CN111626116A CN202010315106.6A CN202010315106A CN111626116A CN 111626116 A CN111626116 A CN 111626116A CN 202010315106 A CN202010315106 A CN 202010315106A CN 111626116 A CN111626116 A CN 111626116A
Authority
CN
China
Prior art keywords
attention
channel
embedding
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010315106.6A
Other languages
English (en)
Other versions
CN111626116B (zh
Inventor
郭杰龙
魏宪
郭列
王万里
兰海
邵东恒
张剑锋
汤璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Institute of Equipment Manufacturing
Original Assignee
Quanzhou Institute of Equipment Manufacturing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhou Institute of Equipment Manufacturing filed Critical Quanzhou Institute of Equipment Manufacturing
Priority to CN202010315106.6A priority Critical patent/CN111626116B/zh
Publication of CN111626116A publication Critical patent/CN111626116A/zh
Application granted granted Critical
Publication of CN111626116B publication Critical patent/CN111626116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于融合多注意力机制和Graph的视频语义分析方法。该方法包括首先从视频中提取图像数据;在残差网络的基础上融合基于卷积注意力模块的注意力机制,以提取图像特征;利用文本中的知识预训练出一个具有先验知识的字典;通过基于多图卷机网络将提取的图像特征和中的目标关系属性信息转化成图调制特征;再将图调制特征导入长短时记忆网络生成描述的句子;最终得到视频语义文本内容数据,输出该数据。本发明最终能够得到准确度较高的视频语义文本数据。本发明结合硬件实体的监控设备,可以为公共安全提供更多智能视频分析和提前预警功能,极大程度上提高视频监控的效率,发挥视频资源的最大用途。

Description

基于融合多注意力机制和Graph的视频语义分析方法
技术领域
本发明涉及视频语义分析技术领域,尤其涉及智能安防视频语义监控技术。
背景技术
随着现代科技的不断发展进步,人们对人工智能的关注程度越来越高。多媒体技术和互联网络技术的快速发展,海量的以视频为主多媒体数据出现,如何高效地处理这些视频数据是目前一个研究热点。伴随着深度学习的出现,人工智能技术得到了飞速发展,计算机对于图像识别的准确率得到了大幅度提升。其中图像分类,物体检测,图像分割等算法准确率都得到了飞速提升。随之又出现了多模态的视频语义分析技术,该技术成功建立了视频和文本之间的联系。
为了提高公共安全行政管理工作效率和质量,进一步的提高城市居民的安全感,国家行政机关维护社会的公共安全各秩序,保障公民的合法权益和社会各项活动的正常进行正在经历严峻考验。如何加强准确预防犯罪和提高执法服务质量,将先进的科学技术运用到公安实际工作中,不断提高执法工作的科学性和高效性,已经成为当前公共安全科技创新的重要挑战。近年来,报警监控系统一直驻守在重点安防区域的前线,报警柱视频监控技术也有长足的发展。公共安全实时图像监控系统,特别是移动视频监控系统功能不断完善,在管理社会治安防控、处理突发事件和重大安全保卫等各项工作中得并发挥了重要作用。因此,结合基于人工智能的视频流事件分析方法,设计和开发切合当前实际的社区环境下的治安监控综合报警系统,具有十分重要意义。
该技术大多数采用编码器-解码器框架,其中将卷积神经网络作为编码器,将LSTM作为解码器用于描述图像内容语句的生成。但是,这类算法也存在一定的缺陷。(1)因为卷积神经网络提取图像特征时,仅提取了图像的深度特征,而忽略了底层的特征,深度特征对图像中物体识别准确率有较大贡献,但是对不同物体间关系的识别准确率贡献不高,单纯提取深度特征在图像特征利用方面具有不足;(2)单一的图像特征作为编码器无法建立视频语义目标之间的属性,关系。因此,视频语义分析过程中,对视频内容信息的理解产生一定的偏差,最终导致生成的描述语言不能准确描述视频的语义信息。针对该技术现有进展中存在问题。
发明内容
本发明旨在解决现有的技术问题,而提供一种基于融合多注意力机制和Graph的视频语义分析方法。
为达到上述目的,本发明采取的具体技术方案为:
一种基于融合多注意力机制和Graph的视频语义分析方法,本发明方法包括以下步骤:
步骤1:从视频中提取图像数据;
步骤2:在残差网络的基础上融合基于卷积注意力模块的注意力机制(CBAM),以提取图像特征;
步骤3:利用文本中的知识预训练出一个具有先验知识的字典,这个字典包含了文本之间目标关系属性信息;
步骤4:通过基于多图卷机网络(MGCN)将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征;
步骤5:再将图调制特征导入长短时记忆网络(LSTM)生成描述的句子;
步骤6:最终得到视频语义文本内容数据,输出该数据。
进一步的,所述步骤2中:融合CBAM注意力机制的残差网络提取图像特征,其中,两种注意力机制图如图3所示,融合两种注意力机制的残差网络如图4所示。
所述步骤2具体为:CBAM包含通道注意力和空间注意力两部分。CBAM分别从通道注意力机制和空间注意力机制两个维度提取图像特征;计算通道注意力时,同时使用平均池化和最大池化的特征,利用这两个特征极大地提高了网络的表征能力;计算空间注意力时,首先沿通道轴应用平均池化和最大池化操作,并将它们连接起来以生成高效的特征,沿着通道轴使用池化操作是有效的,显示在突出信息区域中,再通过使用两个池化操作来聚合特征的通道注意力信息,生成两个二维映射,每个通道注意力都表示平均池化特征和最大池化特征,然后将它们连接起来并通过标准卷积层进行卷积,产生二维空间注意力特征及所需要的图像特征
Figure RE-GDA0002593492390000021
步骤2.1:通道注意力机制
利用特征的通道间关系,生成通道注意力模型,由于特征图谱的每个通道都被认为是一个特征检测器,所以通道的注意力集中在给定输入图像的目标是有意义的;为了有效地计算通道注意力,压缩了输入特征图的空间维数;对于空间信息的聚合,目前普遍采用平均池化方法;平均池化方法可以有效地学习目标对象的范围,在他们的注意力模块中采用平均池化方法来计算空间统计;最大池化方法汇集了另一个关于独特的对象特征的重要线索,从而推断出更精细的通道注意力;因此,同时对特征进行平均池化和最大池化,同时利用这两个特性可以大大提高网络的表示能力,而不是单独使用它们,显示设计选择的有效性;
输入特征是一个三维张量,经过最大池化与平均池化,将只存在通道注意力,也就是变化为一维张量;经最大池化与平均池化后的特征向量,通过同一个权重的,含有1个隐层的多层感知机(使用Relu激活函数,仅对隐层加),再进行标量相加;隐层的尺寸应设定为C/r,C为特征向量长度,r为减速比;通过sigmoid函数激活,输出通道注意力;
Figure RE-GDA0002593492390000031
其中,σ表示sigmoid激活函数,W0∈RC/r×C,W1∈RC×C/r
步骤2.2:空间注意力机制
利用特征的空间关系生成空间注意力。;与通道注意力不同的是,空间注意集中在位置信息的部分,是对通道注意的补充;为了计算空间注意,首先沿着通道轴应用平均池化和最大池化操作,并将它们连接起来,以生成有效的图像特征,沿着通道轴应用池化操作可以有效地突出显示信息区域,在连接的图像特征上,使用卷积层来产生空间注意力:
使用两个池化操作整合通道信息到一个特征图谱,产生两个二维特征图谱:
Figure RE-GDA0002593492390000032
每个表示跨通道的平均池化功能和最大池化功能,然后将其连接起来,并通过一个标准的卷积层进行卷积,生成二维空间注意力图谱,简而言之,空间注意被计算为:
Figure RE-GDA0002593492390000033
其中,σ表示sigmoid激活函数,f7×7表示卷积操作,卷积核的大小7×7;
步骤2.3:注意力机制的排列
给定一个输入图像,两个注意模块,通道和空间,计算互补注意,分别聚焦的是目标和位置信息,考虑到这一点,两个模块可以以并行或顺序的方式放置。
进一步的,顺序排列比平行排列的结果更好,对于序列过程的安排,我们的实验结果表明,通道注意力+空间注意力比空间注意力+通道注意力效果好。
进一步的,所述步骤3:具体流程示意图如图5所示;使用场景图自动编码器学习字典D,字典训练的步骤如下:
Figure RE-GDA0002593492390000034
步骤3.1:S→G,从sentence到scene graph,scene graph是一个元祖G=(N,ε),其中N和ε是边节点和边的集合,有三种N目标节点o,属性结点a,以及关系结点r,记oi是第i个目标,ai,l是oi的第l个属性,每个结点以d维向量表示,结点的特征是可训练的labelembedding边ε的有以下两种:(1)如果一个目标oi有属性ai,l,则oi到ai,l有一条有向边; (2)如果存在三元组关系<σi-rijj>,则oi到rij和rij到oj均有两条边;
步骤3.2:G→X,将结点嵌入eo,ea,er转化成上下文情景嵌入X,X包括三种d维嵌入:关系嵌入xri,j(关系结点ri,j),目标嵌入
Figure RE-GDA0002593492390000041
(目标结点oi),以及属性结点
Figure RE-GDA00025934923900000413
(属性结点 ai),使用四个空间图卷积gr,ga,gs,go来生成上述的嵌入;具体示意图如图6所示;具体嵌入方法说明如下:
(1)关系嵌入xrij:对每个三元组<σi-rijj>,xri,j综合上下文信息,
Figure RE-GDA0002593492390000042
(2)属性嵌入
Figure RE-GDA0002593492390000043
对一个目标结点oi,xai综合它和它的所有属性,
Figure RE-GDA0002593492390000044
Figure RE-GDA0002593492390000045
是oi的属性个数;
(3)目标嵌入
Figure RE-GDA0002593492390000046
需要综合oi在整个graph中的主客关系,
Figure RE-GDA0002593492390000047
若oj∈sbj(oi)表示oi是隶属于oj, oj是目标,Nri=|sbj(i)|+|obj(i)|;
步骤3.3:学习字典,更新编码
Figure RE-GDA0002593492390000048
保留记忆来运行推理的动态知识库,这个过程就是学习一个字典D=d1,d2,...dk∈Rd×K;重新编码:
Figure RE-GDA0002593492390000049
α=softmax(DTx);其中α是记忆网络中的核心操作来重构S。
进一步的,所述步骤4:通过MGCN网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征;此处的场景图G包括目标区域检测器,属性分类器,关系分类器;将检测到的目标嵌入
Figure RE-GDA00025934923900000410
和图像特征
Figure RE-GDA00025934923900000411
融合在一起成为新的结点特征
Figure RE-GDA00025934923900000412
Figure RE-GDA0002593492390000051
其余的
Figure RE-GDA0002593492390000052
Figure RE-GDA0002593492390000053
按照类似的方法生成。
进一步的,所述步骤5,将图调制特征导入LSTM生成描述的句子,解码器部分采用成熟的LSTM,LSTM在生成单词的过程中,基于上下文向量,隐藏状态和之前生成单词的条件产生下一个单词;为了提高解码的准确率,LSTM在生成单词之前,将特征信息进行注意力机制处理,使不同的特征分配一个权重值,极大地提高了视频语义分析描述的准确率;具体示意图如附图7所示:
LSTM是一种特殊的循环神经网络,可以解决长期依赖的问题,明确来说,设计LSTM主要就是为了解决长期依赖的问题,它的本质就是能够记住很长时期内的信息。所有循环神经网络结构都是由完全相同结构的(神经网络)模块进行复制而成的。在传统循环神经网络中,这个重复的模块只有一种非常简单的结构,例tanh层。LSTM同样也是类似的结构。但是它不再只是一个单一的tanh层,而是用了四个相互作用的层。主要是解决了传统循环神经网络的梯度消失问题。
LSTM前向传播算法中依赖于门控机制,主要包括遗忘门,输入门,输出:
步骤5.1:遗忘门
Figure RE-GDA0002593492390000054
其中σ表示sigmoid激活函数,
Figure RE-GDA0002593492390000055
表示输出的融合目标属性关系的特征,ht-1表示上一层的隐藏层,
Figure RE-GDA0002593492390000056
表示LSTM中的注意力机制,t时刻根据上下文向量对输入特征的动态表示, W,U,Z,b是学习到的矩阵权重和偏置;
步骤52:输入门
Figure RE-GDA0002593492390000057
Figure RE-GDA0002593492390000058
其中tanh表示激活函数,it表示输入,ct表示更新内容。其余参数跟(5.1)类似;
步骤5.3:输出门
Figure RE-GDA0002593492390000059
ht=ot*tanh(ct)
其中ot表示输出,ht表示下一层的隐藏层。
本发明在残差网络的基础上融合CBAM注意力机制,提高特征提取的精度。众所周知,注意力在人类感知中起着重要作用。人类视觉系统的一个重要特性是人们不会一次尝试处理整个场景。相反,人类利用一系列局部瞥见并选择性地聚焦于显著部分,以便更好地捕捉视觉结构。CBAM分别从通道注意力和空间注意力两个维度处理图像特征,我们通过利用特征的通道注意力间关系来产生通道注意力图谱。当特征的每个通道注意力都被视为特征检测器时,对于给定的输入图像,通道注意力集中在“what”上是有意义的。为了有效地计算通道注意力注意力,我们压缩输入特征的空间维度。为了聚集空间信息,到目前为止普遍采用平均池化,平均池化有效地学习目标物体。我们认为最大池化收集了关于独特对象特征的另一个重要线索,以推断出通道注意力方面的注意力。因此,我们同时使用平均池化和最大池化的特征,利用这两个特征极大地提高了网络的表征能力。
本发明利用特征的空间关系生成空间注意力特征。与通道注意力机制不同的是,空间注意力机制集中在“where”是一个信息的部分,它与通道注意力相辅相成。为了计算空间注意力注意力,我们首先沿通道轴使用平均池化和最大池化操作,并将它们连接起来以生成高效的特征。沿着通道轴使用池化操作是有效的,显示在突出信息区域中。我们通过使用两个池化操作来聚合特征的通道注意力信息,生成两个二维映射。每个通道注意力都表示平均池化特征和最大池化特征。然后将它们连接起来并通过标准卷积层进行卷积,产生我们的二维空间注意力特征。
通过融合CBAM注意力的残差网络生成特征导入MGCN网络,MGCN网络生成场景图信息,场景图信息包括生成的目标,属性和关系等特征,然后利用文本中的知识预训练出一个具有先验知识的字典,在后面的任务中直接使用这个训练好的字典,对上下文产生的词嵌入向量进行转换重建。这样,模型在为图像产生图像文本说明的时候相当于利用到了大量文本语料库中的知识,能产生更符合人类习惯描述的句子。最后导入LSTM生成描述的句子,LSTM在生成单词的过程中,基于上下文向量,隐藏状态和之前生成单词的条件产生下一个单词。为了提高解码的准确率,LSTM在生成单词之前,将特征信息进行注意力机制处理,使特征的每一个像素点分配一个权重值,极大地提高了视频语义分析描述的准确率。
本发明的优点和技术效果:
本发明的主要技术优点:在特征提取部分,融合了CBAM注意力机制,提升了模型的表达能力;提出了利用文本中的知识预训练出一个具有先验知识的字典;提出了场景图模型,将每一个对象以及自身的属性和其他物体之间的关系通过图卷积MGCN的方式融合在一起统一作为LSTM的输入。本发明提出的一种融合多注意力机制和Graph的视频语义分析方法,使得计算机能够利用所训练得到的先验知识,对于视频的理解从低层次的物体的理解上升到对视频中物体及其关系的深度理解。利用本发明,最终能够得到准确度较高的视频语义文本数据。本发明结合硬件实体的监控设备,可以为公共安全提供更多智能视频分析和提前预警功能,极大程度上提高视频监控的效率,发挥视频资源的最大用途。
附图说明
图1为本发明的基本流程图;
图2为本发明中的提取图像示意图;
图3为本发明的CBAM两种注意力机制图;
图4为本发明的融合两种CBAM注意力的残差网络图;
图5为本发明中字典的预训练示意图;
图6为本发明中字典的预训练目标的属性关系图;
图7为本发明中利用LSTM生成视频语义分析示意图。
具体实施方式
以下通过具体实施例并结合附图对本发明进一步解释和说明。
当前,在车站广场、商业街道、校园和医院等公共区域安装的监控及现场可视接警综合系统,简称“报警柱”。报警柱监控对象常常是人流密集区域,流动性较强,比较其他区域更容易发生突发事件或安全事件;但是,现有的监控系统无法同时放映所有管理辖区内的报警柱视角,只能等待报警柱出发之后的通知信息,人工地调取报警柱第一视角,才能了解现场发生状况;并且,现有报警柱系统一般是记录突发事件之后的视频流信息,同时需要人工报警才能够被通知读取视频流,当没有人员进行报警按钮动作的时候,报警柱将无法及时通知监控中心,失去突发事件的重要信息。
实施例:
一种基于融合多注意力机制和Graph的视频语义分析方法,本发明方法包括以下步骤:
步骤1:从视频中提取图像数据;
步骤2:在残差网络的基础上融合基于卷积注意力模块的注意力机制(CBAM),以提取图像特征;
步骤3:利用文本中的知识预训练出一个具有先验知识的字典,这个字典包含了文本之间目标关系属性信息;;
步骤4:通过基于多图卷机网络(MGCN)网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征;
步骤5:再将图调制特征导入长短时记忆网络(LSTM)生成描述的句子;
步骤6:最终得到视频语义文本内容数据,输出该数据。
进一步的,所述步骤2中:融合CBAM注意力机制的残差网络提取图像特征,其中,两种注意力机制图如图3所示,融合两种注意力机制的残差网络如图4所示;
所述步骤2具体为:CBAM包含通道注意力和空间注意力两部分。CBAM分别从通道注意力和空间注意力两个维度处理图像特征;计算通道注意力时,同时使用平均池化和最大池化的特征,利用这两个特征极大地提高了网络的表征能力;计算空间注意力时,首先沿通道轴应用平均池化和最大池化操作,并将它们连接起来以生成高效的特征,沿着通道轴使用池化操作是有效的,显示在突出信息区域中,再通过使用两个池化操作来聚合特征的通道注意力信息,生成两个二维映射,每个通道注意力都表示平均池化特征和最大池化特征,然后将它们连接起来并通过标准卷积层进行卷积,产生二维空间注意力特征;
步骤2.1:通道注意力机制
利用特征的通道间关系,生成通道注意力模型,由于特征图谱的每个通道都被认为是一个特征检测器,所以通道的注意力集中在给定输入图像的目标是有意义的;为了有效地计算通道注意力,压缩了输入特征图的空间维数;对于空间信息的聚合,目前普遍采用平均池化方法;平均池化方法可以有效地学习目标对象的范围,在他们的注意力模块中采用平均池化方法来计算空间统计;最大池化方法汇集了另一个关于独特的对象特征的重要线索,从而推断出更精细的通道注意力;因此,同时对特征进行平均池化和最大池化,同时利用这两个特性可以大大提高网络的表示能力,而不是单独使用它们,显示设计选择的有效性;
输入特征是一个三维张量,经过最大池化与平均池化,将只存在通道注意力,也就是变化为一维张量;经最大池化与平均池化后的特征向量,通过同一个权重的,含有1个隐层的多层感知机(使用Relu激活函数,仅对隐层加),再进行标量相加;隐层的尺寸应设定为C/r,C为特征向量长度,r为减速比;通过sigmoid函数激活,输出通道注意力;
Figure RE-GDA0002593492390000081
其中,σ表示sigmoid激活函数,W0∈RC/r×C,W1∈RC×C/r
步骤2.2:空间注意力机制
利用特征的空间关系生成空间注意力。与通道注意力不同的是,空间注意集中在位置信息的部分,是对通道注意的补充;为了计算空间注意,首先沿着通道轴应用平均池化和最大池化操作,并将它们连接起来,以生成有效的图像特征,沿着通道轴应用池化操作可以有效地突出显示信息区域,在连接的图像特征上,使用卷积层来产生空间注意力:
使用两个池化操作整合通道信息到一个特征图谱,产生两个二维图谱:
Figure RE-GDA0002593492390000091
每个表示跨通道的平均池化功能和最大池化功能,然后将其连接起来,并通过一个标准的卷积层进行卷积,生成二维空间注意力图谱,简而言之,空间注意被计算为:
Figure RE-GDA0002593492390000092
其中,σ表示sigmoid激活函数,f7×7表示卷积操作,卷积核的大小7×7;
步骤2.3:注意力机制的排列
给定一个输入图像,两个注意模块,通道和空间,计算互补注意,分别聚焦的是目标和位置信息,考虑到这一点,两个模块可以以并行或顺序的方式放置。
进一步的,顺序排列比平行排列的结果更好,对于序列过程的安排,我们的实验结果表明,通道注意力+空间注意力比空间注意力+通道注意力效果好。
进一步的,所述步骤3:具体流程示意图如图5所示;使用场景图自动编码器学习字典D,字典训练的步骤如下:
Figure RE-GDA0002593492390000093
步骤3.1:S→G,从sentence到scene graph,scene graph是一个元祖G=(N,ε),其中N和ε是边节点和边的集合,有三种N目标节点o,属性结点a,以及关系结点r,记oi是第i个目标,ai,l是oi的第l个属性,每个结点以d维向量表示,结点的特征是可训练的labelembedding边ε的有以下两种:(1)如果一个目标oi有属性ai,l,则oi到ai,l有一条有向边; (2)如果存在三元组关系<σi-rijj>,则oi到rij和rij到oj均有两条边;
步骤3.2:G→X,将结点嵌入eo,ea,er转化成上下文情景嵌入X,X包括三种d维嵌入:关系嵌入xri,j(关系结点ri,j),目标嵌入
Figure RE-GDA0002593492390000094
(目标结点oi),以及属性结点
Figure RE-GDA0002593492390000096
(属性结点 ai),使用四个空间图卷积gr,ga,gs,go来生成上述的嵌入;具体示意图如图6所示;具体嵌入方法说明如下:
(1)关系嵌入xrij:对每个三元组<σi-rijj>,xri,j综合上下文信息,
Figure RE-GDA0002593492390000095
(2)属性嵌入
Figure RE-GDA0002593492390000101
对一个目标结点oi,xai综合它和它的所有属性,
Figure RE-GDA0002593492390000102
Figure RE-GDA0002593492390000103
是oi的属性个数;
(3)目标嵌入
Figure RE-GDA0002593492390000104
需要综合oi在整个graph中的主客关系,
Figure RE-GDA0002593492390000105
若oj∈sbj(oi)表示oi是隶属于oj, oj是目标,
Figure RE-GDA0002593492390000106
步骤3.3:学习字典,更新编码
Figure RE-GDA0002593492390000107
保留记忆来运行推理的动态知识库,这个过程就是学习一个字典D=d1,d2,...dk∈Rd×K;重新编码:
Figure RE-GDA0002593492390000108
α=softmax(DTx);其中α是记忆网络中的核心操作来重构S。
进一步的,所述步骤4:通过MGCN网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征;此处的场景图G包括目标区域检测器,属性分类器,关系分类器;将检测到目标嵌入
Figure RE-GDA0002593492390000109
和图像特征
Figure 1
融合在一起成为新的结点特征
Figure RE-GDA00025934923900001011
Figure RE-GDA00025934923900001012
其余的
Figure RE-GDA00025934923900001013
Figure RE-GDA00025934923900001014
按照类似的方法生成。
进一步的,所述步骤5,将图调制特征导入LSTM生成描述的句子,解码器部分采用成熟的LSTM,LSTM在生成单词的过程中,基于上下文向量,隐藏状态和之前生成单词的条件产生下一个单词;为了提高解码的准确率,LSTM在生成单词之前,将特征信息进行注意力机制处理,使不同的特征分配一个权重值,极大地提高了视频语义分析描述的准确率;具体示意图如附图7所示:
LSTM是一种特殊的循环神经网络,可以解决长期依赖的问题,设计LSTM主要就是为了解决长期依赖的问题,它的本质就是能够记住很长时期内的信息。所有循环神经网络结构都是由完全相同结构的(神经网络)模块进行复制而成的。在传统循环神经网络中,这个重复的模块只有一种非常简单的结构,例tanh层。LSTM同样也是类似的结构。但是它不再只是一个单一的tanh层,而是用了四个相互作用的层。主要是解决了传统循环神经网络的梯度消失问题。
LSTM前向传播算法中依赖于门控机制,主要包括遗忘门,输入门,输出:
步骤5.1:遗忘门
Figure RE-GDA0002593492390000111
其中σ表示sigmoid激活函数,
Figure RE-GDA0002593492390000112
表示输出的融合目标属性关系的特征,ht-1表示上一层的隐藏层,
Figure RE-GDA0002593492390000113
表示LSTM中的注意力机制,t时刻根据上下文向量对输入特征的动态表示, W,U,Z,b是学习到的矩阵权重和偏置;
步骤5.2:输入门
Figure RE-GDA0002593492390000114
Figure RE-GDA0002593492390000115
其中tanh表示激活函数,it表示输入,ct表示更新内容。其余参数跟(5.1)类似;
步骤53:输出门
Figure RE-GDA0002593492390000116
ht=ot*tanh(ct)
其中ot表示输出,ht表示下一层的隐藏层。
本发明融合多注意力机制和Graph的视频语义分析算法,具备更加强大的智能分析和视频语义分析处理能力,可以接入现有的报警柱系统当中,实时的监测报警柱摄像头所监控的视频内容,并将其视频监控内容通过本发明方法转化为计算机可检索和理解的语义分析结果,如出现重点监控内容,则在第一时间预警其指定的异常视频内容,如打架斗殴、起火,烟雾、爆炸等,并通过无线网络告知监控中心,达到监控异常行为实时预警的功能。
上述内容只是本发明的核心算法部分,凡是依据本发明的技术实质对上面的实施所作的任何细微修改、等同变化与修饰,均仍然属于本发明的技术内容和范围。

Claims (7)

1.一种基于融合多注意力机制和Graph的视频语义分析方法,其特征在于,该方法包括以下步骤:
步骤1:从视频中提取图像数据;
步骤2:在残差网络的基础上融合基于卷积注意力模块的注意力机制,即CBAM,以提取图像特征;
步骤3:利用文本中的知识预训练出一个具有先验知识的字典,这个字典包含了文本之间目标关系属性信息;
步骤4:通过基于多图卷机网络,即MGCN,其将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征;
步骤5:再将图调制特征导入长短时记忆网络生成描述的句子;
步骤6:最终得到视频语义文本内容数据,输出该数据。
2.如权利要求1所述的分析方法中,其特征在于,所述步骤2中:融合CBAM注意力机制的残差网络提取图像特征,CBAM包含通道注意力和空间注意力两部分;CBAM分别从通道注意力机制和空间注意力机制两个维度提取图像特征;计算通道注意力时,同时使用平均池化和最大池化的特征,利用这两个特征极大地提高了网络的表征能力;计算空间注意力时,首先沿通道轴应用平均池化和最大池化操作,并将它们连接起来以生成高效的特征,沿着通道轴使用池化操作是有效的,显示在突出信息区域中,再通过使用两个池化操作来聚合特征的通道注意力信息,生成两个二维映射,每个通道注意力都表示平均池化特征和最大池化特征,然后将它们连接起来并通过标准卷积层进行卷积,产生二维空间注意力特征及所需要的图像特征
Figure RE-FDA0002566807550000012
3.如权利要求2所述的分析方法中,其特征在于,所述步骤2具体为:
步骤2.1:通道注意力机制
利用特征的通道间关系,生成通道注意力模型,输入特征是一个三维张量,经过最大池化与平均池化,将只存在通道注意力,也就是变化为一维张量;经最大池化与平均池化后的特征向量,通过同一个权重的,含有1个隐层的多层感知机,再进行标量相加;隐层的尺寸应设定为C/r,C为特征向量长度,r为减速比;通过sigmoid函数激活,输出通道注意力;
Figure RE-FDA0002566807550000011
其中,σ表示sigmoid激活函数,W0∈RC/r×C,W1∈RC×C/r
步骤2.2:空间注意力机制
利用特征的空间关系生成空间注意力,为了计算空间注意,首先沿着通道轴应用平均池化和最大池化操作,并将它们连接起来,以生成有效的图像特征,沿着通道轴应用池化操作可以有效地突出显示信息区域,在连接的图像特征上,使用卷积层来产生空间注意力:
使用两个池化操作整合通道信息到一个特征图谱,产生两个二维特征图谱:
Figure RE-FDA0002566807550000021
每个表示跨通道的平均池化功能和最大池化功能,然后将其连接起来,并通过一个标准的卷积层进行卷积,生成二维空间注意力图谱,简而言之,空间注意被计算为:
Figure RE-FDA0002566807550000022
其中,σ表示sigmoid激活函数,f7×7表示卷积操作,卷积核的大小7×7;
步骤2.3:注意力机制的排列
给定一个输入图像,两个注意模块,通道和空间,计算互补注意,分别聚焦的是目标和位置信息,两个模块以并行或顺序的方式放置。
4.如权利要求3所述的分析方法中,其特征在于,所述步骤2.3中,两个模块以顺序排列方式放置,且选择通道注意力+空间注意力进行计算。
5.如权利要求1所述的分析方法中,其特征在于,所述步骤3具体为:
步骤3.1:S→G,从sentence到scene graph,scene graph是一个元祖G=(N,ε),其中N和ε是边节点和边的集合,有三种N目标节点o,属性结点a,以及关系结点r,记oi是第i个目标,ai,l是oi的第l个属性,每个结点以d维向量表示,结点的特征是训练的label embedding边ε的有以下两种:(1)如果一个目标oi有属性ai,l,则oi到ai,l有一条有向边;(2)如果存在三元组关系<σi-rijj>,则oi到rij和rij到oj均有两条边;
步骤3.2:G→X,将结点嵌入eo,ea,er转化成上下文情景嵌入X,X包括三种d维嵌入:关系嵌入xri,j(关系结点ri,j),目标嵌入
Figure RE-FDA0002566807550000023
即目标结点oi,以及属性结点
Figure RE-FDA0002566807550000024
即属性结点ai,使用四个空间图卷积gr,ga,gs,go来生成上述的嵌入;具体嵌入方法说明如下:
(1)关系嵌入xrij:对每个三元组<σi-rijj>,xri,j综合上下文信息,
Figure RE-FDA0002566807550000025
(2)属性嵌入
Figure RE-FDA0002566807550000031
对一个目标结点oi,xai综合它和它的所有属性,
Figure RE-FDA0002566807550000032
Figure RE-FDA0002566807550000033
是oi的属性个数;
(3)目标嵌入
Figure RE-FDA0002566807550000034
Figure RE-FDA0002566807550000035
需要综合oi在整个graph中的主客关系,
Figure RE-FDA0002566807550000036
若oj∈sbj(oi)表示oi是隶属于oj,oj是目标,
Figure RE-FDA0002566807550000037
步骤3.3:学习字典,更新编码
Figure RE-FDA0002566807550000038
保留记忆来运行推理的动态知识库,这个过程就是学习一个字典D=d1,d2,...dk∈Rd×K;重新编码:
Figure RE-FDA0002566807550000039
α=softmax(DTx);其中α是记忆网络中的核心操作来重构S。
6.如权利要求1所述的分析方法中,其特征在于,所述步骤4中场景图G包括目标区域检测器,属性分类器,关系分类器;将检测到的目标嵌入
Figure RE-FDA00025668075500000310
和图像特征
Figure RE-FDA00025668075500000311
融合在一起成为新的结点特征
Figure RE-FDA00025668075500000312
Figure RE-FDA00025668075500000313
其余的
Figure RE-FDA00025668075500000314
Figure RE-FDA00025668075500000315
按照类似的方法生成。
7.如权利要求1所述的分析方法中,其特征在于,所述步骤5包括:
步骤5.1:遗忘门
Figure RE-FDA00025668075500000316
其中σ表示sigmoid激活函数,
Figure RE-FDA00025668075500000317
表示输出的融合目标属性关系的特征,ht-1表示上一层的隐藏层,
Figure RE-FDA00025668075500000318
表示LSTM中的注意力机制,t时刻根据上下文向量对输入特征的动态表示,W,U,Z,b是学习到的矩阵权重和偏置;
步骤5.2:输入门
Figure RE-FDA00025668075500000319
Figure RE-FDA00025668075500000320
其中tanh表示激活函数,it表示输入,ct表示更新内容。其余参数跟(5.1)类似;
步骤5.3:输出门
Figure RE-FDA00025668075500000321
ht=ot*tanh(ct)
其中ot表示输出,ht表示下一层的隐藏层。
CN202010315106.6A 2020-04-21 2020-04-21 基于融合多注意力机制和Graph的视频语义分析方法 Active CN111626116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010315106.6A CN111626116B (zh) 2020-04-21 2020-04-21 基于融合多注意力机制和Graph的视频语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315106.6A CN111626116B (zh) 2020-04-21 2020-04-21 基于融合多注意力机制和Graph的视频语义分析方法

Publications (2)

Publication Number Publication Date
CN111626116A true CN111626116A (zh) 2020-09-04
CN111626116B CN111626116B (zh) 2022-12-27

Family

ID=72258970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315106.6A Active CN111626116B (zh) 2020-04-21 2020-04-21 基于融合多注意力机制和Graph的视频语义分析方法

Country Status (1)

Country Link
CN (1) CN111626116B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434571A (zh) * 2020-11-09 2021-03-02 西安理工大学 一种基于注意力自编码网络的高光谱异常检测方法
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112580599A (zh) * 2020-12-30 2021-03-30 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112733708A (zh) * 2021-01-08 2021-04-30 山东交通学院 一种基于半监督学习的肝门静脉检测定位方法与系统
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN114443916A (zh) * 2022-01-25 2022-05-06 中国人民解放军国防科技大学 一种面向试验数据的供需匹配方法及系统
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114648641A (zh) * 2022-03-22 2022-06-21 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN110969187A (zh) * 2019-10-30 2020-04-07 创意信息技术股份有限公司 一种图谱迁移的语义分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN110969187A (zh) * 2019-10-30 2020-04-07 创意信息技术股份有限公司 一种图谱迁移的语义分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴倩等: "融合多标签和双注意力机制的图像语义理解模型", 《智能计算机与应用》 *
沈文祥等: "基于多级特征和混合注意力机制的室内人群检测网络", 《计算机应用》 *
黄友文 等: "融合卷积注意力机制的图像描述生成模型", 《计算机应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434571B (zh) * 2020-11-09 2023-07-25 西安理工大学 一种基于注意力自编码网络的高光谱异常检测方法
CN112434571A (zh) * 2020-11-09 2021-03-02 西安理工大学 一种基于注意力自编码网络的高光谱异常检测方法
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112580599A (zh) * 2020-12-30 2021-03-30 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112580599B (zh) * 2020-12-30 2024-05-14 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112733708A (zh) * 2021-01-08 2021-04-30 山东交通学院 一种基于半监督学习的肝门静脉检测定位方法与系统
CN114443916B (zh) * 2022-01-25 2024-02-06 中国人民解放军国防科技大学 一种面向试验数据的供需匹配方法及系统
CN114443916A (zh) * 2022-01-25 2022-05-06 中国人民解放军国防科技大学 一种面向试验数据的供需匹配方法及系统
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114648641A (zh) * 2022-03-22 2022-06-21 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质
CN114648641B (zh) * 2022-03-22 2024-09-27 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统

Also Published As

Publication number Publication date
CN111626116B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN111626116B (zh) 基于融合多注意力机制和Graph的视频语义分析方法
CN109711463B (zh) 基于注意力的重要对象检测方法
Ramanishka et al. Top-down visual saliency guided by captions
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
Chen et al. Research on recognition of fly species based on improved RetinaNet and CBAM
Li et al. Sign language recognition based on computer vision
Wang et al. Spatial–temporal pooling for action recognition in videos
Jin et al. Recurrent convolutional video captioning with global and local attention
CN111914676A (zh) 人体摔倒检测方法、装置、电子设备和存储介质
CN112036276A (zh) 一种人工智能视频问答方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113255678A (zh) 一种基于语义分割的道路裂缝自动识别方法
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
Cui et al. Multi-source learning for skeleton-based action recognition using deep LSTM networks
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
Pandey Automated gesture recognition and speech conversion tool for speech impaired
Kumar et al. Region driven remote sensing image captioning
Abdul-Ameer et al. Development smart eyeglasses for visually impaired people based on you only look once
CN112883167A (zh) 基于层次化自制力机制胶囊网络的文本情感分类模型
Yin Albert et al. Identifying and Monitoring Students’ Classroom Learning Behavior Based on Multisource Information
Deng et al. Abnormal behavior recognition based on feature fusion C3D network
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN114120076A (zh) 基于步态运动估计的跨视角视频步态识别方法
Deshpande et al. Abnormal Activity Recognition with Residual Attention-based ConvLSTM Architecture for Video Surveillance.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant