CN111626116A

CN111626116A - 基于融合多注意力机制和Graph的视频语义分析方法

Info

Publication number: CN111626116A
Application number: CN202010315106.6A
Authority: CN
Inventors: 郭杰龙; 魏宪; 郭列; 王万里; 兰海; 邵东恒; 张剑锋; 汤璇
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-04
Anticipated expiration: 2040-04-21
Also published as: CN111626116B

Abstract

本发明公开了一种基于融合多注意力机制和Graph的视频语义分析方法。该方法包括首先从视频中提取图像数据；在残差网络的基础上融合基于卷积注意力模块的注意力机制，以提取图像特征；利用文本中的知识预训练出一个具有先验知识的字典；通过基于多图卷机网络将提取的图像特征和中的目标关系属性信息转化成图调制特征；再将图调制特征导入长短时记忆网络生成描述的句子；最终得到视频语义文本内容数据，输出该数据。本发明最终能够得到准确度较高的视频语义文本数据。本发明结合硬件实体的监控设备，可以为公共安全提供更多智能视频分析和提前预警功能，极大程度上提高视频监控的效率，发挥视频资源的最大用途。

Description

基于融合多注意力机制和Graph的视频语义分析方法

技术领域

本发明涉及视频语义分析技术领域，尤其涉及智能安防视频语义监控技术。

背景技术

随着现代科技的不断发展进步，人们对人工智能的关注程度越来越高。多媒体技术和互联网络技术的快速发展，海量的以视频为主多媒体数据出现，如何高效地处理这些视频数据是目前一个研究热点。伴随着深度学习的出现，人工智能技术得到了飞速发展，计算机对于图像识别的准确率得到了大幅度提升。其中图像分类，物体检测,图像分割等算法准确率都得到了飞速提升。随之又出现了多模态的视频语义分析技术，该技术成功建立了视频和文本之间的联系。

为了提高公共安全行政管理工作效率和质量，进一步的提高城市居民的安全感，国家行政机关维护社会的公共安全各秩序，保障公民的合法权益和社会各项活动的正常进行正在经历严峻考验。如何加强准确预防犯罪和提高执法服务质量，将先进的科学技术运用到公安实际工作中，不断提高执法工作的科学性和高效性，已经成为当前公共安全科技创新的重要挑战。近年来，报警监控系统一直驻守在重点安防区域的前线，报警柱视频监控技术也有长足的发展。公共安全实时图像监控系统，特别是移动视频监控系统功能不断完善，在管理社会治安防控、处理突发事件和重大安全保卫等各项工作中得并发挥了重要作用。因此，结合基于人工智能的视频流事件分析方法，设计和开发切合当前实际的社区环境下的治安监控综合报警系统，具有十分重要意义。

该技术大多数采用编码器-解码器框架，其中将卷积神经网络作为编码器，将LSTM作为解码器用于描述图像内容语句的生成。但是，这类算法也存在一定的缺陷。(1)因为卷积神经网络提取图像特征时，仅提取了图像的深度特征，而忽略了底层的特征，深度特征对图像中物体识别准确率有较大贡献，但是对不同物体间关系的识别准确率贡献不高，单纯提取深度特征在图像特征利用方面具有不足；(2)单一的图像特征作为编码器无法建立视频语义目标之间的属性，关系。因此，视频语义分析过程中，对视频内容信息的理解产生一定的偏差，最终导致生成的描述语言不能准确描述视频的语义信息。针对该技术现有进展中存在问题。

发明内容

本发明旨在解决现有的技术问题，而提供一种基于融合多注意力机制和Graph的视频语义分析方法。

为达到上述目的，本发明采取的具体技术方案为：

一种基于融合多注意力机制和Graph的视频语义分析方法，本发明方法包括以下步骤：

步骤1：从视频中提取图像数据；

步骤2：在残差网络的基础上融合基于卷积注意力模块的注意力机制(CBAM)，以提取图像特征；

步骤3：利用文本中的知识预训练出一个具有先验知识的字典，这个字典包含了文本之间目标关系属性信息；

步骤4：通过基于多图卷机网络(MGCN)将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征；

步骤5：再将图调制特征导入长短时记忆网络(LSTM)生成描述的句子；

步骤6：最终得到视频语义文本内容数据，输出该数据。

进一步的，所述步骤2中：融合CBAM注意力机制的残差网络提取图像特征，其中，两种注意力机制图如图3所示，融合两种注意力机制的残差网络如图4所示。

所述步骤2具体为：CBAM包含通道注意力和空间注意力两部分。CBAM分别从通道注意力机制和空间注意力机制两个维度提取图像特征；计算通道注意力时，同时使用平均池化和最大池化的特征，利用这两个特征极大地提高了网络的表征能力；计算空间注意力时，首先沿通道轴应用平均池化和最大池化操作，并将它们连接起来以生成高效的特征，沿着通道轴使用池化操作是有效的，显示在突出信息区域中，再通过使用两个池化操作来聚合特征的通道注意力信息，生成两个二维映射，每个通道注意力都表示平均池化特征和最大池化特征，然后将它们连接起来并通过标准卷积层进行卷积，产生二维空间注意力特征及所需要的图像特征

步骤2.1：通道注意力机制

利用特征的通道间关系，生成通道注意力模型，由于特征图谱的每个通道都被认为是一个特征检测器，所以通道的注意力集中在给定输入图像的目标是有意义的；为了有效地计算通道注意力，压缩了输入特征图的空间维数；对于空间信息的聚合，目前普遍采用平均池化方法；平均池化方法可以有效地学习目标对象的范围，在他们的注意力模块中采用平均池化方法来计算空间统计；最大池化方法汇集了另一个关于独特的对象特征的重要线索，从而推断出更精细的通道注意力；因此，同时对特征进行平均池化和最大池化，同时利用这两个特性可以大大提高网络的表示能力，而不是单独使用它们，显示设计选择的有效性；

输入特征是一个三维张量，经过最大池化与平均池化，将只存在通道注意力，也就是变化为一维张量；经最大池化与平均池化后的特征向量，通过同一个权重的，含有1个隐层的多层感知机(使用Relu激活函数，仅对隐层加)，再进行标量相加；隐层的尺寸应设定为C/r，C为特征向量长度，r为减速比；通过sigmoid函数激活，输出通道注意力；

其中，σ表示sigmoid激活函数，W₀∈R^C/r×C,W₁∈R^C×C/r

步骤2.2：空间注意力机制

利用特征的空间关系生成空间注意力。；与通道注意力不同的是，空间注意集中在位置信息的部分，是对通道注意的补充；为了计算空间注意，首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来，以生成有效的图像特征，沿着通道轴应用池化操作可以有效地突出显示信息区域，在连接的图像特征上，使用卷积层来产生空间注意力：

使用两个池化操作整合通道信息到一个特征图谱，产生两个二维特征图谱：

每个表示跨通道的平均池化功能和最大池化功能，然后将其连接起来，并通过一个标准的卷积层进行卷积，生成二维空间注意力图谱，简而言之，空间注意被计算为：

其中，σ表示sigmoid激活函数，f^7×7表示卷积操作，卷积核的大小7×7；

步骤2.3：注意力机制的排列

给定一个输入图像，两个注意模块，通道和空间，计算互补注意，分别聚焦的是目标和位置信息，考虑到这一点，两个模块可以以并行或顺序的方式放置。

进一步的，顺序排列比平行排列的结果更好，对于序列过程的安排，我们的实验结果表明，通道注意力+空间注意力比空间注意力+通道注意力效果好。

进一步的，所述步骤3：具体流程示意图如图5所示；使用场景图自动编码器学习字典D，字典训练的步骤如下：

步骤3.1：S→G，从sentence到scene graph，scene graph是一个元祖G＝(N，ε)，其中N和ε是边节点和边的集合，有三种N目标节点o，属性结点a，以及关系结点r，记o_i是第i个目标，a_i,l是o_i的第l个属性，每个结点以d维向量表示，结点的特征是可训练的labelembedding边ε的有以下两种：(1)如果一个目标o_i有属性a_i,l，则o_i到a_i,l有一条有向边； (2)如果存在三元组关系<σ_i-r_ij-σ_j>，则o_i到r_ij和r_ij到o_j均有两条边；

步骤3.2：G→X，将结点嵌入e_o,e_a,e_r转化成上下文情景嵌入X，X包括三种d维嵌入：关系嵌入x_ri,j(关系结点r_i,j)，目标嵌入

(目标结点o_i)，以及属性结点

(属性结点 a_i)，使用四个空间图卷积g_r,g_a,g_s,g_o来生成上述的嵌入；具体示意图如图6所示；具体嵌入方法说明如下：

(1)关系嵌入x_rij：对每个三元组<σ_i-r_ij-σ_j>，x_ri,j综合上下文信息，

(2)属性嵌入

对一个目标结点o_i,x_ai综合它和它的所有属性，

是o_i的属性个数；

(3)目标嵌入

需要综合o_i在整个graph中的主客关系，

若o_j∈sbj(o_i)表示o_i是隶属于o_j， o_j是目标，N_ri＝|sbj(i)|+|obj(i)|；

步骤3.3：学习字典，更新编码

保留记忆来运行推理的动态知识库，这个过程就是学习一个字典D＝d₁,d₂,...d_k∈R^d×K；重新编码：

α＝softmax(D^Tx)；其中α是记忆网络中的核心操作来重构S。

进一步的，所述步骤4：通过MGCN网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征；此处的场景图G包括目标区域检测器，属性分类器，关系分类器；将检测到的目标嵌入

和图像特征

融合在一起成为新的结点特征

其余的

和

按照类似的方法生成。

进一步的，所述步骤5，将图调制特征导入LSTM生成描述的句子，解码器部分采用成熟的LSTM，LSTM在生成单词的过程中，基于上下文向量，隐藏状态和之前生成单词的条件产生下一个单词；为了提高解码的准确率，LSTM在生成单词之前，将特征信息进行注意力机制处理，使不同的特征分配一个权重值，极大地提高了视频语义分析描述的准确率；具体示意图如附图7所示：

LSTM是一种特殊的循环神经网络，可以解决长期依赖的问题，明确来说，设计LSTM主要就是为了解决长期依赖的问题，它的本质就是能够记住很长时期内的信息。所有循环神经网络结构都是由完全相同结构的(神经网络)模块进行复制而成的。在传统循环神经网络中，这个重复的模块只有一种非常简单的结构，例tanh层。LSTM同样也是类似的结构。但是它不再只是一个单一的tanh层，而是用了四个相互作用的层。主要是解决了传统循环神经网络的梯度消失问题。

LSTM前向传播算法中依赖于门控机制，主要包括遗忘门，输入门，输出：

步骤5.1：遗忘门

其中σ表示sigmoid激活函数，

表示输出的融合目标属性关系的特征，h_t-1表示上一层的隐藏层，

表示LSTM中的注意力机制，t时刻根据上下文向量对输入特征的动态表示， W,U,Z,b是学习到的矩阵权重和偏置；

步骤52：输入门

其中tanh表示激活函数，i_t表示输入，c_t表示更新内容。其余参数跟(5.1)类似；

步骤5.3：输出门

h_t＝o_t*tanh(c_t)

其中o_t表示输出，h_t表示下一层的隐藏层。

本发明在残差网络的基础上融合CBAM注意力机制，提高特征提取的精度。众所周知，注意力在人类感知中起着重要作用。人类视觉系统的一个重要特性是人们不会一次尝试处理整个场景。相反，人类利用一系列局部瞥见并选择性地聚焦于显著部分，以便更好地捕捉视觉结构。CBAM分别从通道注意力和空间注意力两个维度处理图像特征，我们通过利用特征的通道注意力间关系来产生通道注意力图谱。当特征的每个通道注意力都被视为特征检测器时，对于给定的输入图像，通道注意力集中在“what”上是有意义的。为了有效地计算通道注意力注意力，我们压缩输入特征的空间维度。为了聚集空间信息，到目前为止普遍采用平均池化，平均池化有效地学习目标物体。我们认为最大池化收集了关于独特对象特征的另一个重要线索，以推断出通道注意力方面的注意力。因此，我们同时使用平均池化和最大池化的特征，利用这两个特征极大地提高了网络的表征能力。

本发明利用特征的空间关系生成空间注意力特征。与通道注意力机制不同的是，空间注意力机制集中在“where”是一个信息的部分，它与通道注意力相辅相成。为了计算空间注意力注意力，我们首先沿通道轴使用平均池化和最大池化操作，并将它们连接起来以生成高效的特征。沿着通道轴使用池化操作是有效的，显示在突出信息区域中。我们通过使用两个池化操作来聚合特征的通道注意力信息，生成两个二维映射。每个通道注意力都表示平均池化特征和最大池化特征。然后将它们连接起来并通过标准卷积层进行卷积，产生我们的二维空间注意力特征。

通过融合CBAM注意力的残差网络生成特征导入MGCN网络，MGCN网络生成场景图信息，场景图信息包括生成的目标，属性和关系等特征，然后利用文本中的知识预训练出一个具有先验知识的字典，在后面的任务中直接使用这个训练好的字典，对上下文产生的词嵌入向量进行转换重建。这样，模型在为图像产生图像文本说明的时候相当于利用到了大量文本语料库中的知识，能产生更符合人类习惯描述的句子。最后导入LSTM生成描述的句子，LSTM在生成单词的过程中，基于上下文向量，隐藏状态和之前生成单词的条件产生下一个单词。为了提高解码的准确率，LSTM在生成单词之前，将特征信息进行注意力机制处理，使特征的每一个像素点分配一个权重值，极大地提高了视频语义分析描述的准确率。

本发明的优点和技术效果：

本发明的主要技术优点：在特征提取部分，融合了CBAM注意力机制，提升了模型的表达能力；提出了利用文本中的知识预训练出一个具有先验知识的字典；提出了场景图模型，将每一个对象以及自身的属性和其他物体之间的关系通过图卷积MGCN的方式融合在一起统一作为LSTM的输入。本发明提出的一种融合多注意力机制和Graph的视频语义分析方法，使得计算机能够利用所训练得到的先验知识，对于视频的理解从低层次的物体的理解上升到对视频中物体及其关系的深度理解。利用本发明，最终能够得到准确度较高的视频语义文本数据。本发明结合硬件实体的监控设备，可以为公共安全提供更多智能视频分析和提前预警功能，极大程度上提高视频监控的效率，发挥视频资源的最大用途。

附图说明

图1为本发明的基本流程图；

图2为本发明中的提取图像示意图；

图3为本发明的CBAM两种注意力机制图；

图4为本发明的融合两种CBAM注意力的残差网络图；

图5为本发明中字典的预训练示意图；

图6为本发明中字典的预训练目标的属性关系图；

图7为本发明中利用LSTM生成视频语义分析示意图。

具体实施方式

以下通过具体实施例并结合附图对本发明进一步解释和说明。

当前，在车站广场、商业街道、校园和医院等公共区域安装的监控及现场可视接警综合系统，简称“报警柱”。报警柱监控对象常常是人流密集区域，流动性较强，比较其他区域更容易发生突发事件或安全事件；但是，现有的监控系统无法同时放映所有管理辖区内的报警柱视角，只能等待报警柱出发之后的通知信息，人工地调取报警柱第一视角，才能了解现场发生状况；并且，现有报警柱系统一般是记录突发事件之后的视频流信息，同时需要人工报警才能够被通知读取视频流，当没有人员进行报警按钮动作的时候，报警柱将无法及时通知监控中心，失去突发事件的重要信息。

实施例：

步骤1：从视频中提取图像数据；

步骤3：利用文本中的知识预训练出一个具有先验知识的字典，这个字典包含了文本之间目标关系属性信息；；

步骤4：通过基于多图卷机网络(MGCN)网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征；

步骤6：最终得到视频语义文本内容数据，输出该数据。

进一步的，所述步骤2中：融合CBAM注意力机制的残差网络提取图像特征，其中，两种注意力机制图如图3所示，融合两种注意力机制的残差网络如图4所示；

所述步骤2具体为：CBAM包含通道注意力和空间注意力两部分。CBAM分别从通道注意力和空间注意力两个维度处理图像特征；计算通道注意力时，同时使用平均池化和最大池化的特征，利用这两个特征极大地提高了网络的表征能力；计算空间注意力时，首先沿通道轴应用平均池化和最大池化操作，并将它们连接起来以生成高效的特征，沿着通道轴使用池化操作是有效的，显示在突出信息区域中，再通过使用两个池化操作来聚合特征的通道注意力信息，生成两个二维映射，每个通道注意力都表示平均池化特征和最大池化特征，然后将它们连接起来并通过标准卷积层进行卷积，产生二维空间注意力特征；

步骤2.1：通道注意力机制

其中，σ表示sigmoid激活函数，W₀∈R^C/r×C,W₁∈R^C×C/r

步骤2.2：空间注意力机制

利用特征的空间关系生成空间注意力。与通道注意力不同的是，空间注意集中在位置信息的部分，是对通道注意的补充；为了计算空间注意，首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来，以生成有效的图像特征，沿着通道轴应用池化操作可以有效地突出显示信息区域，在连接的图像特征上，使用卷积层来产生空间注意力：

使用两个池化操作整合通道信息到一个特征图谱，产生两个二维图谱：

其中，σ表示sigmoid激活函数，f7×7表示卷积操作，卷积核的大小7×7；

步骤2.3：注意力机制的排列

(目标结点o_i)，以及属性结点

(2)属性嵌入

对一个目标结点o_i,x_ai综合它和它的所有属性，

是o_i的属性个数；

(3)目标嵌入

需要综合o_i在整个graph中的主客关系，

若o_j∈sbj(o_i)表示o_i是隶属于o_j， o_j是目标，

步骤3.3：学习字典，更新编码

α＝softmax(D^Tx)；其中α是记忆网络中的核心操作来重构S。

进一步的，所述步骤4：通过MGCN网络将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征；此处的场景图G包括目标区域检测器，属性分类器，关系分类器；将检测到目标嵌入

和图像特征

融合在一起成为新的结点特征

其余的

和

按照类似的方法生成。

LSTM是一种特殊的循环神经网络，可以解决长期依赖的问题，设计LSTM主要就是为了解决长期依赖的问题，它的本质就是能够记住很长时期内的信息。所有循环神经网络结构都是由完全相同结构的(神经网络)模块进行复制而成的。在传统循环神经网络中，这个重复的模块只有一种非常简单的结构，例tanh层。LSTM同样也是类似的结构。但是它不再只是一个单一的tanh层，而是用了四个相互作用的层。主要是解决了传统循环神经网络的梯度消失问题。

步骤5.1：遗忘门

其中σ表示sigmoid激活函数，

步骤5.2：输入门

步骤53：输出门

h_t＝o_t*tanh(c_t)

其中o_t表示输出，h_t表示下一层的隐藏层。

本发明融合多注意力机制和Graph的视频语义分析算法，具备更加强大的智能分析和视频语义分析处理能力，可以接入现有的报警柱系统当中，实时的监测报警柱摄像头所监控的视频内容，并将其视频监控内容通过本发明方法转化为计算机可检索和理解的语义分析结果，如出现重点监控内容，则在第一时间预警其指定的异常视频内容，如打架斗殴、起火，烟雾、爆炸等，并通过无线网络告知监控中心，达到监控异常行为实时预警的功能。

上述内容只是本发明的核心算法部分，凡是依据本发明的技术实质对上面的实施所作的任何细微修改、等同变化与修饰，均仍然属于本发明的技术内容和范围。

Claims

1.一种基于融合多注意力机制和Graph的视频语义分析方法，其特征在于，该方法包括以下步骤：

步骤1：从视频中提取图像数据；

步骤2：在残差网络的基础上融合基于卷积注意力模块的注意力机制，即CBAM，以提取图像特征；

步骤4：通过基于多图卷机网络，即MGCN，其将“步骤2”提取的图像特征和“步骤3”中的目标关系属性信息转化成图调制特征；

步骤5：再将图调制特征导入长短时记忆网络生成描述的句子；

步骤6：最终得到视频语义文本内容数据，输出该数据。

2.如权利要求1所述的分析方法中，其特征在于，所述步骤2中：融合CBAM注意力机制的残差网络提取图像特征，CBAM包含通道注意力和空间注意力两部分；CBAM分别从通道注意力机制和空间注意力机制两个维度提取图像特征；计算通道注意力时，同时使用平均池化和最大池化的特征，利用这两个特征极大地提高了网络的表征能力；计算空间注意力时，首先沿通道轴应用平均池化和最大池化操作，并将它们连接起来以生成高效的特征，沿着通道轴使用池化操作是有效的，显示在突出信息区域中，再通过使用两个池化操作来聚合特征的通道注意力信息，生成两个二维映射，每个通道注意力都表示平均池化特征和最大池化特征，然后将它们连接起来并通过标准卷积层进行卷积，产生二维空间注意力特征及所需要的图像特征

3.如权利要求2所述的分析方法中，其特征在于，所述步骤2具体为：

步骤2.1：通道注意力机制

利用特征的通道间关系，生成通道注意力模型，输入特征是一个三维张量，经过最大池化与平均池化，将只存在通道注意力，也就是变化为一维张量；经最大池化与平均池化后的特征向量，通过同一个权重的，含有1个隐层的多层感知机，再进行标量相加；隐层的尺寸应设定为C/r，C为特征向量长度，r为减速比；通过sigmoid函数激活，输出通道注意力；

其中，σ表示sigmoid激活函数，W₀∈R^C/r×C,W₁∈R^C×C/r

步骤2.2：空间注意力机制

利用特征的空间关系生成空间注意力，为了计算空间注意，首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来，以生成有效的图像特征，沿着通道轴应用池化操作可以有效地突出显示信息区域，在连接的图像特征上，使用卷积层来产生空间注意力：

步骤2.3：注意力机制的排列

给定一个输入图像，两个注意模块，通道和空间，计算互补注意，分别聚焦的是目标和位置信息，两个模块以并行或顺序的方式放置。

4.如权利要求3所述的分析方法中，其特征在于，所述步骤2.3中，两个模块以顺序排列方式放置，且选择通道注意力+空间注意力进行计算。

5.如权利要求1所述的分析方法中，其特征在于，所述步骤3具体为：

步骤3.1：S→G，从sentence到scene graph，scene graph是一个元祖G＝(N，ε)，其中N和ε是边节点和边的集合，有三种N目标节点o，属性结点a，以及关系结点r，记o_i是第i个目标，a_i,l是o_i的第l个属性，每个结点以d维向量表示，结点的特征是训练的label embedding边ε的有以下两种：(1)如果一个目标o_i有属性a_i,l，则o_i到a_i,l有一条有向边；(2)如果存在三元组关系<σ_i-r_ij-σ_j>，则o_i到r_ij和r_ij到o_j均有两条边；