CN113936175A - 一种识别视频中的事件的方法及系统 - Google Patents

一种识别视频中的事件的方法及系统 Download PDF

Info

Publication number
CN113936175A
CN113936175A CN202111200475.1A CN202111200475A CN113936175A CN 113936175 A CN113936175 A CN 113936175A CN 202111200475 A CN202111200475 A CN 202111200475A CN 113936175 A CN113936175 A CN 113936175A
Authority
CN
China
Prior art keywords
space
video
time
interaction
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111200475.1A
Other languages
English (en)
Inventor
杨华
赵洪田
林焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111200475.1A priority Critical patent/CN113936175A/zh
Publication of CN113936175A publication Critical patent/CN113936175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种识别视频中的事件的方法及系统。所述方法包括:基于神经网络获取视频中各帧的静态特征;基于空间注意力机制网络获取各静态特征对应的空间交互关系特征;基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征;基于时空交互关系特征构建时空交互关系图,并通过图卷积神经网络获得时空交互关系图的特征;基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。本发明的方案,提高了识别视频中的事件的准确率和效率。

Description

一种识别视频中的事件的方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种识别视频中的事件的方法及系统、计算机设备、计算机可读存储介质。
背景技术
随着计算机、图像采集设备、无线传输技术的飞速发展,视频已经成为日常生活中接触最多的流媒体形式。视频监控是一种防范能力较强的综合系统,是安全防范系统的重要组成部分。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。例如,城市中的监控摄像头可以捕获不同场景的监控视频。然而,虽然监控摄像头可以捕获海量的监控视频,却没有与之对应的监管审核能力,很多时候还需要通过人力进行甄别。因此对于视频监控的安防系统,在完成监控摄像头的普及后,更需要通过计算机视觉方法智能识别、分析理解视频内容、视频中真正活动的目标(智能视频分析),进而对海量的监控视频做初步的筛查,从而减轻监察审核人员的工作量,提高监控视频审核的准确率和效率。
深度学习的不断进步,以及互联网技术的发展和智能终端的普及,智能视频分析成为了计算机视觉领域的研究热点。而智能视频分析中的异常事件检测(从视频序列中发现由监控目标,如人或汽车等引起的和期望事件模型差别较大的事件)则成为了智能监控系统中的核心任务之一。
一般来讲,智能视频分析涉及动作识别、实例分割等,而对视频中的异常事件进行识别是识别任务中最具挑战性的。这是因为:事件的持续时间是不确定的,不同事件的持续时间分布差别很大;事件中的场景与环境多变而复杂;事件中涉及的对象多种多样。因此,许多在动作识别或行为识别任务上表现优秀的模型,对于事件识别任务无法取得理想的结果。
因此,如何能够准确且高效的识别出视频中的事件,成为目前亟待解决的问题之一。
发明内容
本发明提供一种识别视频中的事件的方法、系统、计算机设备及计算机可读存储介质,以在不同的场景中准确、高效的识别出视频中的事件。
本发明提供一种识别视频中的事件的方法,包括:
基于神经网络获取视频中各帧的静态特征;
基于空间注意力机制网络获取各静态特征对应的空间交互关系特征;
基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征;
基于时空交互关系特征构建时空交互关系图,并通过图卷积神经网络获得时空交互关系图的特征;
基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。
可选的,所述识别视频中的事件的方法,还包括:
对各帧的静态特征进行分块和空间位置嵌入;
所述基于空间注意力机制网络获取各静态特征对应的空间交互关系特征包括:以类别标记和进行了分块和空间位置嵌入的一帧静态特征作为空间注意力机制网络的输入以获得该帧静态特征对应的空间交互关系特征。
可选的,基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征包括:
对空间交互特征集进行时域位置嵌入;
以类别标记和进行了时域位置嵌入的空间交互特征集作为时域注意力机制网络的输入以获得空间交互特征集对应的时空交互关系特征。
可选的,基于时空交互关系特征构建时空交互关系图包括:
对时空交互关系特征进行线性变换以获得时空交互关系图的节点的特征;
基于线性变换后的节点特征之间距离的倒数获得时空交互关系图的邻接矩阵。
可选的,所述基于时空交互关系特征和时空交互关系图的特征识别视频中的事件包括:
对时空交互关系特征和时空交互关系图的特征执行残差操作后,基于多层感知机层和分类层对视频中的事件进行识别。
可选的,所述视频中各帧为视频中的关键帧,所述识别视频中的事件的方法还包括:
对采集到的视频以预设帧数进行采样以获得第一帧序列;
基于聚类方法从所述第一帧序列中提取关键帧并舍弃同一聚类中与该关键帧相似的相似帧以获得第二帧序列;
从所述第二帧序列中选取连续的多帧以获得关键帧序列。
本发明还提供一种识别视频中的事件的系统,包括:
神经网络,用于获取视频中各帧的静态特征;
空间注意力机制网络,用于获取各静态特征对应的空间交互关系特征;
时域注意力机制网络,用于获取空间交互关系特征集对应的时空交互关系特征;
构建单元,用于基于时空交互关系特征构建时空交互关系图;
图卷积神经网络,用于获得时空交互关系图的特征;
识别单元,用于基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。
本发明还提供一种计算机设备,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器能够执行上述的识别视频中的事件的方法。
本发明还提供一种计算机可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行上述的识别视频中的事件的方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
本发明上述的识别视频中的事件的方法,首先,基于神经网络获取视频中各帧的静态特征。然后,基于空间注意力机制网络获取各静态特征对应的空间交互关系特征,基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征,基于时空交互关系特征构建时空交互关系图,并通过图卷积神经网络获得时空交互关系图的特征。最后,基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。由于先通过神经网络获取了视频中各帧的静态特征,提取了图像的结构信息,故避免了视频中各帧在空间域的局部信息的损失。在获取了视频中各帧的静态特征后,采用自适应注意力机制的网络(空间注意力机制网络和时域注意力机制网络)来提取视频中各帧的时空交互关系特征,因此可以对视频中包含的对象、环境、行为、概念及交互实现自适应显示表征和融合,获取视频帧中最具有表征性的时空交互关系特征。进而基于该时空交互关系特征构建时空交互关系图时,该时空交互关系图可以显示地表征视频中层语义,最后通过图卷积神经网络对该时空交互关系图的特征进行提取时,可以进一步的提取视频中层语义的交互关系,实现语义信息在更深层次上地逻辑推理,使得后续在基于时空交互关系特征和时空交互关系图的特征对视频中的事件进行识别时,可以避免因语义特征不明显而导致的分类错误,进而提高了识别视频中的事件的准确率,另外由于无需再通过人工的方式对视频中的事件进行核查,因此也在很大程度上提高了对视频中事件识别的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例的识别视频中的事件的方法的流程示意图;
图2为本发明实施例的获取静态特征对应的空间交互关系特征的过程示意图;
图3为本发明实施例的时域注意力机制网络的结构示意图;
图4为本发明实施例的识别视频中的事件的过程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
正如现有技术中描述的目前对于智能视频分析中涉及的事件识别,如:识别潜在或正在进行的违法犯罪事件,对视频按照要求进行审核等。现有的识别模型在识别准确度和识别速度上都有所欠缺,识别结果不理想。参见图1,图1为本发明实施例的识别视频中的事件的方法的流程示意图,如图1所示,所述识别视频中的事件的方法包括:
S101:基于神经网络获取视频中各帧的静态特征。
S102:基于空间注意力机制网络获取各静态特征对应的空间交互关系特征。
S103:基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征。
S104:基于时空交互关系特征构建时空交互关系图,并通过图卷积神经网络获得时空交互关系图的特征。
S105:基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。
执行S101,通过神经网络获取视频中各帧的静态特征。所述静态特征可以是每帧图像中的形状、颜色、纹理等底层特征。具体地,本实施例中可以通过深度卷积神经网络(DCNN,Deep Convolutional Neural Networks)如:ResNet18,ResNet34,ResNet50来对输入的视频帧图像进行多层卷积等运算来提取各视频帧的静态特征Xi,i=1,2,...,N。
本实施例中,为了提高识别视频中事件的速度和准确度,可以仅对采集到的视频中的关键帧中的事件进行识别,该关键帧为包含了视频中的有效信息的帧,对于不同场景和不同的需求而言,有效信息的认定也有所不同,实际应用时可以根据实际需求而定。本实施例中可以通过以下方式获取采集到的视频中的关键帧:
首先:对采集到的视频以预设帧数进行采样以获得第一帧序列。具体地,可以根据预设帧数Fcount确定采样率,本实施例中设定在1000帧中采样的预设帧数Fcount∈[65,74],则采样率
Figure BDA0003304724560000061
以采样率f对采集到的视频进行采样,得到采样后的帧序列Fsample即第一帧序列,本实施例中,为了降低计算量和便于后续神经网络对视频帧的处理,可以将第一帧序列中的每一帧图像的高和宽缩放为[256,320]。
然后:基于聚类方法从所述第一帧序列中提取关键帧并舍弃同一聚类中与该关键帧相似的相似帧以获得第二帧序列。具体地,可以设置初始化阙值k=0.9,(k为相邻两帧之间相似度的衡量参数),以从第一帧序列Fsample中提取关键帧,在提取到关键帧后舍弃同一聚类中与该关键帧相似的相似帧以得到第二帧序列。由于上一步中设定了预设帧数Fcount∈[65,74],因此,提取到的第二帧序列中关键帧的数量
Figure BDA0003304724560000062
应满足
Figure BDA0003304724560000063
故在提取关键帧(获得第二序列)的过程中,若关键帧的数量
Figure BDA0003304724560000064
不满足前述条件,则需要不断的调整阙值k,并根据调整后的新的阙值k来重新从第一帧序列Fsample中提取关键帧,舍弃与其相似的相似帧来获得第二帧序列,直至第二帧序列中关键帧的数量满足
Figure BDA0003304724560000071
本实施例中,为了舍弃同一聚类中与该关键帧相似的相似帧,可以设置0.2≤k≤1.0。本实施例中,当k=1时,则表示视频中的每帧都保留下来了,如果此时关键帧的数量
Figure BDA0003304724560000072
未达到f*65,则会通过插值的方式使得关键帧的数量达到f*65,当k=0.2时,表示在进行聚类采样时,已经最大的舍弃了相似帧,保留下来的帧都是具有代表性的帧,若此时关键帧的数量
Figure BDA0003304724560000073
超过了f*74,则会根据实际需求丢弃某些帧,以使得关键帧的数量达到f*74。
最后,从所述第二帧序列中选取连续的多帧,本实施例中可以选取连续的64帧作为关键帧序列,为了降低计算量且便于后续神经网络对视频帧的处理,本实施例中,可以对关键帧序列中的每一帧进行裁剪,具体地,对于每一帧而言,可以从较短的边来确定随机裁剪起点,将每一帧的尺寸裁剪为[224,224],将裁剪后的关键帧序列F=[F1,F2,F3,...,FN]作为最终输入神经网络的关键帧序列。
执行S102,基于空间注意力机制网络获取各静态特征对应的空间交互关系特征。在一实施例中,具体地,在通过S101获取了视频中的关键帧的静态特征Xi后,可以先对各关键帧的静态特征Xi进行分块,然后对分块后的Xi进行空间位置嵌入以获得输入空间注意力机制网络的输入序列
Figure BDA0003304724560000074
其中,i=1,2,3,...,N,n为划分后的特征图的块数。本实施例中,为了降低计算量,提高获取各静态特征对应的空间交互关系特征过程中的处理效率,对进行了分块和空间位置嵌入的每一关键帧,在空间位置嵌入的初始位置加入CLS类别标记,用来表征空间注意力机制网络提取后的语义信息,然后将CLS和
Figure BDA0003304724560000075
作为空间注意力机制网络的输入,以通过空间注意力机制网络获得各关键帧的静态特征对应的空间交互关系特征
Figure BDA0003304724560000076
所有关键帧的静态特征对应的空间交互关系特征组成了空间交互关系特征集
Figure BDA0003304724560000077
参见图2,图2为本发明实施例的获取静态特征对应的空间交互关系特征的过程示意图。如图2所示,通过深度卷积神经网络提取到的视频帧(关键帧)的静态特征Xi经过分块和空间位置嵌入后获得输入序列
Figure BDA0003304724560000081
Figure BDA0003304724560000082
对于每一帧的关键帧,在空间位置嵌入的初始位置加入CLS类别标记(图2中输入空间Transformer之前每一帧右侧方框示意为CLS类别标记,另外图2中经过分块和位置嵌入后的每一帧也为空间Transformer的输入,图2中未示出)并将二者作为空间Transformer的输入以获得各关键帧的静态特征对应的空间交互关系特征
Figure BDA0003304724560000083
将空间交互特征进行均值化和池化操作后输入至时域Transformer。
执行S103,基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征。在一实施例中,为了便于时域注意力机制网络对空间交互特征集进行处理,先对空间注意力机制网络输出的空间交互关系特征进行均值化和池化以降低
Figure BDA0003304724560000084
的维度。然后对空间交互关系特征集合
Figure BDA0003304724560000085
进行时域位置嵌入,得到
Figure BDA0003304724560000086
在时域位置嵌入的初始位置加入CLS类别标记,然后将CLS和XST作为时域注意力机制网络的输入,以通过时域注意力机制网络获得空间交互关系特征集对应的时空交互关系特征RST。本实施例中,时域注意力机制网络的结构可以为Pre-LN Transformer。参见图3,图3为本发明实施例的时域注意力机制网络的结构示意图。图3中,左图为时域注意力机制网络的结构示意图,中间的图为多头注意力模块的结构示意图,右图为缩放点积注意力模块的结构示意图。本实施例中,时域注意力机制网络可以包括归一化层、L个注意力模块和前馈神经网络。具体地,注意力模块可以为多头注意力模块。第一层注意力模块的输入为经过了归一化的输入特征,第一层注意力模块的输出和输入特征做残差连接后作为第一层的输出。第一层的输出经过归一化后作为第二层注意力模块的输入,第二层注意力模块的输出和第一层的输出做残差连接后作为第二层的输出,依次类推,直至获得第L层的输出。第L层的输出经过归一化后输入前馈神经网络,前馈神经网络的输出和第L层的输出做残差连接后的输出即为时域注意力机制网络的输出。
继续参见图3中中间的图,多头注意力模块包括多个并行的缩放点积注意力模块。每一个缩放点积注意力模块的结构示意图如图3中的右图所示,缩放点积注意力模块的输入是Query,Key和Value三个矩阵(Query元素用于切分查询,Key元素用于全局匹配度的计算,Value用于表征每个维度的特征)。一般来讲,第一次输入时,可以设置Q=K=V,根据设置的head的数量n将Q,K,V在最后一个维度上进行划分,得到切分后的:Q=[q1 q2 ...qi...qn]T,K=[k1 k2 ...ki... kn]T,V=[v1 v2 ...vi... vn]T,对于每一个qi,将其与KT进行矩阵点乘,从而计算qi与全局特征的匹配程度,经由放缩(Scale)和Softmax操作后与V再进行点乘,得到Attention()函数:
Figure BDA0003304724560000091
同理将Q与KT进行矩阵点乘,经由放缩和Softmax后与V再进行点乘,得到对应Attention()函数:
Figure BDA0003304724560000092
本实施例中,时域Transformer采用了Pre-LN Transformer结构,故在输入注意力模块前,归一化层会先根据K的维度dk对输入的Q,K,V进行处理,因此,缩放点积注意力模块的注意力函数最终为:
Figure BDA0003304724560000093
由上述以及图3可知多头注意力模块包括多个并行的缩放点积注意力模块,继续参见图3,缩放点积注意力模块对Q,K,V矩阵进行参数映射,随后对h个缩放点积注意力模块分别进行计算,并将计算结果进行拼接和线性变换以获得多头注意力模块的输出。在多头注意力模块中,每一个head的Attention()函数都是上述提及的缩放点积注意力模块的最终的Attention()函数,可以表示为:
Figure BDA0003304724560000094
其中,
Figure BDA0003304724560000095
为输入特征的映射参数矩阵,因此,一个多头注意力模块的输出可以表示为:Multihead=Concat(head1,head2,...,headh),故特征矩阵经过一个多头注意力模块后会得到一个与原输入矩阵维度相同的特征矩阵。本实施例中,将
Figure BDA0003304724560000101
输入至时域Transformer(L个多头注意力模块)后获得的时空交互关系特征
Figure BDA0003304724560000102
其中,B为输入的批大小,N¢为输入片段的帧数N加上时域CLS标记的位置嵌入,故有N¢=N+1,C为输出特征维度。本实施例中,空间注意力机制网络采用的结构也可以为Pre-LN Transformer,此处不再赘述。
执行S104,在通过S103获得了时空交互关系特征RST后,基于时空交互关系特征RST构建时空交互关系图GST,然后再通过图卷积神经网络获得时空交互关系图GST的特征。本实施例中,时空交互关系图GST可以表示为GST=(V,A),其中,节点V=Value=φV(RST),φV为线性变换,节点V∈RN′×C。邻接矩阵A则是基于线性变换后的节点特征之间距离的倒数来获得,如可以是线性变换后的节点特征之间的欧几里得距离。另外,本实施例中,由于构建的时空交互关系图中节点和节点之间的交互关系是双向存在的,故构建的时空交互关系图为无向图,因此,邻接矩阵具体地可以为:Aij=Aji,Aii=0
Figure BDA0003304724560000103
其中,vi,vj为节点特征,φA为对节点特征进行线性变换,WA∈RC×C为全连接的参数矩阵。
在确定了时空交互关系图的GST的表达后,将其输入至图卷积神经网络即可以获得时空交互关系图的特征
Figure BDA0003304724560000104
本实施例中,图卷积神经网络的图卷积层可以表示为Hl+1=σ(LsymHlWl),其中,σ(·)为激活函数,Hl为激活矩阵的第lth,Hl∈RN′×C,H1=VR,Wl是特定层
训练好的矩阵。本实施例中,拉普拉斯矩阵
Figure BDA0003304724560000105
In为特征矩阵,Dii=∑jAij为度矩阵,则上述的图卷积层可以表示为:
Figure BDA0003304724560000111
最终通过图卷积神经网络输出的时空交互关系图的特征
Figure BDA0003304724560000112
执行S105,在通过图卷积神经网络获得时空交互关系图的特征
Figure BDA0003304724560000113
后,基于时空交互关系特征RST和时空交互关系图的特征
Figure BDA0003304724560000114
识别视频中的事件。具体地,可以对RST
Figure BDA0003304724560000115
进行残差连接后,通过多层感知机层(MLP,multilayer perception)和分类层,如Softmax层来预测视频中事件的类别,进而可以识别视频中的事件,如识别该事件是否为异常事件等。
至此,通过上述的S101~S105实现了对视频中事件的识别。以下结合图4对本发明实施例的识别视频中的事件的过程进行简单的说明。图4为本发明实施例的识别视频中的事件的过程示意图。如图4所示,对采集到的视频片段进行关键帧提取,以获得关键帧序列F1,F2,…,FN,然后通过神经网络ResNet50提取关键帧序列中每一帧关键帧的静态特征X1,X2,…,Xi,…,XN,对每一帧关键帧的静态特征Xi进行分块和空间位置嵌入以获得
Figure BDA0003304724560000116
Figure BDA0003304724560000117
对进行了分块和空间位置嵌入的每一帧关键帧在空间位置嵌入的初始位置加入CLS类别标记,然后将
Figure BDA0003304724560000118
Figure BDA0003304724560000119
分别作为各空间Transformer的输入以获得各关键帧的静态特征对应的空间交互关系特征
Figure BDA00033047245600001110
Figure BDA00033047245600001111
将空间交互特征集合
Figure BDA00033047245600001112
进行时域位置嵌入(图中未示出)且在时域位置嵌入的初始位置加入CLS类别标记后,输入至时域Transformer以获得空间交互关系特征集合对应的时空交互关系特征RST。根据时空交互关系特征RST来构建时空交互关系图GST,利用图卷积神经网络获得时空交互关系图GST的特征
Figure BDA00033047245600001113
最后将时空交互关系特征RST和时空交互关系图的特征
Figure BDA0003304724560000121
进行残差连接,然后通过MLP层和Softmax层来实现对视频片段的识别。
在另一实施例中,本发明还提供一种识别视频中事件的系统,系统包括:神经网络、空间注意力机制网络、时域注意力机制网络、构建单元、图卷积神经网络和识别单元,其中:神经网络,用于获取视频中各帧的静态特征。空间注意力机制网络,用于获取各静态特征对应的空间交互关系特征。时域注意力机制网络,用于获取空间交互关系特征集对应的时空交互关系特征。构建单元,用于基于时空交互关系特征构建时空交互关系图。图卷积神经网络,用于获得时空交互关系图的特征。识别单元,用于基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。本实施例的识别视频中事件的系统的实施可以参见上述的识别视频中事件的方法的实施,此处不再赘述。
基于相同的技术构思,本发明实施例提供了一种计算机设备,包括至少一个处理器、以及至少一个存储器,其中,存储器存储有计算机程序,当程序被处理器执行时,使得处理器能够执行上述的识别视频中事件的方法。
基于相同的技术构思,本发明实施例提供了一种计算机可读存储介质,当存储介质中的指令由设备内的处理器执行时,使得设备能够执行上述的识别视频中事件的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种识别视频中的事件的方法,其特征在于,包括:
基于神经网络获取视频中各帧的静态特征;
基于空间注意力机制网络获取各静态特征对应的空间交互关系特征;
基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征;
基于时空交互关系特征构建时空交互关系图,并通过图卷积神经网络获得时空交互关系图的特征;
基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。
2.如权利要求1所述的方法,其特征在于,还包括:
对各帧的静态特征进行分块和空间位置嵌入;
所述基于空间注意力机制网络获取各静态特征对应的空间交互关系特征包括:以类别标记和进行了分块和空间位置嵌入的一帧静态特征作为空间注意力机制网络的输入以获得该帧静态特征对应的空间交互关系特征。
3.如权利要求1所述的方法,其特征在于,基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征包括:
对空间交互特征集进行时域位置嵌入;
以类别标记和进行了时域位置嵌入的空间交互特征集作为时域注意力机制网络的输入以获得空间交互特征集对应的时空交互关系特征。
4.如权利要求1所述的方法,其特征在于,基于时空交互关系特征构建时空交互关系图包括:
对时空交互关系特征进行线性变换以获得时空交互关系图的节点的特征;
基于线性变换后的节点特征之间距离的倒数获得时空交互关系图的邻接矩阵。
5.如权利要求4所述的方法,其特征在于,所述基于时空交互关系特征和时空交互关系图的特征识别视频中的事件包括:
对时空交互关系特征和时空交互关系图的特征执行残差操作后,基于多层感知机层和分类层对视频中的事件进行识别。
6.如权利要求1所述的方法,其特征在于,所述视频中各帧为视频中的关键帧,所述方法还包括:
对采集到的视频以预设帧数进行采样以获得第一帧序列;
基于聚类方法从所述第一帧序列中提取关键帧并舍弃同一聚类中与该关键帧相似的相似帧以获得第二帧序列;
从所述第二帧序列中选取连续的多帧以获得关键帧序列。
7.一种识别视频中事件的系统,其特征在于,包括:
神经网络,用于获取视频中各帧的静态特征;
空间注意力机制网络,用于获取各静态特征对应的空间交互关系特征;
时域注意力机制网络,用于获取空间交互关系特征集对应的时空交互关系特征;
构建单元,用于基于时空交互关系特征构建时空交互关系图;
图卷积神经网络,用于获得时空交互关系图的特征;
识别单元,用于基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。
8.一种计算机设备,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器能够执行权利要求1~6任一项所述的识别视频中事件的方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行权利要求1~6任一项所述的识别视频中事件的方法。
CN202111200475.1A 2021-10-15 2021-10-15 一种识别视频中的事件的方法及系统 Pending CN113936175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111200475.1A CN113936175A (zh) 2021-10-15 2021-10-15 一种识别视频中的事件的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111200475.1A CN113936175A (zh) 2021-10-15 2021-10-15 一种识别视频中的事件的方法及系统

Publications (1)

Publication Number Publication Date
CN113936175A true CN113936175A (zh) 2022-01-14

Family

ID=79279501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111200475.1A Pending CN113936175A (zh) 2021-10-15 2021-10-15 一种识别视频中的事件的方法及系统

Country Status (1)

Country Link
CN (1) CN113936175A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311584A (zh) * 2022-08-15 2022-11-08 贵州电网有限责任公司 一种基于深度学习的无人机高压电网视频巡检飘挂物方法
CN115357755A (zh) * 2022-08-10 2022-11-18 北京百度网讯科技有限公司 视频生成方法、视频展示方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357755A (zh) * 2022-08-10 2022-11-18 北京百度网讯科技有限公司 视频生成方法、视频展示方法和装置
CN115311584A (zh) * 2022-08-15 2022-11-08 贵州电网有限责任公司 一种基于深度学习的无人机高压电网视频巡检飘挂物方法

Similar Documents

Publication Publication Date Title
US10089556B1 (en) Self-attention deep neural network for action recognition in surveillance videos
WO2022000426A1 (zh) 基于孪生深度神经网络的动目标分割方法及系统
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
Bianco et al. Predicting image aesthetics with deep learning
US11640714B2 (en) Video panoptic segmentation
CN111798456A (zh) 一种实例分割模型的训练方法、装置、实例分割方法
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN113936175A (zh) 一种识别视频中的事件的方法及系统
WO2021184754A1 (zh) 视频对比方法、装置、计算机设备和存储介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
CN111052128A (zh) 用于检测和定位视频中的对象的描述符学习方法
CN112488071A (zh) 提取行人特征的方法、装置、电子设备和存储介质
CN111488805A (zh) 一种基于显著性特征提取的视频行为识别方法
CN115578770A (zh) 基于自监督的小样本面部表情识别方法及系统
CN113052073A (zh) 一种基于元学习的少样本行为识别方法
US20230245495A1 (en) Face recognition systems data collection process
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
Visalatchi et al. Intelligent Vision with TensorFlow using Neural Network Algorithms
CN114092746A (zh) 一种多属性识别方法、装置、存储介质及电子设备
CN113139496A (zh) 一种基于时序多尺度融合的行人重识别方法及系统
CN110738692A (zh) 一种基于spark集群的智能视频识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination