CN113516058A

CN113516058A - 直播视频群组异常活动检测方法、装置、电子设备及介质

Info

Publication number: CN113516058A
Application number: CN202110680032.0A
Authority: CN
Inventors: 张菁; 贺辰; 康俊鹏; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-10-19

Abstract

本发明涉及一种直播视频群组异常活动检测方法、装置、电子设备及介质，该方法包括使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对直播视频帧序列中的个体进行定位，以得到位置参数；将个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；将不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生群组异常活动的时间段。本发明通过提取深度时空特征和定位，以及进行时间上下文编码，可以提高群组异常活动检测的速度和准确度，降低检测的成本。

Description

直播视频群组异常活动检测方法、装置、电子设备及介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种直播视频群组异常活动检测方法、装置、电子设备及介质。

背景技术

网络直播是指利用互联网技术进行实时的现场视频直播。网络直播兼具有网络视频和电视直播形式的性质，在保持网络视频多元性、互动性、满足客户体验特点的同时也具有电视直播及时性、现场性的特点。不同于传统的电视直播，当下的网络直播不再单纯由传统媒体发声，而是以自媒体为主，为传统意义上的“观众”提供了表现的机会，从而为推动经济新潮流、拓展就业形式、丰富社会生活等方面做出了积极的探索。然而，值得注意的是，由于自媒体视频由观众自行制作，因此容易出现违反有关规定的内容。以往的普通网络视频可以通过先对上传视频进行人工审核，通过审核后再面向公众播放的方法进行管理。但网络直播视频具有实时播放的特点，难以进行人工事先审核，给网络监管造成了极大困难。因此，探讨如何对网络直播视频进行有效的内容管理具有非常重要的实际意义。近些年，网络直播视频数量急剧增长，人工审核已难以有效发现具有违规内容的直播视频，亟需采用智能化分析方法进行自动鉴别。现有的智能化分析方法主要针对单人场景进行分析，而比较复杂的情况是包含多个人的群组活动，特别是群组异常活动可能会产生更潜在的社会安全事件。例如，斗殴、暴乱、非法集会等直播内容，如若不能即时发现即使阻断，会造成严重的不良后果，进一步引发生公共安全事故以及社会治安事件的产生。

当前，深度学习技术在很多领域已经展现出优秀的特征提取与分析能力，通过使用深度学习技术可以有效提取视频中的高层次语义，从而达到更高的判别效果。因此，采用深度学习技术鉴别直播视频中的违规内容具有重要实际应用价值。对于网络直播视频，尽管视频资源极为丰富，但违规视频数量所占比重极小。为了避免审查，还有一些违规主播被监管机构封禁后很快会针对审查机制对视频进行变化并以新的形式出现，这使得违规活动的表现形式多样且变化速度快。而现有的深度学习方法依赖于大量标注的数据来产生优秀的特征表示能力，对于网络直播，想要短时间收集足够数量的违规视频显然是不现实的，从而导致这些方法难以满足国家对违规内容即时阻断的需求。

发明内容

本发明的目的是提供一种直播视频群组异常活动检测方法、装置、电子设备及介质，用以解决现有技术中的无法满足对违规内容即时阻断的需求的缺陷。

本发明第一方面实施例提供一种直播视频群组异常活动检测方法，包括：

使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对所述直播视频帧序列中的个体进行定位，以得到位置参数；

将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；

将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段。

可选地，所述卷积神经网络是基于Kinetics数据集进行预训练得到的。

可选地，所述卷积神经网络采用将ResNet模块替换为TEA模块的ResNet-50模型来提取所述深度时空特征。

可选地，将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块包括：

以所述个体作为结点，基于所述个体的深度时空特征得到结点的参数，基于所述个体的深度时空特征和位置参数得到所述结点间的边；

通过判断所述结点对群组活动的贡献程度并删除贡献程度低的结点，对所述结点进行优化。

可选地，利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字包括：

基于时间金字塔提取不同尺度的时序关系，将不同尺度、不同时间的群组活动关系输入到所述图卷积模块中以融合时间上下文，将所述图卷积模块的输出作为所述不同时间尺度的群组活动码字。

可选地，将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段包括：

将所述直播视频帧序列的最大时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，判定是否存在群组异常活动，若存在群组异常活动则将所述直播视频帧序列的最小时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，判定所述群组异常活动发生的时间段。

可选地，将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配包括：

使用针对小样本学习的损失函数，以准确判定所述群组异常活动发生的时间段。

本发明第二方面实施例提供一种直播视频群组异常活动检测装置，包括：

时空特征提取与人体定位模块，用于使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对所述直播视频帧序列中的个体进行定位，以得到位置参数；

群组活动关系提取与时间上下文编码模块，用于将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；

群组异常活动判定模块，用于将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段。

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述直播视频群组异常活动检测方法的步骤。

本发明第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述直播视频群组异常活动检测方法的步骤。

本发明实施例提供的直播视频群组异常活动检测方法、装置、电子设备及介质，通过对提取直播视频的深度时空特征，采用人体定位模块对视频中的人物信息进行检测，从而得到短时间内每个个体的位置及其运动特征，便于后续的群组关系建模；通过对群组活动进行建模后进行时间上下文编码，更有效地检测群组活动，并融合不同时间尺度的上下文信息，使群组活动的判断更加准确；在进行群组异常活动匹配时采用小样本学习方法，在得到异常分类结果的同时对异常位置进行定位。对于新类别的学习，通过对模型进行微调并加入新类别的模板进行匹配降低对于数据量的需求，这在实际中可以有效降低数据收集的成本，使模型可以针对新任务进行快速部署。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的直播视频群组异常活动检测方法的流程图；

图2为本发明实施例提供的基于小样本学习的网络直播群组异常活动检测方法流程图；

图3为本发明实施例提供的时空特征提取与人体定位架构图；

图4为本发明实施例提供的群组活动关系提取与时间上下文编码架构图；

图5为本发明实施例提供的小样本学习的群组异常活动匹配过程图；

图6为本发明实施例提供的直播视频群组异常活动检测装置的示意图；

图7示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明以网络直播视频作为研究对象，利用人工智能领域的深度学习技术，发明了一种群组异常活动检测方法。该方法通过深度神经网络提取网络直播视频的时空特征并对视频中的人体位置进行定位；然后采用图卷积网络检测群组活动信息，并对时间上下文进行编码；最后利用小样本学习技术将映射后的结果进行匹配，从而达到对视频中群组异常活动的检测。本发明涉及深度学习、人体定位、群组活动检测和小样本学习等技术。本发明针对网络直播视频中异常群组活动提出检测方法，为网络监管部门提供一种有效的监管手段和技术支持。

最近，小样本学习方法成为研究热点，由于仅需少量样本即可满足模型训练需求，给网络直播视频违规内容鉴别提供了新的解决途径。小样本学习技术要求模型仅从少量样本中进行学习并对特征进行提取，由于其并不依赖大规模的训练样本，因此可以大幅降低数据收集与标注造成的成本。针对新的任务，基于小样本学习的模型可以在较小改进的条件下进行调整，从而能实现快速、低成本的部署。

本发明提出一种小样本学习的网络直播视频群组异常活动检测方法。首先，采用卷积神经网络提取视频中的时空特征并进行人体定位，从而得到视频中每一部分的人体位置及其特征。然后根据人体的位置与特征通过图卷积模块对群组活动关系进行提取，并通过判断每个个体对群组活动贡献程度进行图结点优化从而在得到人群关系的同时减小后续处理的难度。之后，引入基于时间金字塔的多尺度群组活动关系，并采用图卷积对时间上下文进行编码。通过对时间上下文进行编码，可以提高群组活动判断的准确性。最后，利用小样本学习技术对视频进行匹配。在直播过程中只需先将已知的群组异常活动样本通过模型映射为匹配模板，再将待检测的视频通过模型进行映射，在最大时间尺度同匹配模板进行比较即可判定是否存在异常，若存在异常，则继续通过最小时间尺度的匹配从而定位异常在视频中的位置。

本发明主要针对网络直播视频中群组异常活动进行检测，为违规内容鉴别提供参考。首先，提取时空特征并进行人体定位。这一过程首先采用卷积神经网络来提取视频的深度时空特征，之后对视频中的人体位置进行定位，得到视频中每个个体出现的位置以及相应的时空特征。然后根据得到的人物位置及对应时空特征，采用图卷积模块对群组关系进行建模，通过对每个个体对于群组活动的贡献程度进行判断对图结点进行优化，从而去除对于群组活动贡献较低的个体，提高模型的健壮性。考虑到对时间上下文信息进行利用可以更好地分析群组活动，本发明在得到群组关系后进一步采用时间金字塔构建多尺度的群组关系，利用图卷积对时间上下文进行编码，从而将时间上下文融合到群组活动的特征中。最后，采用小样本学习技术实现群组异常活动匹配。这一过程基于结构相似度对已知类别的群组异常活动样本的码字与待匹配的网络直播视频样本的码字进行匹配，从而实现小样本学习。

图1为本发明实施例提供的直播视频群组异常活动检测方法的流程图，如图1所示，本发明实施例提供的直播视频群组异常活动检测方法包括：

步骤110，使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对所述直播视频帧序列中的个体进行定位，以得到位置参数；

步骤120，将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；

步骤130，将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段。

具体地，图2为本发明实施例提供的基于小样本学习的网络直播群组异常活动检测方法流程图，如图2所示，本发明实施例提供的基于小样本学习的网络直播群组异常活动检测方法包括三个步骤：深度时空特征提取与人体定位、群组活动关系提取与时间上下文编码和小样本学习的群组异常活动匹配。

一，深度时空特征提取与人体定位

为了提取视频中的高层次语义信息，本发明通过采用卷积神经网络提取直播视频的深度时空特征。对于视频信息，本发明选取Kinetics数据集对卷积神经网络进行预训练，从而使其不仅能提取每一帧的语义信息，还能提取视频中短时的动作信息。在提取视频深度时空特征之后，采用人体定位模块对视频中的人物进行定位，从而得到视频中的人体位置及其相应特征。

二，群组活动关系提取与时间上下文编码

本发明提出了一种群组活动建模及时序信息编码方案。群组活动关系提取部分分为两个任务：图卷积的群组活动关系提取和群组活动贡献判断的图结点优化。对于群组活动关系的提取，通过将视频中每个个体的特征作为结点，个体间的位置关系和特征相似度作为结点间的边从而构建图卷积模块对视频中个体之间的关系进行建模。为了提高模型的健壮性，同时提高检测速度，在构造图卷积模块时，通过对每个结点进行判断得到该结点对于群组活动的贡献程度。若一个结点的贡献较小，则将该节点从图中删除，从而达到优化图结点的效果。在通过图卷积模块得到群组关系后，为了进一步提高判断的准确度，需要对时序信息进行进一步提取并编码。对于时序关系的提取，主要基于时间金字塔构建多尺度的群组关系。之后，利用图卷积对时间上下文信息进行编码，从而使群组活动的判断可以考虑到更长时间范围内的信息。

三，小样本学习的群组异常活动匹配

鉴于网络直播视频标注数据难以获得，本发明采用一种基于编码技术的匹配方法实现小样本学习的群组异常活动匹配。由于相同类别的视频编码相似度应高于不同类别的视频，根据结构相似度对小样本视频进行匹配，得到待匹配视频的群体活动类别。本发明首先对已知类别群组异常活动和待匹配视频的最大时间尺度码字进行匹配，判断待匹配视频中是否存在异常，之后对最小时间尺度码字进行匹配，来准确定位异常活动在视频中发生的位置。为了使相同类别的视频具有更相似的结构，同时为了更好地判定发生异常的位置，本文提出了一种针对小样本学习的损失函数从而解决模型的优化问题。

本发明与现有技术相比，具有以下明显的优势和有益效果：

首先，本发明通过对提取直播视频的深度时空特征，采用人体定位模块对视频中的人物信息进行检测，从而得到短时间内每个个体的位置及其运动特征，便于后续的群组关系建模；第二，通过对群组活动进行建模后进行时间上下文编码，更有效地检测群组活动，并融合不同时间尺度的上下文信息，使群组活动的判断更加准确；第三，在构建图网络时采用的基于群组活动贡献对图结点进行优化，在降低计算复杂度的同时提升判断的准确度；最后，在进行群组异常活动匹配时采用小样本学习方法，在得到异常分类结果的同时对异常位置进行定位。对于新类别的学习，通过对模型进行微调并加入新类别的模板进行匹配降低对于数据量的需求，这在实际中可以有效降低数据收集的成本，使模型可以针对新任务进行快速部署。

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：深度时空特征提取与人体定位

图3为本发明实施例提供的时空特征提取与人体定位架构图，参考图3，下文对深度时空特征提取与人体定位做进一步阐述。

步骤1.1：深度时空特征提取

时空特征是指时间与空间特征。通过对输入神经网络的视频序列中的多帧信号进行同时分析，提取到深度空间信息以及时序信息。

首先输入一段视频段中的几帧图像，经过卷积神经网络进行一系列卷积操作，得到一组特征图。对于本发明中使用的卷积神经网络，采用TEA模块替换ResNet模块的ResNet-50模型提取深度时空特征。ResNet-50模型首先采用一个7×7大小，步长为2且通道数为64的卷积核对图像进行卷积，之后进行3×3大小步长为2的最大池化，接着通过16个ResNet模块，每个模块由1×1大小的卷积层先对图像通道数进行改变，之后通过3×3大小的卷积提取特征，之后再通过1×1大小的卷积对通道数进行改变，然后同未通过该模块中第一层卷积的特征进行按元素求和。本发明中，采用TEA模块对ResNet模块中的3×3卷积进行替换。TEA模块包括两个部分，分别是ME模块和MTA模块。输入序列在进入TEA模块后，首先通过ME模块，该模块先通过1×1大小的卷积改变通道数量，之后采用帧差法提取两帧特征之间的差异。之后采用空间池化将特征大小转换至1×1，然后通过1×1卷积改变维度并采用Sigmoid激活函数进行非线性映射。之后，通过利用激活结果对输入至模块中的元素序列进行加权并同输入序列求和后进行输出。在通过ME模块处理后，将特征输入至MTA模块，该模块将输入特征按通道分离，并对每组通道采用不同数量的一维和二维卷积从而使其学习到不同时层次的时空特征，最后重新拼接后输出。对于MTA模块的输出结果，还需通过1×1卷积后同输入信号进行求和才能输出至后续模块。在通过全部模块后，本发明将最后输出的特征图作为提取到的深度时空特征用于后续分析。

对于小样本学习，由于已知的视频较少，无法满足复杂神经网络的训练需求，为了使模型能够更好的提取时空特征，本发明选取Kinetics数据集对卷积神经网络进行预训练，从而使其不仅能提取每一帧的语义信息，还能提取视频中短时的动作信息。根据类别数目的不同，当前Kinetics被分为Kinetics-400/600/700等多个子类。本发明使用的Kinetics-400数据集包括了四百种的人体动作类别，每一种类别都至少有400个视频片段，每个片段都取自不同的YouTube视频，持续大概十秒。数据集的动作类别包括人和物体的交互，比如弹奏乐器；人与人的交互，比如握手或拥抱。

步骤1.2：人体定位模块

在通过卷积神经网络得到深度时空特征图之后，采用特征金字塔网络(FeaturePyramid Networks for Object Detection，FPN)和PAN对图像中存在的人进行检测实现定位，其中PAN即PANet，简单来说，就是在FPN上采样融合的特征金字塔之后，又增加了一个下采样融合的特征金字塔。该部分首先对一帧图像依次进行三次2×2大小的池化操作以及下采样，之后通过FPN对池化后的结果进行三次上采样并在每次上采样后同之前的特征进行求和，得到新的特征。之后，将特征通过PAN再次进行下采样，并同之前上采样得到的特征进行求和，最终输出经过强化后的特征，从而提升定位精度。

步骤2：群组活动关系提取与时间上下文编码

图4为本发明实施例提供的群组活动关系提取与时间上下文编码架构图，参考图4，下文对群组活动关系提取与时间上下文编码做进一步阐述。

步骤2.1：群组活动关系提取

步骤2.1.1：图卷积的群组活动关系提取

为了建模群组活动，在对每帧图像中的人体进行定位后，通过将人体的位置参数及对应的时空特征作为图卷积模块的输入，对群组关系进行建模。具体而言，将每个个体作为图中的一个结点，其具体参数由每个个体的时空特征得到。结点间的边由个体间的位置关系和特征相似度构建。经过图卷积模块，即可得到每个个体同其他人交互的情况。图卷积的具体公式如下所示：

H＝σ(AGW) (1)

式中，H为输出的结果，σ为激活函数，A为邻接矩阵，G为输入的每个个体的参数，W为权重参数矩阵，用于对输入参数G进行加权。其中的邻接矩阵即为结点间边的关系。对于结点间的位置关系，采用下式得到：

其中，c_m代表第m个个体的中心位置，公式如下：

式中，x_m和y_m是中心位置的横纵坐标，W₁和H₁为视频的宽和高。

对于节点间的特征相似度，采用余弦相似度进行衡量，具体公式如下所示：

在分别计算由位置关系与特征相似度构成邻接矩阵的图卷积后，将特征进行拼接作为得到的群组关系。

步骤2.1.2：群组活动贡献判断的图结点优化

为了提高速度与模型的健壮性，对于群组活动参与度较低的结点，需要在计算图卷积之前进行去除。具体的判别方法为：首先设定阈值并将小于阈值的邻接矩阵中的边置为零；然后对邻接矩阵的每一列求和，得到每个结点同其他结点的关系之和，若某个结点的两个邻接矩阵元素都较小，则将该结点从图中删除；最后，将剩余的结点输入图卷积模块进行计算。

步骤2.2：时间上下文编码

步骤2.2.1：时间金字塔的多尺度群组活动关系构建

在通过图卷积得到群组活动关系之后，将视频中不同时间的关系进行拼接，得到群组活动随时间的变化情况，然后采用时间金字塔提取不同尺度的时序关系，并按照其尺度排序并进行拼接。

步骤2.2.2：图卷积的时间上下文编码

在得到多尺度的时序关系后，将不同尺度、不同时间的群组活动关系输入到图卷积模块中从而进一步融合时间上下文，并将图卷积模块的输出作为编码结果。

步骤3：小样本学习的群组异常活动匹配

图5为本发明实施例提供的小样本学习的群组异常活动匹配过程图，参考图5，下文对小样本学习的群组异常活动匹配过程做进一步阐述。

步骤3.1：结构相似度的小样本群组异常活动匹配

本发明采用了基于匹配的方法对群组活动类别进行判断，并在同时可以对群组活动发生的时间进行定位。对于已知类别的异常群组活动视频，将其通过模型映射编码后作为模板进行存储。对于待匹配的视频，通过计算结构相似度同模板进行匹配。其匹配过程首先计算尺度最大的部分各时间段内待匹配视频同模板之间码字的余弦相似度之和，并根据阈值判定是否存在群组异常活动。若存在异常，则根据之前得到的各时间段类别在最小尺度上进行匹配，从而得到群组异常活动发生的准确时间段，最终实现小样本群组异常活动的判断与定位。

步骤3.2：小样本学习的损失函数设计

为了对提出的模型进行优化，本发明设计了一种小样本学习的损失函数。对于用于匹配的模板，由于其通常仅含有一种群组活动，因此其不同时间段内的编码应具有更高的相似度。同一类别中不同的视频间编码的相似度也应当较高。根据这一思想可得到如下公式：

式中，L为最终的损失函数，C为一个批次中的视频匹配次数，第一部分中Sⁱ用于预测视频的群组活动类别同模板是否相同，当模型认为待匹配视频与匹配模板的类别相同时，Sⁱ为1，否则为0。GTⁱ为对应的真实标签是否相同。此处采用Sigmoid交叉熵函数对损失函数第一部分进行计算。第二部分主要计算定位信息，其中α为超参数，用于调节第二部分占损失函数的权重。N₁和N₂为匹配和待匹配的视频码字长度，第二部分通过提高相同类别码字间的相似度，降低不同类别码字的相似度从而使模型具备定位的能力。为了避免时间尺度不同造成匹配相似度较低影响模型优化，此处匹配仅对相同时间尺度的相似度进行计算。

图6为本发明实施例提供的直播视频群组异常活动检测装置的示意图，如图6所示，本发明实施例提供的直播视频群组异常活动检测装置包括：

时空特征提取与人体定位模块610，用于使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对所述直播视频帧序列中的个体进行定位，以得到位置参数；

群组活动关系提取与时间上下文编码模块620，用于将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；

群组异常活动判定模块630，用于将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段。

由于本发明实施例提供的直播视频群组异常活动检测装置，可以用于执行上述实施例所述的直播视频群组异常活动检测方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行直播视频群组异常活动检测方法，该方法包括使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对直播视频帧序列中的个体进行定位，以得到位置参数；将个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；将不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生群组异常活动的时间段。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的直播视频群组异常活动检测方法，该方法包括：使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对直播视频帧序列中的个体进行定位，以得到位置参数；将个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；将不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生群组异常活动的时间段。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的直播视频群组异常活动检测方法，该方法包括：使用卷积神经网络提取直播视频帧序列中个体的深度时空特征，并使用FPN和PAN网络对直播视频帧序列中的个体进行定位，以得到位置参数；将个体的深度时空特征和位置参数作为输入以构建图卷积模块，从而提取群组活动关系，并利用图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字；将不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生群组异常活动的时间段。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种直播视频群组异常活动检测方法，其特征在于，包括：

2.根据权利要求1所述的直播视频群组异常活动检测方法，其特征在于，所述卷积神经网络是基于Kinetics数据集进行预训练得到的。

3.根据权利要求1或2所述的直播视频群组异常活动检测方法，其特征在于，所述卷积神经网络采用将ResNet模块替换为TEA模块的ResNet-50模型来提取所述深度时空特征。

4.根据权利要求1所述的直播视频群组异常活动检测方法，其特征在于，将所述个体的深度时空特征和位置参数作为输入以构建图卷积模块包括：

5.根据权利要求1所述的直播视频群组异常活动检测方法，其特征在于，利用所述图卷积模块对时间上下文信息进行编码，以得到不同时间尺度的群组活动码字包括：

6.根据权利要求1所述的直播视频群组异常活动检测方法，其特征在于，将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配，以判定是否发生群组异常活动和/或发生所述群组异常活动的时间段包括：

7.根据权利要求1或6所述的直播视频群组异常活动检测方法，其特征在于，将所述不同时间尺度的群组活动码字与已知类别的群组活动码字进行匹配包括：

8.一种直播视频群组异常活动检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述直播视频群组异常活动检测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述直播视频群组异常活动检测方法的步骤。