CN113095257A

CN113095257A - 异常行为检测方法、装置、设备及存储介质

Info

Publication number: CN113095257A
Application number: CN202110425377.1A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-09

Abstract

公开了一种异常行为检测方法、装置、设备及存储介质，所述方法包括：获取第一图像中的至少一个第一检测框；根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

Description

异常行为检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种异常行为检测方法、装置、设备及存储介质。

背景技术

视频图像中的异常检测是计算机视觉领域的重要问题。由于检测视频通常具有高视角、大范围、低分辨率等特点，因此基于检测视频提取的视觉特征通常较弱，导致对检测视频进行异常行为检测的效果通常较差，因此亟需开发一种检测效果好、准确率高的异常行为检测方法。

发明内容

本公开实施例提供一种异常行为检测方案。

根据本公开的一方面，提供一种异常行为检测方法，所述方法包括：获取第一图像中的至少一个第一检测框；根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

结合本公开提供的任一实施方式，所述根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框，包括：以第一设定倍数对所述第一检测框进行等比例扩展，得到第二检测框；确定各个第二检测框之间的重叠关系；确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框；确定所述第二中心检测框对应的第一检测框为所述第一中心检测框。

结合本公开提供的任一实施方式，所述确定所述第二检测框中，与其他第二检测框具有最多重叠关系的第二中心检测框，包括：根据各个第二检测框之间的重叠关系构建邻接矩阵，其中，所述邻接矩阵中的第一数值表示所对应的两个第二检测框之间重叠，第二数值标识所对应的两个第二检测框之间不重叠；获得所述邻接矩阵中各个第二检测框对应的第一数值的总和；确定所述第一数值的总和最大的第二检测框为第二中心检测框。

结合本公开提供的任一实施方式，所述预设尺寸指示长和宽分别为第一长度；所述将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域，包括：将所述第一中心检测框的第一边和第二边进行等比例扩展，直至所述第一边的长度达到所述第一长度，其中，所述第一边的长度大于或等于第二边的长度；在扩展后的第一中心检测框的第二边小于所述第一长度的情况下，利用第一像素对扩展后的第一中心检测框进行补充，使补充后的第二边的长度达到所述第一长度。

结合本公开提供的任一实施方式，所述第一图像为视频流中的一帧，所述方法还包括：将所述视频流中各个第一图像中的目标候选区域进行合并；利用异常行为检测网络，对合并后的目标候选区域在所述第一图像中对应的图像区域进行检测，得到所述第一图像的异常行为检测结果。

结合本公开提供的任一实施方式，所述方法还包括：根据所述视频流中各个第一图像的异常行为检测结果，确定所述视频图流的异常行为检测结果。

结合本公开提供的任一实施方式，所述方法还包括：利用生成数据对所述异常行为检测网络进行训练，其中，所述生成数据是通过动画引擎生成的异常行为数据，和/或，利用真实数据对所述异常行为检测网络进行微调。

结合本公开提供的任一实施方式，所述异常行为检测网络包括特征提取网络、判别网络和分类网络，所述利用生成数据对所述异常行为检测网络进行训练包括：利用所述特征提取网络对输入数据进行特征提取，得到特征信息；将所述特征信息输入至所述判别网络，得到判别结果，所述判别结果指示所述特征信息是基于生成数据或真实数据生成的；将所述特征信息输入到所述分类网络，得到分类结果，所述分类结果指示所述输入数据为异常行为数据或非异常行为数据；根据所述判别结果与第一标注信息之间的差异以及所述分类结果与第二标准信息之间的差异，调整所述异常行为网络的参数，其中，所述第一标注信息指示所述输入数据为生成数据或真实数据，所述第二标准信息指示所述输入数据为异常行为数据或非异常行为数据。

结合本公开提供的任一实施方式，以设定切换频率对所述特征提取网络和所述分类网络以及对所述判别网络进行交替训练。

根据本公开的一方面，提供一种异常行为检测装置，所述装置包括：获取单元，用于获取第一图像中的至少一个第一检测框；确定单元，用于根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；扩展单元，用于将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；检测单元，用于利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

结合本公开提供的任一实施方式，所述确定单元具体用于：以第一设定倍数对所述第一检测框进行等比例扩展，得到第二检测框；确定各个第二检测框之间的重叠关系；确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框；确定所述第二中心检测框对应的第一检测框为所述第一中心检测框。

结合本公开提供的任一实施方式，所述确定单元在用于确定所述第二检测框中，与其他第二检测框具有最多重叠关系的第二中心检测框时，具体用于：根据各个第二检测框之间的重叠关系构建邻接矩阵，其中，所述邻接矩阵中的第一数值表示所对应的两个第二检测框之间重叠，第二数值标识所对应的两个第二检测框之间不重叠；获得所述邻接矩阵中各个第二检测框对应的第一数值的总和；确定所述第一数值的总和最大的第二检测框为第二中心检测框。

结合本公开提供的任一实施方式，所述预设尺寸指示长和宽分别为第一长度；所述扩展单元具体用于：将所述第一中心检测框的第一边和第二边进行等比例扩展，直至所述第一边的长度达到所述第一长度，其中，所述第一边的长度大于或等于第二边的长度；在扩展后的第一中心检测框的第二边小于所述第一长度的情况下，利用第一像素对扩展后的第一中心检测框进行补充，使补充后的第二边的长度达到所述第一长度。

结合本公开提供的任一实施方式，所述第一图像为视频流中的一帧，所述装置还包括合并单元，用于将所述视频流中各个第一图像中的目标候选区域进行合并；利用异常行为检测网络，对合并后的目标候选区域在所述第一图像中对应的图像区域进行检测，得到所述第一图像的异常行为检测结果。

结合本公开提供的任一实施方式，所述装置还包括视频确定单元，用于根据所述视频流中各个第一图像的异常行为检测结果，确定所述视频图流的异常行为检测结果。

结合本公开提供的任一实施方式，所述装置还包括训练单元，用于利用生成数据对所述异常行为检测网络进行训练，其中，所述生成数据是通过动画引擎生成的异常行为数据，和/或，利用真实数据对所述异常行为检测网络进行微调。

结合本公开提供的任一实施方式，所述异常行为检测网络包括特征提取网络、判别网络和分类网络，所述训练单元在用于利用生成数据对所述异常行为检测网络进行训练时，具体用于：利用所述特征提取网络对输入数据进行特征提取，得到特征信息；将所述特征信息输入至所述判别网络，得到判别结果，所述判别结果指示所述特征信息是基于生成数据或真实数据生成的；将所述特征信息输入到所述分类网络，得到分类结果，所述分类结果指示所述输入数据为异常行为数据或非异常行为数据；根据所述判别结果与第一标注信息之间的差异以及所述分类结果与第二标准信息之间的差异，调整所述异常行为网络的参数，其中，所述第一标注信息指示所述输入数据为生成数据或真实数据，所述第二标准信息指示所述输入数据为异常行为数据或非异常行为数据。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的异常行为检测方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的异常行为检测方法。

根据本公开的一方面，提供一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的异常行为检测方法。

本公开一个或多个实施例的异常行为检测方法、装置、设备及存储介质，通过对第一图像中的至少一个第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框，再通过将第一中心检测框扩展至预设尺寸，得到第一图像中的目标候选区域，并利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。由于异常事件的发生位置以及检测框的尺度具有随机性，本公开实施例通过根据第一检测框之间的位置关系确定第一中心检测框，并对第一中心检测框进行扩展，可以预估出密集目标位置，从而可以指导第一图像中可能存在异常行为的目标候选区域进行推理，增加了异常行为检测网络的有效感知区域，减少了无关背景的检索范围，提高了异常行为检测的效率以及准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开实施例示出的一种异常行为检测方法的流程图；

图2是本公开实施例示出确定第一中心检测框的示意图；

图3是本公开实施例示出的异常行为检测网络的训练示意图；

图4是本公开实施例示出的一种异常行为检测装置的结构示意图；

图5是本公开实施例示出的一种电子设备的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

图1为本公开实施例提供的异常行为检测方法的流程图，如图1所示，所述方法包括步骤101～步骤104。

在步骤101中，获取第一图像中的至少一个第一检测框。

在本公开实施例中，所述第一图像可以是在目标检测场景下，图像采集设备(例如检测摄像头)所采集的检测区域的图像。

图像采集设备所采集的第一图像可以是视频流中的一帧，也可以是实时获取的图像，并公开对此不作限制。

在本公开实施例中，可以利用深度学习网络，例如faster RCNN网络、SSD、YOLO等等，对第一图像进行躯体检测，获得第一图像中所包含的一个或多个检测框。其中，所述躯体可以是任一类型动物的躯体，为了与后续处理的检测框进行区分，将所述第一图像中检测到的检测框称为第一检测框。对所述第一图像进行躯体检测还得到了第一检测框的参数信息，参数可以包括第一检测框的长度、宽度、中心点坐标、顶点坐标、角度等一种或任意组合。本领域技术人员应当理解，上述深度学习网络仅为示例，也可以采用其他的网络进行躯体检测，本公开对此不进行限制。

在步骤102中，根据所述至少一个第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框。

所述第一图像中各个第一检测框之间的位置关系，可以表征所述第一检测框的密度分布情况。也即，在两个及以上的检测框位置比较接近、甚至重叠的情况下，该区域的检测框分布密度较大；反之，分布密度较小。

在本公开实施例中，可以将所述至少一个第一检测框中，与其他第一检测框位置关系最紧密，也即平均距离最小或者平均重叠率最高的第一体检测框，作为中心检测框。也即是说，可以将密度分布最高区域对应的第一检测框作为第一中心检测框。

在步骤103中，将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域。

其中，所述预设尺寸可以根据所述第一中心检测框的尺寸确定。所述预设尺寸可以是第一中心检测框面积的若干倍，例如10倍，以使得扩展后的第一中心检测框包含发生异常行为的对象。

在本公开实施例中，通过以所述第一中心检测框的中心点为中心，对第一中心检测框进行扩展，来确定所述第一图像中的目标候选区域，可以筛选出所述第一图像中可能存在异常行为的区域。

在步骤104中，利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

所述异常行为检测网络，可以识别所述第一图像的目标候选区域中的异常行为。由于本公开实施例通过对第一中心检测框进行扩展得到了目标候选区域，也即从异常行为事件的中心进行扩展，因此基于所述目标候选区域所得到的异常行为检测结果可以增加覆盖发生异常行为的全部对象的可能性。

在本公开实施例中，通过对第一图像中的至少一个第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框，再通过将第一中心检测框扩展至预设尺寸，得到第一图像中的目标候选区域，并利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。由于异常事件的发生位置以及检测框尺度具有随机性，本公开实施例通过根据第一检测框之间的位置关系确定第一中心检测框，并对第一中心检测框进行扩展，可以预估出密集群体位置，从而可以指导第一图像中可能存在异常行为的目标候选区域进行推理，增加了异常行为检测网络的有效感知区域，减少了无关背景的检索范围，提高了异常行为检测的效率以及准确度。

在一些实施例中，可以通过以下方式确定所述第一图像中的第一中心检测框。

首先，以第一设定倍数对所述第一检测框进行等比例扩展，得到第二检测框。

其中，所述第一设定倍数通常设置在(1～2)之间，例如可以将所述第一设定倍数设置为1.2、1.5或1.8等。

接下来，确定各个第二检测框之间的重叠关系。

参见图2所示的各个第二检测框的重叠关系。其中，第二检测框201与第二检测框202、第二检测框203之间重叠，而第二检测框201与第二检测框204之间不重叠。

进一步地，还可以确定各个第二检测框之间的交并比(Intersection overUnion，IOU)，利用IOU指示各个第二检测框之间的重叠关系。

接着，确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框。

通过针对各个第二检测框，统计与其他第二检测框是否存在重叠关系，可以确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框。

以图2所示的第二检测框为例，可得知第二检测框201与第二检测框202、第二检测框203重叠；第二检测框202与第二检测框201重叠；第二检测框203与第二检测框201重叠；第二检测框204与其他第二检测框均不重叠。因此，可以确定图2中第二检测框201为第二中心检测框。

最后，确定所述第二中心检测框对应的第一检测框为所述第一中心检测框。

仍以图2所示的第二检测框为例，其中，第二检测框201为第二中心检测框，而第二检测框201是通过对第一检测框211进行等比例扩展得到的，因此可以确定第一检测框211为第一中心检测框。

在本公开实施例中，也可以根据第一检测框之间的重叠关系来确定第一中心检测框，然而由于在异常行为发生过程中，在视频流的其中一帧或多帧中，可能存在第一检测框之间没有重叠关系的情况，导致无法确定第一中心检测框。通过对第一检测框进行扩展后，进一步根据扩展后的重叠关系来确定第一中心检测框，在不改变第一检测框的分布密度的情况下，可以增加第一中心检测框之间重叠的概率，从而提高第一中心检测框的检测效率以及检测成功率。

在一些实施例中，可以通过根据第二检测框之间的重叠关系构建邻接矩阵的方式，来确定第二中心检测框。

根据各个第二检测框之间的重叠关系所构建的邻接矩阵中，第一数值标识表示所对应的两个第二检测框之间重叠，第二数值标识所对应的两个第二检测框之间不重叠。

在一个示例，可以根据所述第二检测框的面积进行排序，再对排序后的第二从体检测框构建邻接矩阵。

以图2所示的第二检测框为例，将图2中的各个第二检测框按面积降序排列，得到：第二检测框201、第二检测框202、第二检测框203、第二检测框204。之后再根据降序排列的第二检测框构建邻接矩阵得到：

其中，第1行至第4行，以及第1列至第4列分别对应第二检测框201、202、203、204。在公式(1)所示的邻接矩阵中，第一数值1表示对应的两个第二检测框重叠，第二数值0表示对应的两个第二检测框不重叠。

对于所述邻接矩阵，获得各个第二检测框对应的第一数值的总和，并确定所述第一数值的总和最大的第二检测框为第二中心检测框。

以公式(1)所示的邻接矩阵为例，通过该邻接矩阵可以确定第二检测框201对应的第一数值的总和为2，第二检测框202对应的第一数值的总和为1，第二检测框203对应的第一数值的总和为1，第二检测框204对应的第一数值的总和为0，从而可以确定第二检测框201为第二中心检测框。

在一些实施例中，在所述第一图像中的各个第二检测框之间均不重叠的情况下，可以以面积最大的第二检测框作为第二中心检测框，并由此确定所对应的第一中心检测框。

在一个示例中，所述预设尺寸可以指示长和宽分别为第一长度，也即将所述第一中心检测框扩展成长和宽分别为第一长度。具体地，可以通过以下方式进行扩展：

首先，将所述第一中心检测框的第一边和第二边进行等比例扩展，直至所述第一边的长度达到所述第一长度，其中，所述第一边的长度大于或等于第二边的长度。也即，以第一中心检测框的长边为基准进行扩展，首先将长边扩展至第一长度，短边则进行等比例扩展。

在扩展后的第一中心检测框的第二边小于所述第一长度的情况下，利用第一像素对扩展后的第一中心检测框进行补充，使补充后的第二边的长度达到所述第一长度。

举例来说，在所述预设尺寸指示224像素*224像素的情况下，首先对第一中心检测框的长边扩展至224像素，短边则等比例扩展，不足224像素的部分补黑边。

在一些实施例中，在所述第一图像为视频流中的一帧的情况下，可以将所述视频流中各个第一图像中的目标候选区域进行合并；利用异常行为检测网络，对合并后的目标候选区域在所述第一图像中对应的图像区域进行检测，得到所述第一图像的异常行为检测结果。其中，在所述第一图像中不存在检测框的情况下，则可以忽略，只对视频流中存在检测框的第一图像的目标候选区域进行合并。

通过对各个第一图像中的目标候选区域进行合并，以得到较大的区域来指导每帧每一图像中进行检测区域的选取，使得输入异常行为检测网络的图像区域保持稳定，便于进行检测。

在所述第一图像为视频流中的一帧的情况下，可以根据所述视频流中各个第一图像的异常行为检测结果，确定所述视频图流的异常行为检测结果。例如，在异常行为检测结果指示存在异常行为的第一图像超过设定比例的情况下，则确定所述视频流的异常行为检测结果为存在异常行为。

在一些实施例中，在输入的视频流中的各个第一图像均无检测框的情况下，可以统一以第一图像的中心点直接选取设定尺寸的目标候选区域进行检测。例如，以第一图像的中心点选取224*224的目标候选区域进行检测。

相关技术中，识别检测视频中的异常事件还存在小概率事件导致标注数据稀缺。

为了解决上述问题，本公开实施例提出了一种利用生成数据对所述异常行为检测网络进行训练，其中，所述生成数据是通过动画引擎，例如利用GTA游戏引擎生成的异常行为数据。

通过利用动画引擎生成异常行为数据，可以丰富不同场景、不同拍摄视角以及不同光照条件下的异常数据多样性，从而间接提升异常行为检测网络的泛化性能。

为了解决不同源数据间的域差异问题，本公开实施例首先利用生成数据对所述异常行为检测网络进行训练，然后利用真实数据对所述异常行为检测网络进行微调，从而可以获得更稳定的性能增益。

本公开实施例还提出了一种利用对抗学习的方法对所述异常行为检测网络过行训练的方法。图3示出了该训练方法的示意图，如图3所示，异常行为检测网络310包括特征提取网络301和分类网络302，其中，所述特征提取网络301用于对输入数据提取特征信息，所述分类网络302用于根据所述特征信息预测输入数据为异常行为数据或非异常行为数据。对于对视频流进行检测的异常行为检测网络，该特征提取网络可以是I3D(双流3D转换)网络，以从视频流中获取时空特征(spatio-temporal feature)。本公开实施例通过增加判别网络303对所述异常行为检测网络310进行训练，具体而言，对异常行为检测网络310中的特征提取网络301和判别网络303进行对抗训练，其中，所述判别网络303预测所述特征信息是基于生成数据生成的或基于真实数据生成的。

在一些实施例中，可以通过以下方式对所述异常行为进行训练。

首先，利用所述特征提取网络对输入数据进行特征提取，得到特征信息。接下来，将所述特征信息分别输入至判断网络所在的分支，和分类网络所在的分支。也即一方面，将所述特征信息输入至所述判别网络，得到判别结果，所述判别结果指示所述特征信息是基于生成数据或真实数据生成的；另一方面，将将所述特征信息输入到所述分类网络，得到分类结果，所述分类结果指示所述输入数据为异常行为数据或非异常行为数据。最后，根据所述判别结果与第一标注信息之间的差异以及所述分类结果与第二标准信息之间的差异，调整所述异常行为网络的参数，其中，所述第一标注信息指示所述输入数据为生成数据或真实数据，所述第二标准信息指示所述输入数据为异常行为数据或非异常行为数据。

在公开实施例中，对所述异常行为特征网络进行训练的网络损失包括判别损失

用于指示判别网络303对于所述特征信息输出的判别结果与第一标注信息之间的差异，所述判别损失可以用公式(1)表示：

其中，X_s为生成数据，X_t为真实数据，f_T为基于输入数据提取的特征信息，D为判别网络，x_t～X_T为真实数据集中的数据，x_s～X_S为生成数据集中的数据。

所述网络损失还包括分类损失

用于指示所述分类网络302对于所述特征信息输出的分类结果与所述输入数据的第二标注信息之间的差异。

对所述异常行为特征网络进行训练的总的网络损失

可以用公式(2)表示：

其中，λ_adv表示判别损失的权重。

在训练过程中，以设定切换频率对所述特征提取网络301和所述分类网络302，以及对所述判别网络303进行交替训练。具体地，可以将所述设定切换频率设置为比如，2、5、10等等，当训练所述特征提取网络301和所述分类网络302时，固定住判别网络303分支的参数；同理，当训练所述判别网络303时，固定住所述特征提取网络301和所述分类网络302分支的参数。

在本公开实施例中，通过调整分类损失与判别损失的权重，以及调整交替训练的设定切换频率，可以获得更好训练效果。

在一个示例中，可以将生成数据和真实数据的比例设置为1：1来进行对抗学习，以实现较佳训练效果。

图4为本公开至少一个实施例提供的异常行为检测装置，如图4所示，所述装置可以包括：获取单元401，用于获取第一图像中的至少一个第一检测框；确定单元402，用于根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；扩展单元403，用于将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；检测单元404，用于利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

在一些实施例中，所述确定单元具体用于：以第一设定倍数对所述第一检测框进行等比例扩展，得到第二检测框；确定各个第二检测框之间的重叠关系；确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框；确定所述第二中心检测框对应的第一检测框为所述第一中心检测框。

在一些实施例中，所述确定单元在用于确定所述第二检测框中，与其他第二检测框具有最多重叠关系的第二中心检测框时，具体用于：根据各个第二检测框之间的重叠关系构建邻接矩阵，其中，所述邻接矩阵中的第一数值表示所对应的两个第二检测框之间重叠，第二数值标识所对应的两个第二检测框之间不重叠；获得所述邻接矩阵中各个第二检测框对应的第一数值的总和；确定所述第一数值的总和最大的第二检测框为第二中心检测框。

在一些实施例中，所述预设尺寸指示长和宽分别为第一长度；所述扩展单元具体用于：将所述第一中心检测框的第一边和第二边进行等比例扩展，直至所述第一边的长度达到所述第一长度，其中，所述第一边的长度大于或等于第二边的长度；在扩展后的第一中心检测框的第二边小于所述第一长度的情况下，利用第一像素对扩展后的第一中心检测框进行补充，使补充后的第二边的长度达到所述第一长度。

在一些实施例中，所述第一图像为视频流中的一帧，所述装置还包括合并单元，用于将所述视频流中各个第一图像中的目标候选区域进行合并；利用异常行为检测网络，对合并后的目标候选区域在所述第一图像中对应的图像区域进行检测，得到所述第一图像的异常行为检测结果。

在一些实施例中，所述装置还包括视频确定单元，用于根据所述视频流中各个第一图像的异常行为检测结果，确定所述视频图流的异常行为检测结果。

在一些实施例中，所述装置还包括训练单元，用于利用生成数据对所述异常行为检测网络进行训练，其中，所述生成数据是通过动画引擎生成的异常行为数据，和/或，利用真实数据对所述异常行为检测网络进行微调。

在一些实施例中，所述异常行为检测网络包括特征提取网络、判别网络和分类网络，所述训练单元在用于利用生成数据对所述异常行为检测网络进行训练时，具体用于：利用所述特征提取网络对输入数据进行特征提取，得到特征信息；将所述特征信息输入至所述判别网络，得到判别结果，所述判别结果指示所述特征信息是基于生成数据或真实数据生成的；将所述特征信息输入到所述分类网络，得到分类结果，所述分类结果指示所述输入数据为异常行为数据或非异常行为数据；根据所述判别结果与第一标注信息之间的差异以及所述分类结果与第二标准信息之间的差异，调整所述异常行为网络的参数，其中，所述第一标注信息指示所述输入数据为生成数据或真实数据，所述第二标准信息指示所述输入数据为异常行为数据或非异常行为数据。

在一些实施例中，以设定切换频率对所述特征提取网络和所述分类网络以及对所述判别网络进行交替训练。

图5为本公开至少一个实施例提供的电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本说明书任一实施例所述的异常行为检测方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例所述的异常行为检测方法。

本公开至少一个实施例还提供了一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本说明书任一实施例所述的异常行为检测方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种异常行为检测方法，其特征在于，所述方法包括：

获取第一图像中的至少一个第一检测框；

根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；

将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；

利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框，包括：

以第一设定倍数对所述第一检测框进行等比例扩展，得到第二检测框；

确定各个第二检测框之间的重叠关系；

确定所述第二检测框中，与其他第二检测框重叠最多的第二中心检测框；

确定所述第二中心检测框对应的第一检测框为所述第一中心检测框。

3.根据权利要求2所述的方法，其特征在于，所述确定所述第二检测框中，与其他第二检测框具有最多重叠关系的第二中心检测框，包括：

根据各个第二检测框之间的重叠关系构建邻接矩阵，其中，所述邻接矩阵中的第一数值表示所对应的两个第二检测框之间重叠，第二数值标识所对应的两个第二检测框之间不重叠；

获得所述邻接矩阵中各个第二检测框对应的第一数值的总和；

确定所述第一数值的总和最大的第二检测框为第二中心检测框。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预设尺寸指示长和宽分别为第一长度；所述将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域，包括：

将所述第一中心检测框的第一边和第二边进行等比例扩展，直至所述第一边的长度达到所述第一长度，其中，所述第一边的长度大于或等于第二边的长度；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述第一图像为视频流中的一帧，所述方法还包括：

将所述视频流中各个第一图像中的目标候选区域进行合并；

利用异常行为检测网络，对合并后的目标候选区域在所述第一图像中对应的图像区域进行检测，得到所述第一图像的异常行为检测结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：根据所述视频流中各个第一图像的异常行为检测结果，确定所述视频图流的异常行为检测结果。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

利用生成数据对所述异常行为检测网络进行训练，其中，所述生成数据是通过动画引擎生成的异常行为数据，和/或，

利用真实数据对所述异常行为检测网络进行微调。

8.根据权利要求7所述的方法，其特征在于，所述异常行为检测网络包括特征提取网络、判别网络和分类网络，所述利用生成数据对所述异常行为检测网络进行训练包括：

利用所述特征提取网络对输入数据进行特征提取，得到特征信息；

将所述特征信息输入至所述判别网络，得到判别结果，所述判别结果指示所述特征信息是基于生成数据或真实数据生成的；

将所述特征信息输入到所述分类网络，得到分类结果，所述分类结果指示所述输入数据为异常行为数据或非异常行为数据；

根据所述判别结果与第一标注信息之间的差异以及所述分类结果与第二标准信息之间的差异，调整所述异常行为网络的参数，其中，所述第一标注信息指示所述输入数据为生成数据或真实数据，所述第二标准信息指示所述输入数据为异常行为数据或非异常行为数据。

9.根据权利要求8所述的方法，其特征在于，以设定切换频率对所述特征提取网络和所述分类网络以及对所述判别网络进行交替训练。

10.一种异常行为检测装置，其特征在于，所述装置包括：

获取单元，用于获取第一图像中的至少一个第一检测框；

确定单元，用于根据所述第一检测框之间的位置关系，确定所述第一图像中的第一中心检测框；

扩展单元，用于将所述第一中心检测框扩展至预设尺寸，得到所述第一图像中的目标候选区域；

检测单元，用于利用异常行为检测网络，对所述第一图像中的目标候选区域进行检测，得到异常行为检测结果。

11.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至9任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至9任一项所述的方法。