CN111079578A

CN111079578A - 行为检测方法及装置

Info

Publication number: CN111079578A
Application number: CN201911215562.7A
Authority: CN
Inventors: 高雪松; 张玉; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-28

Abstract

本发明实施例提供一种行为检测方法及装置，该方法包括：获取多张图像，所述多张图像中包括至少两个人物；获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点；根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作。本发明实施例提供的方案通过图像上人物的第一关键点数据对人物是否存在交互动作进行判断，受环境和背景的影响较小，提高了人体行为检测的准确率。

Description

行为检测方法及装置

技术领域

本发明实施例涉及机器视觉技术领域，尤其涉及一种行为检测方法及装置。

背景技术

在社区的异常行为报警系统中，当社区监控摄像头检测到有打架、摔倒、拖拽、追击等异常行为时，可发出警报通知安保人员及时赶到现场处理，因此，通过监控摄像头快速识别监控范围内是否有异常行为显得尤为重要。

异常行为识别的核心技术是动作识别，现有的方案主要是通过获取监控摄像头拍摄到的监控数据来对画面中的行为进行识别，当识别到有异常行为时进行报警。现有的方案由于是通过对监控画面进行异常行为识别的，容易受到成像器材与背景环境的干扰，识别过程中复杂的背景会增加很多噪声，导致异常行为识别的准确率较低。

发明内容

本发明实施例提供一种行为检测方法及装置，以解决现有行为检测方案受成像器材和背景环境干扰较大导致行为检测准确率较低的问题。

第一方面，本发明实施例提供一种行为检测方法，包括：

获取多张图像，所述多张图像中包括至少两个人物；

获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点；

根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作。

第二方面，本发明实施例提供一种行为检测装置，包括：

第一获取模块，用于获取多张图像，所述多张图像中包括至少两个人物；

第二获取模块，用于获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点；

处理模块，用于根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作。

第三方面，本发明实施例提供一种行为检测设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的行为检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的行为检测方法。

本发明实施例提供的行为检测方法及装置，首先获取多张图像，多张图像中包括至少两个人物，然后获取多张图像中各人物的第一关键点数据，最后根据多张图像中各人物的第一关键点数据判断图像中的人物是否存在交互动作。本发明实施例提供的方案，是通过图像中人物的第一关键点数据来对人物的行为进行检测的，避免了根据视频图像直接对人物的行为进行判断造成的受环境和背景影响较大的问题，提高了人体行为检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行为检测方法的应用场景示意图；

图2为本发明实施例提供的行为检测方法的流程示意图；

图3为本发明又一实施例提供的行为检测方法的流程示意图；

图4为本发明实施例提供的交互行为判断示意图；

图5为本发明实施例提供的交互行为检测的流程示意图；

图6为本发明实施例提供的获取训练样本的示意图；

图7为本发明实施例提供的图卷积神经网络模型训练的流程示意图；

图8为本发明实施例提供的人体骨骼拓扑图结构示意图；

图9为本发明实施例提供的多人交互动作提取特征示意图；

图10为本发明实施例提供的异常行为告警示意图；

图11为本发明实施例提供的行为检测装置的结构示意图；

图12为本发明实施例提供的行为检测设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的行为检测方法的应用场景示意图，如图1所示，包括监控设备11、服务器12和告警装置13，监控设备11与服务器12之间通过有线或无线网络连接，告警装置13和服务器12也通过有线或无线网络连接。监控设备11可安装于各个需要监控的区域内，在图1示例的实施例中，监控设备11安装于小区内，监控设备11的数量为一个或多个。

当监控设备11的安装位置固定后，监控设备11的监控范围也相应确定，服务器12能够获知每个监控设备11的监控范围。若监控设备11的安装位置或其他安装信息发生改变时，能够将改变后的安装信息发送给服务器12，使得服务器12能够实时获取到监控设备11的安装信息，从而使得监控设备11的监控范围发生异常情况时，根据服务器12的指示来迅速确定发生异常情况的区域，便于进行处理。

监控设备11用于获取对应的监控区域的监控图像，监控图像可以是图片的形式，也可以是录像的形式，本发明实施例对此不作限定。在监控设备11获取到监控区域的监控图像后，会将监控图像发送到服务器12，服务器12接收到监控图像后，根据接收到的监控图像分析监控区域内是否有异常情况。当服务器12根据监控图像分析得到监控区域内存在异常情况时，会向告警装置13发送指令，指示告警装置在监控区域内存在异常情况，通过异常告警来通知相关人员前去处理。同时，监控设备11的监控图像也可上报服务器12进行存储，从而便于相关人员事后调取相关的监控，进行进一步分析。

下面，通过具体实施例对本公开所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的行为检测方法的流程示意图，如图2所示，包括：

S21，获取多张图像，所述多张图像中包括至少两个人物。

本发明实施例中，多张图像可以是由安装的监控设备获取的，监控设备将获取到的监控图像发送给服务器。图像中包括至少两个人物，例如可以为两个、三个、四个等等。

S22，获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点。

关键点数据可以为人物的骨骼点坐标，而本发明实施例中，第一关键点数据可以为人物的重心所在的骨骼点坐标，第一关键点数据可以指示人物的重心点。

第一关键点数据是根据人物的行为密切相关的数据，当人物移动时，通常人物的重心点也会移动，相应的第一关键点数据也会发生变化。本发明实施例中，第一关键点数据的获取方式例如可以通过姿态估计工具，提取图像中每个人物的重心骨骼点数据。针对每一张图像，均获取图像中各个人物的第一关键点数据并进行存储。

S23，根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作。

得到多张图像中各人物的第一关键点数据后，需要判断图像中的人物是否存在交互动作。由于人物要产生交互动作时，人物之间的距离需要在一定的范围内。常见的人物之间的交互动作，例如交谈、打架、拖拽等等，均需要至少两个人距离相对比较近时才能够产生。

人物的第一关键点数据指示了人物的重心点坐标，因此针对任意一张图像，根据该图像上各人物的第一关键点数据，能够获取到该图像上各人物重心点之间的距离。而重心点能够在一定程度上反映人物所在的位置，可以将各人物重心点之间的距离，作为该图像上各人物之间的距离。

根据上述方式获取每一张图像上各人物的重心点之间的距离，然后将各人物的重心点之间的距离与预设值进行比较，当存在两个人物的重心点之间的距离小于预设值时，认为这两个人物可能存在交互动作。对于采集的多张图像，可以判断多张图像中两个人物的重心点之间的距离小于预设值的图像的数量，当两个人物的重心点之间的距离小于预设值的图像的数量超过一定值时，确定图像中这两个人物存在交互动作。

本发明实施例提供的行为检测方法，首先获取多张图像，多张图像中包括至少两个人物，然后获取多张图像中各人物的第一关键点数据，最后根据多张图像中各人物的第一关键点数据判断图像中的人物是否存在交互动作。本发明实施例提供的方案，是通过图像中人物的第一关键点数据来对人物的行为进行检测的，避免了根据视频图像直接对人物的行为进行判断造成的受环境和背景影响较大的问题，提高了人体行为检测的准确率。

在上述实施例的基础上，下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明又一实施例提供的行为检测方法的流程示意图，如图3所示，包括：

S31，获取多张图像，所述多张图像中包括至少两个人物。

S32，获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点。

本发明实施例中S31的实现方式和图2实施例中S21的实现方式类似，S32的实现方式和图2实施例中的S22的实现方式类似，此处不重复说明。

S33，根据所述多张图像中各人物的第一关键点数据，获取每张图像中的每两个人物之间的距离。

针对任意一张图像，图像上包括两个或以上的人物时，这两个或以上的人物可能未产生交互动作，也可能产生交互动作。当两个或以上的人物产生交互动作时，若人物在两个以上，则可能是多个人物中的两个产生交互动作，或者多个人物共同产生交互动作。此时，可以在获取到图像中各人物的第一关键点数据后，根据各人物的第一关键点数据得到图像中每两个人物之间的距离。

S34，根据每张图像中的每两个人物之间的距离，判断所述多张图像中的人物之间是否存在交互动作。

首先，根据每张图像中每两个人物之间的距离，获取每张图像对应的最小人物距离，其中最小人物距离为图像中每两个人物之间的距离中的最小值；

然后，获取最小人物距离小于第一阈值的图像数量。第一阈值为预先设定的值，认为当两个人物的距离小于第一阈值时可能产生交互动作。

若所述图像数量大于或等于第二阈值，则确定所述多张图像中的人物之间存在交互动作；若所述图像数量小于第二阈值，则确定所述多张图像中的人物之间不存在交互动作。

当两个人物产生交互动作时，是需要持续一定的时间的，仅凭一张图像上人物的距离并不能确定两个人物产生交互动作。例如，两个路人在行走时擦肩而过，拍摄得到的图像中会存在少量图像中这两个路人的距离很小，小于第一阈值，但是此时并不能认为这两个人物在进行交互动作。为了避免将类似这种情况判定为交互动作，本发明实施例中设置了第二阈值，只有在拍摄到图像中，最小人物距离小于第一阈值的图像数量大于或等于第二阈值时，才确定这两个人物产生了交互动作，反之则认为这两个人物没有产生交互动作。下面将结合图4对该过程进行说明。

图4为本发明实施例提供的交互行为判断示意图，如图4所示，在一张图像中包括三个人物，分别是人物A、人物B和人物C，根据该图像获取对应的这三个人物的第一关键点数据。以关键点为人体的骨骼点为例，可首先根据该图像获取三个人物的人体骨骼点数据，并确定这三个人的重心骨骼点所在位置，此处的重心骨骼点数据即为人物的第一关键点数据。在图4中，人物A和人物B的重心骨骼点分别为点A和点B，且这两个点的坐标分别为A(x1,y1,z1)，B(x2,y2,z2)。根据A和B的坐标，得到人物A和人物B之间的距离S为：

一张图像中可能存在两个以上的人物，此时，获取的每张图像对应的最小人物距离，其中，最小人物距离为图像中每两个人物之间的距离中的最小值。

例如，当图像中包括人物A、人物B和人物C时，此时根据三个人物的重心骨骼点所在位置获知人物A和人物B的距离为20cm，人物A和人物C的距离为25cm，人物B和人物C的距离为15cm，则对于这张图像而言，最小人物距离为人物B和人物C的距离15cm。若在该张图像的下一张图像中仍然包括人物A、人物B和人物C，且A和人物B的距离为10cm，人物A和人物C的距离为25cm，人物B和人物C的距离为15cm，则针对下一张图像而言，最小人物距离为人物A和人物B的距离10cm，等等。

本发明实施例中，需要根据多张图像判断多个人物之间是否在进行交互动作。当最小人物距离小于第一阈值的数量超过第二阈值时，认为多个人物在进行交互动作，反之则认为多个人物没有进行交互动作，从而提高交互动作判断的准确率。例如，当第一阈值为20cm，第二阈值为50。可以通过摄像头采集监控区域中的视频数据，每100帧数据进行打包，进行预处理，得到监控区域内的人体骨骼点数据。在此之前，获取最小人物距离小于20cm的图像。在100张图像中，若有50张图像中的最小人物距离小于20cm，则确定图像中的多个人物在进行交互动作，反之，则确定图像中的多个人物没有进行交互动作。

可以理解的是，本发明实施例中第二阈值的取值与每次输入的图像的数量有关。即，可以理解为，在多张图像中，若最小人物距离小于第一阈值的图像数量占总的图像数量的比例超过一定值时，人物图像中的多个人物在进行交互动作，而第二阈值即为根据这个比例和总的图像数量确定的数值。第一阈值和第二阈值的具体取值可根据实际需要确定，本发明实施例对此不作特别限定。

图5为本发明实施例提供的交互行为检测的流程示意图，如图5所示，包括：

S51，在所述多张图像中确定至少两个目标人物，所述至少两个目标人物之间具有交互动作。

在图像中，若两个或两个以上的人物之间具有交互动作，此时需要对这两个或两个以上的人物之间的交互动作进行判断，确定交互动作的具体类型，从而判断这两个或两个以上的人物之间是否有异常行为。其中，将具有交互动作的至少两个人物，确定为目标人物，后续只需要对目标人物进行检测即可。

S52，对所述至少两个目标人物进行行为检测。

具体的，在每张图像中获取每个目标人物对应的关键点数据，所述关键点数据包括所述图像中的人物的预设身体部位的坐标。

关键点数据为图像中的人物的预设身体部位的坐标数据，由于需要对人物的行为进行检测，因此本发明实施例中的关键点数据为跟人体行为密切相关的身体部位的坐标数据，例如，可以为人体的骨骼点数据。当人体进行某些行为时，根据人体的骨骼点数据即可对人体的行为进行相应的判断，其中，人体的骨骼点可以包括头部骨骼点、四肢骨骼点、重心骨骼点等等中的一个或多个。

例如人体正常站立时，手部所在的位置要明显高于脚部所在的位置，而当人体摔倒时，手部所在的位置和脚部所在的位置的高度相差较小。例如，当人体正常行走或站立不动时，人体的各个部位的坐标变化较小，当人体处于打架状态时，人体的各个部位的坐标可能会发生剧烈的变化，等等。本发明实施例中，预设身体部位的坐标为图像中的人物的预设身体部位在图像中的坐标。当监控设备处于静止状态时，监控的范围不变，因此，当图像中的人物移动时，表明人物进行了某些行为，导致人物预设身体部位的部分或全部坐标数据发生改变，通过获取人物的预设身体部位的坐标数据，能够获知人物的预设身体部位的移动情况，即，根据图像中的人物的预设身体部位的坐标数据，能够获取到该人物的行为相关信息，从而对人物的行为进行判断。

获取到每个目标人物对应的关键点数据后，根据每个目标人物对应的关键点数据，对至少两个目标人物进行行为检测。

一种可能的实现方式是，将至少两个目标人物的关键点数据输入至预设模型，得到至少两个目标人物的行为检测结果，行为检测结果为异常行为或正常行为。

本发明实施例中的预设模型为图卷积神经网络模型。在采用图卷积神经网络模型对图像中的人物的行为进行检测之前，首先要训练模型，下面，将结合图6对图卷积神经网络模型的训练过程进行说明。

图6为本发明实施例提供的获取训练样本的示意图，如图6所示，在对模型进行训练之前，首先要获取训练样本。在图6的示例中，首先获取多张样本图像，样本图像中包括至少两个人物。

在得到样本图像后，需要获取每张样本图像对应的关键点数据，本发明实施例中，以关键点数据为人体的骨骼点数据为例进行说明。在图6中，示例了样本图像，样本图像61中包括两个人物，通过姿态估计工具，能够获取到这两个人物的人体骨架数据，从而得到这两个人物的骨骼点数据，其中，姿态估计工具有多种，例如可以为OpenPose。根据采用的姿态估计工具的不同，提取到的人物的骨骼点数据中包括的骨骼点数也可以不同，例如，有的姿态估计工具提取到的人体骨骼点的数目是21个，有的姿态估计工具提取到的人体骨骼点的数目是18个等等，根据实际的姿态估计工具确定。在图6示例的人物的骨骼点数据中，示出了人物的四肢骨骼点、头部骨骼点和脊椎骨骼点，基本上包括了与人物动作相关的关键骨骼点。

图7为本发明实施例提供的图卷积神经网络模型训练的流程示意图，如图5所示，包括：

S71，根据样本关键点数据，确定样本人体拓扑数据。

在得到人体的骨骼点数据后，根据人体的骨骼点数据来进行人体拓扑图的构造，得到骨骼时空图，即对各个骨骼点进行相应的连接。本发明实施例中，不仅包括根据自然的人体结构对人体关键骨骼点进行的连接，还包括非自然的人体结构的骨骼点连接。

图8为本发明实施例提供的人体骨骼拓扑图结构示意图，如图8所示，包括一个人体的骨骼点数据，每个骨骼点都有对应的坐标，首先对该人体的骨骼点数据进行自然的人体结构的连接，得到第一拓扑图81。在第一拓扑图81中，可以较明显的分辨出人体的四肢和头部身体的结构，基本与人体的自然结构吻合。每个骨骼点都有对应的空间位置坐标(x，y，z)。

第一拓扑图81中的骨骼点的自然连接体现了人体骨架的静态空间特征，而人体的各种运动行为不仅需要静态空间特征，还需要更加细致的表征每个动作的动态空间特征。

由于空间特征与具体动作有较密切的联系，例如，人在拍手时，两手之间的关系无法使用静态空间特征来表示，此时仅仅通过自然结构的骨骼点连接无法得到人体的动态行为特征。又例如，人体在摔倒时，先决条件是重心移出了两脚支撑面，同时上肢会做出一些努力保持人体平衡的动作，这样的动作也无法使用静态空间特征来表示，而是需要采用动态空间特征来表示。

可选的，可将人体的四肢之间的关系以及四肢与人体重心之间的关系作为动态空间特征，通过静态空间特征与动态空间特征互补，来共同描述人体的各种行为。

在图8的示例中，在第一拓扑图81的基础上，增加四肢骨骼点之间的连线，得到第二拓扑图82，在第二拓扑图82中，连接了左手骨骼点-右手骨骼点、左手骨骼点-左脚骨骼点、右手骨骼点-右脚骨骼点、左脚骨骼点-右脚骨骼点。

在图8的示例中，在第一拓扑图81的基础上，增加四肢骨骼点与中心骨骼点之间的连线，得到第三拓扑图83，如图8所示，其中重心骨骼点即为骨骼点1，在第三拓扑图83中，连接了左手骨骼点-重心骨骼点、左脚骨骼点-重心骨骼点、右手骨骼点-重心骨骼点、右脚骨骼点-重心骨骼点。

进一步的，本发明实施例中还可以同时进行四肢骨骼点之间的连线和四肢骨骼点与重心骨骼点之间的连线，得到第四拓扑图，在第四拓扑图中同时包括四肢骨骼点之间的连线和四肢骨骼点与中心骨骼点之间的连线。

在图8中，以实线的边示意了静态空间特征，以虚线的边示意了动态空间特征。增加四肢端点之间的连线，如图8所示，在同一帧内增加四肢之间的连接边，强化的四肢之间的连接关系对由四肢配合完成的动作的识别提供了更多的特征。增加四肢与重心的连接边，以人体骨骼点1作为人体重心。四肢与重心之间的连接关系能够表达出四肢与重心关系的运动特征，提高例如摔倒等动作的识别精度。

基于人体骨骼点数据构造拓扑图结构。构建骨骼时空图G＝(V,E)，其中V表示节点，即人体拓扑图中的骨骼点，E表示边即人体拓扑图中骨骼点之间的连线。

在人体拓扑图中，节点矩阵集合V＝{v_ti|t＝1,...,T，i＝1,...,N}，包括骨骼序列上的所有的关节点，其中帧数为T，关节点数为N。边的集合E由两个子集组成，第一个子集是每一帧图像内骨骼点的连接E_s＝{v_tiv_tj|(i,j)∈H}，H表示人体骨骼点集合。第二个子集表示不同帧图像间的连接，E_f＝{v_tiv_(t+1)i}。

本发明实施例中，针对每一张图像上的样本关键点数据均进行上述的处理，得到每组样本关键点数据对应的样本人体拓扑数据。由于人体的动作需要一定的时间完成，因此在获取样本数据时，每次获取多张样本图像，样本图像中包括至少两个人物。

当样本图像中包括多个人物时，在一段时间内，多个人物之间可能有交互动作，也可能彼此之间互相独立，没有交互动作，也可能在部分时段内包括交互动作而在另一部分时段内不进行交互动作。针对多个人物之间是否存在交互动作，需要进行不同的处理。

当多个人物之间存在交互动作时，这多个人物的行为之间相互关联，此时不能够将其分别分开处理，而是需要进行整体分析，将多个人物的样本关键点数据作为一组，根据这一组样本关键点数据得到一组样本人体拓扑数据，一组样本人体拓扑数据中包括多个人物的人体拓扑图。

S72，根据样本人体拓扑数据得到训练集，其中，训练集中包括样本人体拓扑数据和对应的样本行为检测结果。

得到样本人体拓扑数据后，对每组样本人体拓扑数据进行标注，得到每组样本人体拓扑数据的样本行为检测结果。样本行为检测结果包括两个大的分类，分别是正常行为和异常行为。在异常行为中，包括打架、拖拽、追赶和摔倒等行为。训练集中，包括了多组样本人体拓扑数据和对应的样本行为检测结果。本发明实施例中，至少包括多组正常行为的样本人体拓扑数据、多组单人异常行为的样本人体拓扑数据以及多组多人交互异常行为的样本人体拓扑数据。

S73，根据训练集对图卷积神经网络模型进行训练，直至图卷积神经网络模型针对训练集的识别准确率超过预设值，以得到训练后的图卷积神经网络模型。

下面举例说明一种可能的模型构建方式。

可选的，图卷积神经网络模型由九个由9层时空图卷积算子组成，设置图卷积网络模型中每一层的参数如下：

将第一个时空图卷积层的卷积核总数设置为10，其中时间卷积层的卷积核数量为9，图卷积层的卷积核数量为1，该层的输入通道数为64，输出通道数为64；

将第二个时空图卷积层的卷积核总数设置为10，其中时间卷积层的卷积核数量为9，图卷积层的卷积核数量为1，该层的输入通道数为64，输出通道数为64；

将第三个时空图卷积层的卷积核总数设置为10，其中时间卷积层的卷积核数量为9，图卷积层的卷积核数量为1，该层的输入通道数为64，输出通道数为64；

将第一个池化层的步长设置为2，该层的输入通道数为64，输出通道数为128；

将第四个时空图卷积层的卷积核总数设置为10，其中时间卷积层的卷积核数量为9，图卷积层的卷积核数量为1，该层的输入通道数为128，输出通道数为128；

将第五个时空图卷积层的卷积核总数设置为10，其中时间卷积层的卷积核数量为9，图卷积层的卷积核数量为1，该层的输入通道数为128，输出通道数为128；

将第二个池化层的步长设置为2，该层的输入通道数为128，输出通道数为256；

每个时空图卷积算子包括空间维度的卷积与时间维度的卷积两个模块。最后一个时空图卷积算子连接到完全连接的分类器以生成最终预测。

上述设定仅仅为图卷积神经网络模型的一种可能的实现方式的举例，并不构成对图卷积神经网络的限定。

时空图卷积算子中关键模块为空间卷积模块，空间卷积模块中最主要的是交互动作的特征提取模块设计。图9为本发明实施例提供的多人交互动作提取特征示意图，如图9所示，假设每张图像中有两个骨架执行一个交互动作。首先，可将两个人物的骨架分别放入三个通道(骨架图中每个顶点的x,y,z分别占用一个通道)，两个骨架共占6个通道，如图中的右上角部分所示。每个骨架的特征张量的结构为{N,C,T,V,M}，其中，N表示一次送入图卷积神经网络模型的样本数量，C表示通道数，T表示一个视频中包括的图像的张数，V表示每张图像中的节点，即人体的骨骼点，M表示哪一个骨架。其次，把这样的张量作为图卷积神经网络的输入，获得的输出的张量结构不发生变化，通过张量的M，区分两个骨架的特征，然后对其进行融合，如图9中左下角部分，其中a1的特征向量指的是根据每帧图像中的关键点数据提取到的特征，a2的特征向量指的是根据多帧图像中的关键点数据提取到的特征，将其融合，得到A的特征向量，最终形成了交互动作的识别特征，如上图中的中间部分。对于单人动作，前三通道为人体骨骼点数据，后三个通道补零。

然后，对图卷积神经网络模型的参数进行设定，例如，将图卷积网络模型的学习率设置为0.014；从训练集中选取一组32个带标签的人体骨架数据，按组输入到图卷积网络中进行训练，训练集全部输入完毕记为迭代一次，一共迭代100次；训练集每迭代十次，保留一次模型的权重文件，并将学习率降低为原来的0.1。训练集每迭代五次，使用验证集评估图卷积神经网络模型的准确率，准确率的计算公式如下：

其中Acc表示图卷积神经网络对行为检测结果的准确率，TP表示真正例的数量，即模型输出的行为检测为异常行为且模型输出结果正确的数量，TN表示真负例的数量，即模型输出的行为检测为正常行为且模型输出结果正确的数量，P表示正例的数量，即模型输出的行为检测为异常行为的数量，N表示负例的数量，即模型输出的行为检测为正常行为的数量。

经过多轮训练，模型的准确率提高，选择一个准确率最高的模型保存，得到训练好的图卷积神经网络模型。

在上述实施例中，描述了获取图像中的人物的骨骼点数据的方法。在获取到图像中的人物的骨骼点数据后，能够获知每个骨骼点具体为人物哪个部位的骨骼点。例如在图8中，骨骼点1为人物的重心骨骼点，骨骼点9为人物的右肩骨骼点，骨骼点11为人物的右手骨骼点，等等。根据每张图像中的人物的骨骼点数据，能够得到每张图像中的人物的数量，根据图像中的人物的骨骼点数据获取图像中包括的人物的数量的方法也有多种，例如，每个人物只有一个重心骨骼点，根据一张图像中的重心骨骼点的数据，即可得到该图像中包括的人物数量；例如，每个人物包括两个手部骨骼点，根据一张图像中的手部骨骼点的数据，也可得到该图像中包括的人物数量，等等。具体的方法本发明实施例不作特别限定。

若多个人物进行交互动作，将这多个人物确定为目标人物，并将目标人物的关键点数据输入至图卷积神经网络中，对目标人物的关键点数据进行拓扑连接，得到每个目标人物的骨架数据，并将每个骨架放入三个通道，其中人物的骨架数据中每个顶点的x、y、z各占用一个通道。然后，通过图卷积神经网络对多个人物的交互动作的特征提取，输出目标人物的行为检测结果，例如可以为打架、拖拽、殴打、追赶等等。

S53，确定行为检测结果为异常行为时，输出异常行为告警。

当行为检测结果为异常行为时，需要输出异常行为告警，告知相关人员在监控设备的监控区域内有异常情况，需要及时处理。图10为本发明实施例提供的异常行为告警示意图，如图10所示，告警装置可以为类似于喇叭的装置，也可以为类似于显示器的装置，也可以为类似于灯的装置。

告警装置与服务器100连接，当告警装置为喇叭101时，告警装置可以播报异常行为告警信息，进行声音告警；当告警装置为显示器102时，告警装置可以显示异常行为视频并进行相应的标注，提醒相关人员注意；当告警装置为灯103时，告警装置可以通过灯的亮灭来进行告警。同时，告警装置也可以包括上述几种类型中的多种，实现更有效的告警。可以理解的是，上述喇叭、显示器、灯灯装置仅仅为告警装置的一种示例，实际的告警装置并不限于此。

本发明实施例提供的行为检测方法，首先获取多张图像，多张图像中包括至少两个人物，然后获取多张图像中各人物的第一关键点数据，最后根据多张图像中各人物的第一关键点数据判断图像中的人物是否存在交互动作。在确定至少两个人物存在交互动作后，得到图像对应的关键点数据，获取到图像中存在交互动作的目标人物的关键点数据，然后将其输入到图卷积神经网络模型中，得到交互动作的行为检测结果。由于图卷积神经网络模型中的输入仅为人物的关键点数据，针对人物的关键点数据来提取人物的行为特征，从而对人物的行为作出判断，避免了对视频图像直接进行特征提取造成的受环境背景影响较大的问题，提高了人体行为检测的准确率。

图11为本发明实施例提供的行为检测装置的结构示意图，如图11所示，包括第一获取模块111、第二获取模块112和处理模块113，其中：

第一获取模块111用于获取多张图像，所述多张图像中包括至少两个人物；

第二获取模块112用于获取所述多张图像中各人物的第一关键点数据，所述第一关键点数据用于指示人物的重心点；

处理模块113用于根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作。

在一种可能的实现方式中，所述处理模块113具体用于：

根据所述多张图像中各人物的第一关键点数据，获取每张图像中的每两个人物之间的距离；

根据每张图像中的每两个人物之间的距离，判断所述多张图像中的人物之间是否存在交互动作。

在一种可能的实现方式中，所述处理模块113具体用于：

获取每张图像对应的最小人物距离，所述最小人物距离为所述图像中每两个人物之间的距离中的最小值；

获取最小人物距离小于第一阈值的图像数量；

若所述图像数量大于或等于第二阈值，则确定所述多张图像中的人物之间存在交互动作；

若所述图像数量小于第二阈值，则确定所述多张图像中的人物之间不存在交互动作。

在一种可能的实现方式中，所述处理模块113还用于，在确定所述图像中的人物存在交互动作时：

在所述多张图像中确定至少两个目标人物，所述至少两个目标人物之间具有交互动作；

对所述至少两个目标人物进行行为检测。

在一种可能的实现方式中，所述处理模块113具体还用于：

在每张图像中获取每个目标人物对应的关键点数据，所述关键点数据包括所述图像中的人物的预设身体部位的坐标；

根据每个目标人物对应的关键点数据，对所述至少两个目标人物进行行为检测。

在一种可能的实现方式中，所述处理模块113具体还用于：

将所述至少两个目标人物的关键点数据输入至预设模型，得到所述至少两个目标人物的行为检测结果，所述行为检测结果为异常行为或正常行为。

在一种可能的实现方式中，所述异常行为包括打架、拖拽、追赶和摔倒；若所述行为检测结果为异常行为，所述处理模块113还用于：

输出异常行为告警。

本发明实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图12为本发明实施例提供的行为检测设备的硬件结构示意图，如图12所示，该行为检测设备包括：至少一个处理器121和存储器122。其中，处理器121和存储器122通过总线123连接。

可选地，该模型确定还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器121执行所述存储器122存储的计算机执行指令，使得至少一个处理器121执行如上的行为检测方法。

处理器121的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图12所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的行为检测方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种行为检测方法，其特征在于，包括：

获取多张图像，所述多张图像中包括至少两个人物；

2.根据权利要求1所述的方法，其特征在于，根据所述多张图像中各人物的第一关键点数据，判断所述图像中的人物是否存在交互动作，包括：

3.根据权利要求2所述的方法，其特征在于，根据每张图像中的每两个人物之间的距离，判断所述多张图像中的人物之间是否存在交互动作，包括：

获取最小人物距离小于第一阈值的图像数量；

4.根据权利要求1-3任一项所述的方法，其特征在于，在确定所述图像中的人物存在交互动作时，所述方法还包括：

对所述至少两个目标人物进行行为检测。

5.根据权利要求4所述的方法，其特征在于，对所述至少两个目标人物进行行为检测，包括：

6.根据权利要求5所述的方法，其特征在于，根据每个目标人物对应的关键点数据，对所述至少两个目标人物进行行为检测，包括：

7.根据权利要求6所述的方法，其特征在于，所述异常行为包括打架、拖拽、追赶和摔倒；若所述行为检测结果为异常行为，所述方法还包括：

输出异常行为告警。

8.一种行为检测装置，其特征在于，包括：

9.一种行为检测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的行为检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的行为检测方法。