CN114241379A

CN114241379A - 一种乘客异常行为识别方法、装置、设备及乘客监控系统

Info

Publication number: CN114241379A
Application number: CN202111547813.9A
Authority: CN
Inventors: 薛耿剑; 赵乾佑; 黄海清; 戚进; 胡洁; 谢东
Original assignee: Chengdu Baixin Zhilian Technology Co ltd; Chengdu Xinchao Media Group Co Ltd
Current assignee: Chengdu Xinchao Media Group Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25
Anticipated expiration: 2041-12-16
Also published as: CN114241379B

Abstract

本发明涉及人工智能及计算机视觉处理技术领域，公开了一种乘客异常行为识别方法、装置、设备及乘客监控系统。通过本发明创造，提供了一种基于人体关节点提取技术和快慢双通道网络对乘客异常行为进行联合检测识别的新方案，即先对从客厢内部监控视频中提取出的连续多帧视频图像进行人体关节点提取处理，然后将所述连续多帧视频图像送入所述快慢双通道网络中快通道，一次性完成对一个小定长时间段内信息的读取，以及将人体关节点提取结果送入快慢双通道网络中慢通道，利用骨架信息对行为进行定义，使得两个通道更具有专长且能在一定程度上扩展处理运动信息的时间跨度，进而维持在持续性应用后识别结果的准确性，利于对乘客异常行为进行长期监控。

Description

一种乘客异常行为识别方法、装置、设备及乘客监控系统

技术领域

本发明属于人工智能及计算机视觉处理技术领域，具体地涉及一种乘客异常行为识别方法、装置、设备及乘客监控系统。

背景技术

随着人工智能的飞速发展和社会对于智能化服务需求的增加，作为居民楼公共场所的重要运输载体和关键通道，电梯的视频监控智能化需求也与日俱增。在电梯运行安防系统中，识别是否存在乘客异常行为(例如跌倒行为或暴力行为等)是重要的监控目标之一，根据乘客异常行为的特征并利用机器视觉对电梯监控视频中的丰富信息进行分析，对于构建智能监控系统具有重要的应用价值和意义。

在深度学习时代之前，由于数据短缺和计算能力相对较低，一些学者提出了用于异常行为识别的经典计算机视觉方法。这些方法基于预处理阶段，例如先检测识别到人类，然后通过基于金字塔分层的L-K光流算法(即Lucas–Kanade光流算法)进行特征检测以及从检测到的人类动作中提取特征角点，并计算角点的光流矢量，最后针对暴力行为与普通行为的矢量差，判断是否发生异常行为。这种方法的缺点为阈值过于单一，很容易把电梯门开关和/或人体进出电梯误判为暴力行为，也无法对小动作的骚扰行为进行判断。

通过使用计算机视觉处理技术，可以从视频帧中提取出有意义的且具有代表性的图像特征，例如轮廓或边界，这便于使用视觉算法进行检测。因此也有学者提出利用背景建模算法提取出运动的前景目标，然后利用分类器对运动目标进行分类，判断是否发生乘客异常行为。常用的背景建模算法有：高斯混合模型、帧差分算法和样本一致性建模算法等。这些背景建模算法的思路是通过前面的帧学习得到一个背景模型，然后用当前帧与背景帧进行比较，得到运动的目标，即图像中变化的区域。但是该类方法却存在下列问题：只能检测运动的目标，对于静止的目标无法处理，并且受光照变化及阴影的影响很大，如果目标的颜色与背景很接近，会造成漏检和断裂，另外还无法处理遮挡的情况。

在深度学习的繁荣之后，数据量大量增加，计算能力使人们能够构建具有大量参数的深度神经网络。这使深度学习可以作为一个单独的实体来处理前面提到的经典阶段，其中深度模型可以接收输入数据，然后自行学习以找到合适的特征并提供输出，而无需经历很多步骤。很多时候深度学习的方法都具有更好的结果，在目前的异常行为检测方法中比较流行的一种方法为双流法，该种方法利用两条神经网路，分别提取RGB图像的语义信息和光流的时域信息，然后综合处理两路信息提取结果，输出异常行为识别结果。但是这种方法目前还有以下缺点：不能长时间跨度去捕捉和处理运动信息，忽略了视频的时序依赖，导致持续性应用后识别结果的准确性会越来越低，不利于对乘客异常行为进行长期监控。

发明内容

为了解决现有异常行为检测方所存在不能长时间跨度去捕捉和处理运动信息，忽略了视频的时序依赖，导致持续性应用后识别结果的准确性会越来越低的问题，本发明目的在于提供一种乘客异常行为识别方法、装置、计算机设备、乘客监控系统及计算机可读存储介质，可基于人体关节点提取技术和快慢双通道网络对乘客异常行为进行联合检测识别，并维持在持续性应用后识别结果的准确性，利于对乘客异常行为进行长期监控，便于实际应用和推广。

第一方面，本发明提供了一种乘客异常行为识别方法，包括：

获取由箱内摄像头采集的客厢内部监控视频，其中，所述箱内摄像头安装在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域；

根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像；

针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，其中，所述人体关节点数据中包含有多个人体关节点在对应视频图像采集时的空间特征信息，所述多个人体关节点属于同一人体且能够表征人体作出异常行为；

将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型，输出得到是否存在乘客异常行为的二分类识别结果，其中，所述快慢双通道网络包括有快速通道子网络、慢速通道子网络和综合处理输出层，所述快速通道子网络用于采用第一抽帧方式从所述连续多帧视频图像中抽取出多个第一图像，然后对所述多个第一图像进行3D卷积处理，所述慢速通道子网络用于采用第二抽帧方式从所述连续多帧视频图像中抽取出至少一个第二图像，然后对所述至少一个第二图像进行2D卷积处理，并综合来自所述快速通道子网络的3D卷积处理结果进行3D卷积处理，所述综合处理输出层用于根据所述快速通道子网络和所述慢速通道子网络的3D卷积处理结果，采用softmax函数得到是否存在乘客异常行为的二分类识别结果，所述第一图像为在视频图像上未加载对应的人体关节点数据的原图像，所述第二图像为在视频图像上加载有对应的人体关节点数据的新图像，所述第二抽帧方式的抽帧个数少于所述第一抽帧方式的抽帧个数。

基于上述发明内容，提供了一种基于人体关节点提取技术和快慢双通道网络对乘客异常行为进行联合检测识别的新方案，即先对从客厢内部监控视频中提取出的连续多帧视频图像进行人体关节点提取处理，然后将所述连续多帧视频图像送入所述快慢双通道网络中快通道，一次性完成对一个小定长时间段内信息的读取，以及将人体关节点提取结果送入快慢双通道网络中慢通道，利用骨架信息对行为进行定义，确保受到场景和光照等等背景因素的影响小，适用性更强，使得两个通道更具有专长，且能在一定程度上扩展处理运动信息的时间跨度；同时由于是根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，才从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像，可确保两通道中的视频图像具有时序相关性，进一步可在长时间跨度上去捕捉和处理运动信息，进而维持在持续性应用后识别结果的准确性，利于对乘客异常行为进行长期监控，便于实际应用和推广。

在一个可能的设计中，根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像，包括：

根据客厢内部背景图像，确定出所述客厢内部监控视频中单帧视频图像的前景像素边缘角点；

调用基于金字塔分层的L-K光流算法，获取所述单帧视频图像中所有前景像素边缘角点的光流矢量；

根据所述单帧视频图像中所有前景像素边缘角点的光流矢量，通过建立角点动能模型获取与所述单帧视频图像对应的总动能值；

针对所述单帧视频图像，若判定对应的总动能值大于预设阈值，则从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像。

在一个可能的设计中，针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，包括：

针对所述连续多帧视频图像中的各帧视频图像，运用多人姿态估计系统AlphaPose软件从对应画面中识别出对应的多个人体关节点，其中，所述多个人体关节点属于同一人体且能够表征人体作出异常行为；

针对所述各帧视频图像，将对应的所述多个人体关节点在所述箱内摄像头的相机坐标系下的所有空间坐标作为在对应的人体关节点数据中的空间特征信息。

在一个可能的设计中，在将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型之前，所述方法还包括：

针对历史视频文件中的各个视频帧图像，进行所述人体关节点提取处理，得到对应的人体关节点数据；

采用所述第一抽帧方式从所述历史视频文件中抽取出第一视频帧图像；

采用所述第二抽帧方式从所述历史视频文件中抽取出第二视频帧图像，并在所述第二视频帧图像上标注出动作框以及用于反映有无乘客异常行为的动作类型；

以针对同一单位时间抽取的所有所述第一视频帧图像和所有所述第二视频帧图像为一个单元组，将多个不同的所述单元组送入所述快慢双通道网络，同时进行两个通道的训练，得到所述异常行为识别模型。

在一个可能的设计中，在输出得到是否存在乘客异常行为的二分类识别结果之后，所述方法还包括：

当所述二分类识别结果指示存在乘客异常行为时，触发与该乘客异常行为对应的报警动作。

在一个可能的设计中，所述第二抽帧方式的抽帧个数与所述第一抽帧方式的抽帧个数之比介于1：20～1：10之间。

第二方面，本发明提供了一种乘客异常行为识别装置，包括有依次通信连接的监控视频获取模块、视频图像提取模块、节点数据提取模块和异常行为识别模块；

所述监控视频获取模块，用于获取由箱内摄像头采集的客厢内部监控视频，其中，所述箱内摄像头安装在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域；

所述视频图像提取模块，用于根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像；

所述节点数据提取模块，用于针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，其中，所述人体关节点数据中包含有多个人体关节点在对应视频图像采集时的空间特征信息，所述多个人体关节点属于同一人体且能够表征人体作出异常行为；

所述异常行为识别模块，用于将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型，输出得到是否存在乘客异常行为的二分类识别结果，其中，所述快慢双通道网络包括有快速通道子网络、慢速通道子网络和综合处理输出层，所述快速通道子网络用于采用第一抽帧方式从所述连续多帧视频图像中抽取出多个第一图像，然后对所述多个第一图像进行3D卷积处理，所述慢速通道子网络用于采用第二抽帧方式从所述连续多帧视频图像中抽取出至少一个第二图像，然后对所述至少一个第二图像进行2D卷积处理，并综合来自所述快速通道子网络的3D卷积处理结果进行3D卷积处理，所述综合处理输出层用于根据所述快速通道子网络和所述慢速通道子网络的3D卷积处理结果，采用softmax函数得到是否存在乘客异常行为的二分类识别结果，所述第一图像为在视频图像上未加载对应的人体关节点数据的原图像，所述第二图像为在视频图像上加载有对应的人体关节点数据的新图像，所述第二抽帧方式的抽帧个数少于所述第一抽帧方式的抽帧个数。

第三方面，本发明提供了一种计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发数据，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的乘客异常行为识别方法。

第四方面，本发明提供了一种乘客监控系统，包括有依次通信连接的摄像头、视频服务器和个人计算机PC端；

所述摄像头用于布置在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域，以便采集获取所述客厢内的视频信号；

所述视频服务器用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；

所述个人计算机PC端用于在收到所述视频流后，执行如上第一方面或第一方面中任意可能设计所述的乘客异常行为识别方法，并根据乘客异常行为识别结果判断是否触发报警。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如上第一方面或第一方面中任意可能设计所述的乘客异常行为识别方法。

第六方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如上第一方面或第一方面中任意可能设计所述的乘客异常行为识别方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的乘客异常行为识别方法的流程示意图。

图2是本发明提供的COCO18模式关节点标号与关节点的对应关系示例图。

图3是本发明提供的快慢双通道网络的工作流程示意图。

图4是本发明提供的训练用数据集的制作流程示意图。

图5是本发明提供的乘客异常行为识别装置的结构示意图。

图6是本发明提供的计算机设备的结构示意图。

图7是本发明提供的乘客监控系统的结构示意图。

图8是本发明提供的在乘客监控系统中个人计算机PC端的人机交互界面示例图。

上述附图中：1-摄像头；2-视频服务器；3-个人计算机PC端；31-视频播放窗口；32-暂停操作按键；33-倍数播放操作按键；34-后退播放操作按键；35-警报提示区；36-异常行为检测选择区；37-音量调节滑块；4-电梯轿厢；5乘客。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

如图1～4所示，本实施例第一方面提供的所述乘客异常行为识别方法，可以但不限于由具有一定计算资源的计算机设备执行，例如由个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personaldigital assistant，PAD)或可穿戴设备等电子设备执行，以便基于人体关节点提取技术和快慢双通道网络对乘客异常行为进行联合检测识别，并维持在持续性应用后识别结果的准确性，利于对乘客异常行为进行长期监控，便于实际应用和推广。如图1所示，所述乘客异常行为识别方法，可以但不限于包括有如下步骤S1～S4。

S1.获取由箱内摄像头采集的客厢内部监控视频，其中，所述箱内摄像头安装在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域。

在所述步骤S1中，所述箱内摄像头用于采集所述客厢内的实时监控图像，其中，所述客厢可以但不限于是电梯轿厢或车厢等；由于镜头视野固定涵盖所述客厢内的地面区域，进而使得所述箱内摄像头能够拍摄到乘客在所述客厢内的各种行为。此外，所述客厢内部监控视频可以但不限于是从存储单元中读取而得或由传输单元传输而得，例如所述计算机设备可以通过有线或无线通信连接摄像头的方式，来获取由所述箱内摄像头实时采集的监控视频。

S2.根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像。

在所述步骤S2中，判断运动幅度是否过大的具体方式为常规的阈值比较方式，即具体的，根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像，包括但不限于有如下步骤S21～S24。

S21.根据客厢内部背景图像，确定出所述客厢内部监控视频中单帧视频图像的前景像素边缘角点。

在所述步骤S21中，所述客厢内部背景图像可基于在前获取的视频图像，通过常规的背景建模算法(例如高斯混合模型、帧差分算法和样本一致性建模算法等)来确定。在确定出所述客厢内部背景图像后，可再通过其与所述单帧视频图像进行的比较结果，确定出前景像素点，最后将位于前景像素边缘轮廓上的像素点作为所述前景像素边缘角点(即一种特征点)，以便降低后续光流矢量及动能计算等所需的计算资源成本。

S22.调用基于金字塔分层的L-K光流算法，获取所述单帧视频图像中所有前景像素边缘角点的光流矢量。

在所述步骤S22中，所述基于金字塔分层的L-K光流算法为现有获取光流矢量的常用方法。详细的，可通过OpenCV库(其是一个基于Apache2.0开源发行的跨平台计算机视觉和机器学习软件库)，调用所述基于金字塔分层的L-K光流算法来进行光流矢量的获取。

S23.根据所述单帧视频图像中所有前景像素边缘角点的光流矢量，通过建立角点动能模型获取与所述单帧视频图像对应的总动能值。

在所述步骤S23中，所述角点动能模型及所述总动能值的获取过程均为现有技术,具体可参见论文《基于角点动能模型的电梯轿厢内异常行为检测》。

S24.针对所述单帧视频图像，若判定对应的总动能值大于预设阈值，则从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像。

在所述步骤S24中，由于所述总动能值的大小直接反映了运动幅度，因此可以通过其与所述预设阈值的比较结果，来判断与所述单帧视频图像对应的运动幅度是否过大，若是，则认为有发生异常行为的风险，需要提取出所述连续多帧视频图像，以便后续进一步识别，否则认为无异常行为，无需进行后续步骤S3～S4。所述连续多帧视频图像的提取过程同样可应用所述OpenCV库中的函数来实现，其总帧数可基于后续第一抽帧方式和第二抽帧方式来确定一个具体数值，例如为15的多倍。所述预设阈值可根据相关数据的实际情况进行具体调整。所述单帧视频图像可以位于所述连续多帧视频图像的首帧位置、中间位置或末帧位置，于此不限。此外，还可以根据所述总动能值来计算得到能量和能量熵，然后在判定该能量和该能量熵的计数超过另一预设阈值时，认为与所述单帧视频图像对应的运动幅度过大，并从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像。

S3.针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，其中，所述人体关节点数据中包含有多个人体关节点在对应视频图像采集时的空间特征信息，所述多个人体关节点属于同一人体且能够表征人体作出异常行为。

在所述步骤S3中，具体的，针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，包括但不限于有如下步骤S31～S32。

S31.针对所述连续多帧视频图像中的各帧视频图像，运用多人姿态估计系统AlphaPose软件从对应画面中识别出对应的多个人体关节点，其中，所述多个人体关节点属于同一人体且能够表征人体作出异常行为。

在所述步骤S31中，所述多人姿态估计系统AlphaPose软件是一种与人体姿态识别项目OpenPose软件(其是美国卡耐基梅隆大学基于卷积神经网络和监督学习并以caffe为框架开发的开源软件，可以实现人体动作、面部表情和手指运动等姿态估计，以及获取到输入图像中人体骨骼各个关节点的空间位置信息等)类似的人体关节点提取方案，这两种方式的输入和输出的格式是相同的，即输入为RGB图片，输出为一个储存了人体关节点坐标位置信息的数组，作用为实现关节点提取。所述多个人体关节点可具体为根据COCO18模式关节点标号标记的部分人体关节点或全部人体关节点,所述COCO18模式关节点标号为现有关节点标号模型，所标号的18个关节点的顺序以及对应的位置可如图2所示。由此基于现有的所述多人姿态估计系统AlphaPose软件和所述COCO18模式关节点标号，可以从所述各帧视频图像中识别出对应的如下18个关节点：鼻子节点(对应标号为0)、首节点(对应标号为1)、右肩节点(对应标号为2)、右肘节点(对应标号为3)、右手首节点(对应标号为4)、左肩节点(对应标号为5)、左肘节点(对应标号为6)、左手首节点(对应标号为7)、右腰节点(对应标号为8)、右膝节点(对应标号为9)、右足首节点(对应标号为10)、左腰节点(对应标号为11)、左膝节点(对应标号为12)、左足首节点(对应标号为13)、右目节点(对应标号为14)、左目节点(对应标号为15)、右耳节点(对应标号为16)和左耳节点(对应标号为17)等。

在所述步骤S31中，所述多人姿态估计系统AlphaPose软件与所述人体姿态识别项目OpenPose软件的不同之处在于：其是先进行人体识别，再在人体图中标记人体关节点，精度更高，关节点连接更为完整，所以本实施例优选调用AlphaPose方式完成人体关节点的检测及提取。此外，考虑除了乘客在进入客厢时，一般情况下是无法拍到人的面部或正面的，因此可去掉所述18个关节点中位于面部和双脚的关节点，例如去掉鼻子节点(对应标号为0)、首节点(对应标号为1)、右足首节点(对应标号为10)、左足首节点(对应标号为13)、右目节点(对应标号为14)、左目节点(对应标号为15)、右耳节点(对应标号为16)和左耳节点(对应标号为17)等。

S32.针对所述各帧视频图像，将对应的所述多个人体关节点在所述箱内摄像头的相机坐标系下的所有空间坐标作为在对应的人体关节点数据中的空间特征信息。

在所述步骤S32中，所述人体关节点在所述相机坐标系下的坐标可以是二维坐标(例如x坐标和y坐标)，也可以三维坐标，因此所述箱内摄像头优选为具有双目镜头的相机，以便基于双目测距原理直接获取到监控图像中各个像素点(包含有与所述人体关节点对应的像素点)的三维坐标。所述人体关节点数据可通过Json文件的形式存储所述多个人体关节点的位置信息(即储存了人体关节点坐标位置信息的数组)。此外，若通过所述多人姿态估计系统AlphaPose软件还获取到各个人体关节点的估计置信度，则还可以将该估计置信度纳入对应的人体关节点数据中。

S4.将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型，输出得到是否存在乘客异常行为的二分类识别结果，其中，所述快慢双通道网络包括有快速通道子网络、慢速通道子网络和综合处理输出层，所述快速通道子网络用于采用第一抽帧方式从所述连续多帧视频图像中抽取出多个第一图像，然后对所述多个第一图像进行3D卷积处理，所述慢速通道子网络用于采用第二抽帧方式从所述连续多帧视频图像中抽取出至少一个第二图像，然后对所述至少一个第二图像进行2D卷积处理，并综合来自所述快速通道子网络的3D卷积处理结果进行3D卷积处理，所述综合处理输出层用于根据所述快速通道子网络和所述慢速通道子网络的3D卷积处理结果，采用softmax函数得到是否存在乘客异常行为的二分类识别结果，所述第一图像为在视频图像上未加载对应的人体关节点数据的原图像，所述第二图像为在视频图像上加载有对应的人体关节点数据的新图像，所述第二抽帧方式的抽帧个数少于所述第一抽帧方式的抽帧个数。

在所述步骤S4中，所述快慢双通道网络是由何凯明团队于2019年提出的且一种用于检测并归类图像中物体的计算机视觉处理方案，该方案的核心是对同一个视频片段应用两个平行的卷积神经网络(Convolutional Neural Network,CNN)：一个慢(Slow)通道和一个快(Fast)通道，其中，所述慢(Slow)通道使用慢速高分辨率CNN方式来分析视频中的静态内容，捕获空间语义信息，所述快(Fast)通道使用快速低分辨率CNN方式来分析视频中的运动变化和动态内容。本实施例在何凯明团队所提快慢双通道网络的基础上，如图3所示，做出了如下改进：(1)在快通道(即所述快速通道子网络)进行运动变化感知时，不再通过光流，而是运用3D CNN网络直接处理原始图像(即所述多个第一图像)，一次性完成对一个小定长时间段内信息(即所述连续多帧视频图像)的读取，结构更轻量化；(2)在慢通道(即所述慢速通道子网络)捕获稀疏帧(即所述至少一个第二图像)中的空间语义信息时，不再直接针对RGB图像进行卷积处理，而是卷积处理已经提取出来的人体关节点数据，可使信息更为集中，即利用骨架信息对行为进行定义，确保受到场景和光照等等背景因素的影响小，适用性更强。这种改进可使两个通道更具有专长，且能在一定程度上扩展处理运动信息的时间跨度。此外，所述综合处理输出层为所述快慢双通道网络中的常备输出层，用于横向连接统一两个通道的输出信息，输出最终的模型识别结果。

在所述步骤S4中，具体的，所述第二抽帧方式的抽帧个数与所述第一抽帧方式的抽帧个数之比介于1：20～1：10之间。举例的，所述第一抽帧方式可为对所述连续多帧视频图像采取每秒抽取15帧的方式，得到所述多个第一图像；所述第二抽帧方式可为对所述连续多帧视频图像采取每秒抽取1帧的方式，得到所述至少一个第二图像，即此时抽帧个数之比为1：15。由于所述快通道的网络结构更加简单也更为轻量化，运算量远小于慢通道，因此在图片卷积处理完后，可将提取的信息(即3D卷积处理结果)通过横向连接(即是用于合并不同级别的空间分辨率和语义的流行技术)输入到所述慢通道中，使得所述慢通道可以了解所述快通道的处理结果。此外，在所述快速通道子网络和所述慢速通道子网络中，具体的卷积神经网络可以但不限于采用3D RestNet网络；以及在所述综合处理输出层中，所述softmax函数可使用均方误差，并应用Adam优化器作为训练使用的优化器，同时将学习率设置为0.005。

优选的，为了提升所述异常行为识别模型对乘客异常行为的识别准确性，还可以在所述步骤S4之前，对所述异常行为识别模型进行训练，即如图4所示，在将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型之前，所述方法还包括但不限于有如下步骤S401～S404。

S401.针对历史视频文件中的各个视频帧图像，进行所述人体关节点提取处理，得到对应的人体关节点数据。

在所述步骤S401中，所述历史视频文件可以但不限于也是由所述箱内摄像头在先采集的视频文件。此外，同样可以优选采用AlphaPose方式进行所述人体关节点提取处理，得到所述各个视频帧图像的所述人体关节点数据。

S402.采用所述第一抽帧方式从所述历史视频文件中抽取出第一视频帧图像。

S403.采用所述第二抽帧方式从所述历史视频文件中抽取出第二视频帧图像，并在所述第二视频帧图像上标注出动作框以及用于反映有无乘客异常行为的动作类型。

在所述步骤S403中，具体标注方式为人工标注方式。

S404.以针对同一单位时间抽取的所有所述第一视频帧图像和所有所述第二视频帧图像为一个单元组，将多个不同的所述单元组送入所述快慢双通道网络，同时进行两个通道的训练，得到所述异常行为识别模型。

在所述步骤S404中，若所述第一抽帧方式为每秒抽取15帧的方式，所述第二抽帧方式为每秒抽取1帧的方式，可将针对同一秒而得的15个所述第一视频帧图像和1个所述第二视频帧图像作为一个所述单元组。此外，在所述步骤S402中，可制作一个csv文件来囊括快通道所需图片的路径以及单元划分(即一秒为一单元)；在所述步骤S403中，可输出一个json文件来储存关节点的位置、置信度以及动作类型等，以及将所述慢通道所用的json文件中的信息都提取出来，并记录在另一个csv文件中。

在所述步骤S4之后，还可以基于异常行为识别结果进行报警触发，即在输出得到是否存在乘客异常行为的二分类识别结果之后，所述方法还包括有：S5.当所述二分类识别结果指示存在乘客异常行为时，触发与该乘客异常行为对应的报警动作。在所述步骤S4中，针对不同的乘客异常行为，例如跌倒行为和暴力冲突等，可以使用各自对应的异常行为识别模型进行识别，而当识别到当前存在所述跌倒行为和暴力冲突等中的至少一种乘客异常行为，即触发与该至少一种乘客异常行为对应的报警动作。

由此基于前述步骤S1～S4所描述的乘客异常行为识别方法，提供了一种基于人体关节点提取技术和快慢双通道网络对乘客异常行为进行联合检测识别的新方案，即先对从客厢内部监控视频中提取出的连续多帧视频图像进行人体关节点提取处理，然后将所述连续多帧视频图像送入所述快慢双通道网络中快通道，一次性完成对一个小定长时间段内信息的读取，以及将人体关节点提取结果送入快慢双通道网络中慢通道，利用骨架信息对行为进行定义，确保受到场景和光照等等背景因素的影响小，适用性更强，使得两个通道更具有专长，且能在一定程度上扩展处理运动信息的时间跨度；同时由于是根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，才从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像，可确保两通道中的视频图像具有时序相关性，进一步可在长时间跨度上去捕捉和处理运动信息，进而维持在持续性应用后识别结果的准确性，利于对乘客异常行为进行长期监控，便于实际应用和推广。

如图5所示，本实施例第二方面提供了一种实现第一方面所述的乘客异常行为识别方法的虚拟装置，包括有依次通信连接的监控视频获取模块、视频图像提取模块、节点数据提取模块和异常行为识别模块；

在一种可能设计中，还包括有通信连接所述异常行为识别模块的报警模块，其中，所述报警模块用于当所述二分类识别结果指示存在乘客异常行为时，触发与该乘客异常行为对应的报警动作。

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的乘客异常行为识别方法，于此不再赘述。

如图6所示，本实施例第三方面提供了一种执行第一方面所述乘客异常行为识别方法的计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发数据，所述处理器用于读取所述计算机程序，执行如第一方面所述的乘客异常行为识别方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面所述的乘客异常行为识别方法，于此不再赘述。

如图7所示，本实施例第四方面提供了一种采用第一方面所述乘客异常行为识别方法的乘客监控系统，包括有依次通信连接的摄像头1、视频服务器2和个人计算机PC端3；所述摄像头1用于布置在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域，以便采集获取所述客厢内的视频信号；所述视频服务器2用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；所述个人计算机PC端3用于在收到所述视频流后，执行如第一方面所述的乘客异常行为识别方法，并根据乘客异常行为识别结果判断是否触发报警。如图7所示，所述客厢行人监控场所举例为电梯轿厢4。所述视频服务器2还可以将得到的视频流文件存储在本地，以便操作者管理和查看视频数据，并且实现对视频流的加密，有效保护居民楼内住户隐私信息。所述个人计算机PC端3可设计为一款实现乘客属性识别与筛选检索的电梯轿厢智能监控对电梯轿厢内乘客异常行为进行检测的系统软件，以便在从本地选择并加载电梯监控视频后，除使之能够流畅播放之外，还可通过采用如第一方面或第一方面中任一可能设计所述的乘客异常行为识别方法，对由电梯轿厢内的所述摄像头1获取的视频数据进行智能分析，实现对乘客异常行为进行监控的目的。

如图8所示，在所述系统软件的人机交互界面中，可以但不限于具有视频播放窗口31、暂停操作按键32、倍数播放操作按键33、后退播放操作按键34、警报提示区35、异常行为检测选择区36和音量调节滑块37等，由此可响应用户操作要求，执行不同的软件功能，如读取视频、倍数播放、对待检测异常行为进行选择和进行音量调节等。此外，所述系统软件及所述人机交互界面可以但不限于使用PyQt5软件开发平台(其是用来创建Python图形用户界面应用程序的工具包，可以在所有主流操作系统上运行)进行程序设计，以便实现算法的移植，并易于改进和更新，使实时性能够得到保证，具有交互性强和实用性强的特点。

本实施例第四方面提供的前述乘客监控系统的工作过程、工作细节和技术效果，可以参见第一方面所述的乘客异常行为识别方法，于此不再赘述。

本实施例第五方面提供了一种存储包含第一方面所述乘客异常行为识别方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的乘客异常行为识别方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第五方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见第一方面所述的乘客异常行为识别方法，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的乘客异常行为识别方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种乘客异常行为识别方法，其特征在于，包括：

2.如权利要求1所述的乘客异常行为识别方法，其特征在于，根据所述客厢内部监控视频，在判定与单帧视频图像对应的运动幅度过大时，从所述客厢内部监控视频中提取出包含有所述单帧视频图像的连续多帧视频图像，包括：

3.如权利要求1所述的乘客异常行为识别方法，其特征在于，针对所述连续多帧视频图像中的各帧视频图像，进行人体关节点提取处理，得到对应的人体关节点数据，包括：

4.如权利要求1所述的乘客异常行为识别方法，其特征在于，在将所述连续多帧视频图像及对应的人体关节点数据送入基于快慢双通道网络的异常行为识别模型之前，所述方法还包括：

5.如权利要求1所述的乘客异常行为识别方法，其特征在于，在输出得到是否存在乘客异常行为的二分类识别结果之后，所述方法还包括：

6.如权利要求1所述的乘客异常行为识别方法，其特征在于，所述第二抽帧方式的抽帧个数与所述第一抽帧方式的抽帧个数之比介于1：20～1：10之间。

7.一种乘客异常行为识别装置，其特征在于，包括有依次通信连接的监控视频获取模块、视频图像提取模块、节点数据提取模块和异常行为识别模块；

8.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发数据，所述处理器用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的乘客异常行为识别方法。

9.一种乘客监控系统，其特征在于，包括有依次通信连接的摄像头(1)、视频服务器(2)和个人计算机PC端(3)；

所述摄像头(1)用于布置在客厢内的顶部，并使镜头视野固定涵盖所述客厢内的地面区域，以便采集获取所述客厢内的视频信号；

所述视频服务器(2)用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；

所述个人计算机PC端(3)用于在收到所述视频流后，执行如权利要求1～6中任意一项所述的乘客异常行为识别方法，并根据乘客异常行为识别结果判断是否触发报警。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的乘客异常行为识别方法。