CN113269111A

CN113269111A - 一种基于视频监控的电梯异常行为检测方法及系统

Info

Publication number: CN113269111A
Application number: CN202110621297.3A
Authority: CN
Inventors: 李明; 陈欣萌; 龚绪晨; 程铭; 潘悦然; 邓奇
Original assignee: Duke Kunshan University; Kone Elevators Co Ltd
Current assignee: Duke Kunshan University; Kone Elevators Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-17
Anticipated expiration: 2041-06-03
Also published as: CN113269111B

Abstract

本发明提出了一种基于视频监控的电梯异常行为检测方法及系统，所述方法包括以下步骤：步骤1，获取关于电梯内已知行为分类的视频数据；步骤2，根据所述视频数据截取视频片段和深度片段，并按照预设比例分别划分为训练集和验证集；步骤3，构建多个网络模型并利用训练集中的视频片段和深度片段进行训练；步骤4，确定各网络模型的最佳迭代次数；步骤5，利用验证集中的视频片段分别计算各模型的准确率和召回率，以确定最优模型；步骤7，利用所述最优模型作为检测模型对电梯内乘客的异常行为进行检测。本发明能够低成本且准确地对电梯内乘客的行为进行预测。

Description

一种基于视频监控的电梯异常行为检测方法及系统

技术领域

本发明涉及电梯视频监控技术领域，具体涉及一种基于视频监控的电梯异常行为检测方法及系统。

背景技术

电梯一般设置在城市高层建筑物中，比如高层居民楼，购物商城，写字楼等，方便市民的出行。然而，一些危险的电梯内不正当行为，如蹦跳、扒门等，极有可能造成电梯坠落等事故，威胁乘客们的生命财产安全。并且，部分乘客可能在乘坐电梯时突发疾病，出现昏迷或无法按响警报铃等情况，错过急救黄金时间。随着计算机视觉领域技术的发展，用计算机代替人力检测异常情况逐渐普及，因此，通过行为检测及时识别出乘客异常行为并发出相应警报，可以有效的减少电梯意外事故，更好的保障乘客出行安全，从而剧有重要的研究及商业价值。

目前，运用纯RGB模态可以识别场景中是否存在异常行为，然而由于遮挡、部分电梯中存在镜子等问题，导致在检测过程中容易出现判断失误，因此单一RGB模态不足以达到足够好的效果；而加入深度图等模态信息有助于更好的判断，排除由于缺少距离信息而引起的错误判断。虽然使用多模态融合方法通过结合RGB和深度图模态信息能够更准确地对异常行为进行检测，然而深度摄像机往往价格过高，使搭建应用系统的成本大大增加；因此急需一种能够利用多模态训练、而利用单模态推理的电梯异常行为检测方法。

而且，现有训练方法在训练深度估计模型时存在误差，且级联系统会把误差向深度流预测阶段传递，降低深度信息为RGB流提供的信息的有效性，导致异常行为检测容易出现判断失误的问题。

发明内容

针对现有技术的不足，本发明提出一种基于视频监控的电梯异常行为检测方法及系统，在训练时利用深度图和RGB模态共同训练，并运用跨模态蒸馏方法生成一个以RGB视频作为输入、输出类似相应深度图特征的伪深度模型，以提升单一RGB模态预测的性能，从而能够低成本且准确地对电梯内的异常行为进行检测。

为了实现上述目的，本发明公开了一种基于视频监控的电梯异常行为检测方法，包括以下步骤：

步骤1，获取关于电梯内已知行为分类的视频数据，并对所述视频数据进行预处理；其中，所述行为分类包括异常行为类别和正常行为类别；

步骤2，根据所述视频数据截取视频片段和深度片段，并按照预设比例分别划分为训练集和验证集；

步骤3，构建多个网络模型并利用训练集中的视频片段和深度片段进行训练；

步骤4，训练过程中计算每次迭代后各网络模型的综合损失，根据迭代过程中在验证集上综合损失最低时所对应的迭代次数为各模型的最佳迭代次数，从而确定各网络模型；

步骤5，利用验证集中的视频片段分别计算以上训练好的各网络模型的准确率和召回率，以准确率和召回率的均值最大者所对应的网络模型为最优模型；

步骤7，实时获取实际场景下关于电梯内的视频片段，利用所述最优模型作为检测模型对电梯内乘客的异常行为进行检测。

进一步的，还包括：

步骤6，进行多个电梯背景下多个行为视频的拼接，以合成新的训练视频对所述最优模型进行训练，以确定最终模型；

其中，步骤7中以所述最终模型作为检测模型对电梯内乘客的异常行为进行检测。

进一步的，步骤1中，对所述视频数据进行预处理的步骤包括：从视频数据的每一帧中识别并分割出人物形象，然后将所分割出的人物形象按照动作分类保存。

进一步的，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对后期拼接卷积神经网络模型进行训练的步骤包括：

步骤301a，分别构建RGB流模型、伪深度流模型和深度流模型，对RGB流模型的输入归一化，同时对深度流模型和伪深度流模型的输入进行标准化；其中，RGB流模型的输入为视频片段，而深度流模型的输入为深度片段；

步骤302a，训练过程中，对伪深度流模型与深度流模型经池化层后得到的特征向量取加权平均，得到最终深度特征向量；

步骤303a，将所述深度特征向量与RGB特征向量在特征维度上拼接，输入分类层并得到每一类预测结果的得分后，作出预测并计算分类损失，然后根据计算的分类损失进行下一轮迭代训练。

进一步的，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对中期居中拼接卷积神经网络模型进行训练的步骤包括：

步骤301b，分别构建RGB流模型、伪深度流模型和深度流模型，对RGB流模型的输入归一化，同时对深度流模型和伪深度流模型的输入进行标准化；其中，RGB流模型的输入为视频片段，而深度流模型的输入为深度片段；

步骤302b,对伪深度流模型与深度流模型每一模块的输出进行加权平均后，再与RGB流模型的特征图在特征维度上拼接，作为RGBD流相应模块的输入；

步骤303b，在经过RGBD流的池化层和分类层后得到每一类预测结果的得分，作出预测并计算分类损失，然后根据计算的分类损失进行下一轮迭代训练。

进一步的，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对中期左对齐拼接卷积神经网络模型进行训练的步骤包括：

步骤301c，分别构建RGB流模型、伪深度流模型和深度流模型，对RGB流模型的输入归一化，同时对深度流模型和伪深度流模型的输入进行标准化；其中，RGB流模型的输入为视频片段，而深度流模型的输入为深度片段；

步骤302c,将深度流模型和伪深度流模型的每个模块输出的中间特征图在特征维度上取加权平均，并与RGB流模型相应特征图在特征维度上拼接后输入到RGB流的下一个模块；

步骤302c，通过RGB流的池化层与分类层后得到每一类预测结果的得分，作出预测并计算分类损失，然后根据计算的分类损失进行下一轮迭代训练。

进一步的，步骤5及步骤7中，

当模型为后期拼接卷积神经网络模型时，在进行预测时，取伪深度流模型的池化层输出作为最终深度特征向量，与RGB流模型的池化层输出拼接，输送到分类层并得到最终得分，取其中得分最高的类别模型作为输入的预测结果；

当模型为中期居中拼接卷积神经网络模型时，在进行预测时，对伪深度流模型与RGB流模型每一模块的输出在特征维度上进行拼接，作为RGBD流相应模块的输入，并在经过RGBD流的池化层和分类层后获得最终得分，取其中得分最高的类别模型作为输入的预测结果；

当模型为中期左对齐拼接卷积神经网络模型时，在进行预测时，将RGB流模型和伪深度流模型的每个模块输出的中间特征图在特征维度上拼接，输入到RGB流模型的下一个模块，并继续通过RGB流的池化层与分类层，获得最终得分，取其中得分最高的类别模型作为输入的预测结果。

进一步的，步骤6包括：

步骤601，从训练集的各类行为视频数据中随机抽取若干视频数据进行拼接，并随机选取一电梯背景与拼接后的视频合成为复杂视频；

步骤602，从验证集的各类行为视频数据中随机抽取若干视频数据进行拼接，并随机选取一电梯背景与拼接后的视频合成为复杂视频；

步骤603，将步骤601合成的复杂视频分别输入到所述最优模型中进行迭代训练，在迭代训练过程中每迭代一定次数利用步骤602合成的复杂视频对当前模型进行验证集上的损失计算，若损失比上一次保存模型的验证集损失低则保存当前模型，以训练结束后保存的模型为最终模型。

另一方面，本发明还公开了一种基于视频监控的电梯异常行为检测系统，包括：

视频数据处理模块，用于获取关于电梯内已知行为分类的视频数据，并对所述视频数据进行预处理；其中，所述行为分类包括异常行为类别和正常行为类别；

视频及深度片段截取模块，用于根据所述视频数据截取视频片段和深度片段，并按照预设比例分别划分为训练集和验证集；

网络模型训练模块，用于构建多个网络模型并利用训练集中的视频片段和深度片段进行训练；

最佳迭代次数确定模块，用于训练过程中计算每次迭代后各网络模型的综合损失，根据迭代过程中在验证集上综合损失最低时所对应的迭代次数为各模型的最佳迭代次数，从而确定各网络模型；

最优模型确定模块，用于利用验证集中的视频片段分别计算以上训练好的各网络模型的准确率和召回率，以准确率和召回率的均值最大者所对应的网络模型为最优模型；

检测模块，用于实时获取实际场景下关于电梯内的视频片段，利用所述最优模型作为检测模型对电梯内乘客的异常行为进行检测。

进一步的，还包括最终模型确定模块，用于进行多个电梯背景下多个行为视频的拼接，以合成新的训练视频对所述最优模型进行训练，以确定最终模型；其中检测模块利用所述最终模型作为检测模型对电梯内乘客的异常行为进行检测。

与现有技术相比，本发明具有以下优点：本发明运用跨模态知识蒸馏思想，搭建多模态融合的3D卷积神经网络模型，在训练时利用视频片段及深度片段共同训练，在推理时仅使用视频片段输入至RGB流与深度估计流(伪深度流)并行训练的架构对监控视频中的乘客异常行为进行检测，不仅提升了现有技术中运用RGB单一模态模特训练在电梯异常行为场景内识别的效果，而且避免了推理端对深度图的依赖，在进行实际预测时仅利用视频片段即可准确对监控视频中乘客的异常行为进行检测，降低了系统应用时设备的成本。

而且，本发明通过同时构建后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型以及中期左对齐拼接卷积神经网络模型，然后利用综合损失最低来确定各模型的迭代次数，然后再利用准确率和召回率从三模型中确定最优模型；最后，在精调训练阶段，再结合各电梯场景与各类行为的视频数据拼接合成复杂视频，然后将合成的复杂视频分别输入到所述最优模型中进行迭代训练，在迭代训练过程中每间隔预设迭代次数进行一次损失计算，若损失比上一次保存模型的验证集损失低则保存当前模型，以训练结束后保存的模型为最终模型，从而保证了最终训练模型的准确性，进而提高了对电梯内乘客的异常行为检测的准确性。本发明训练时运用了生成的多个电梯背景下多种情景组合的合成视频，从而提升了最终系统的鲁棒性和分析检测复杂场景的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于视频监控的电梯异常行为检测方法的流程图；

图2为本发明基于视频监控的电梯异常行为检测系统的结构图；

图3为后期拼接卷积神经网络模型的模型结构图；

图4为中期居中拼接卷积神经网络模型的模型结构图；

图5为中期左对齐拼接卷积神经网络模型的模型结构图；

图6为电梯模型的结构示意图。

具体实施例

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例公开了一种基于视频监控的电梯异常行为检测方法，包括以下步骤：

对应的，本发明实施例还提供了一种基于视频监控的电梯异常行为检测系统，包括：

在该实施例中，基于视频监控的电梯异常行为检测方法以基于视频监控的电梯异常行为检测系统作为步骤的执行对象，或者以基于视频监控的电梯异常行为检测系统内的组成部分作为步骤的执行对象。具体地，步骤1以视频数据处理模块作为步骤的执行对象，步骤2以视频及深度片段截取模块作为步骤的执行对象，步骤3以网络模型训练模块作为步骤的执行对象，步骤4以最佳迭代次数确定模块作为步骤的执行对象，步骤5以最优模型确定模块作为步骤的执行对象，步骤7是以检测模块作为步骤的执行对象。

步骤1中，所获取的视频数据包含有深度信息和视频信息，其中视频信息包括RGB信息或灰度信息。因此，步骤2中，视频片段可以为RGB片段或灰度片段，因此可以利用RGB片段和深度片段来训练网络模型，或者利用灰度片段和深度片段来训练网络模型。

其中，步骤1中，预先编写多种异常行为(如抽烟，摔倒，吵架，扒门等)以及正常行为(如亲密动作等)剧本，并按照剧烈程度划分多个等级，以划分0到7为范例，0为不构成异常行为，7为程度十分严重，严重等级随数值大小增加而递增；然后搭建一个以绿幕为底的电梯模型，具体参见图6，并在电梯模型的顶部四个点分别安装RGBD摄像头，以从四个不同角度收集模型内场景RGB信息(或灰度信息)和深度图信息；搭建好电梯模型后，安排500个以上演员录制500套以上视频，其中每套视频以一名演员作为主角，录制14种动作(如打斗、摔倒、吵架、蹦跳、真呼救、伪呼救(聊天时提到“救命”等字眼)、抽烟、扒门、打门、阻止关门、靠着门、打电梯其他部分、亲密动作、劫持等)，每类动作录制8种情况(即对应不同严重程度等级)，其中每种情况可以生成4个RGB视频或灰度图视频(即四个角度的RGBD摄像头所采集到的视频)、四个深度图视频以及一个音频文件。对4个不同角度的RGBD摄像头所采集到的不同行为视频根据行为进行分类并打上标签后进行存储。当然，在搭建电梯模型时，也可以采用一个或者多个RGBD摄像头来采集剧本行为数据，本发明在此不作限制。

本实施例中，通过自定义数据集，最大成度地模拟真实场景数据，提升模型鲁棒性与有效性。

具体的，步骤1中，采集到视频数据后，需要从视频数据的每一帧中识别并分割出人物形象，以避免背景对后期训练模型的干扰，然后将所分割出的人物形象按照动作分类保存。同时，还需要预处理后的视频数据按照预设比例划分为训练集和验证集，其中训练集用于训练卷积神经网络模型，而验证集则用于验证模型和参数择优。具体的，本实施例中，行为分类包括异常行为类别(如抽烟，摔倒，吵架，扒门等)和正常行为类别(如亲密动作、关门等)。

步骤2中，根据RGBD摄像头所采集到的视频数据，可以分别从中读取出深度片段及视频片段。首先，通过decord工具包可对读取出的深度图视频进行一次性解码，然后再对RGB视频(或灰度图视频)和解码后的深度图视频等距离抽取预设帧(如16帧)生成视频片段和深度片段。

步骤3中，使用知识蒸馏的思想，利用以上RGB数据和深度数据构建不同的网络模块，实现多模态训练，单模态推理；具体的，在训练时，以RGB视频(或灰度图视频)、深度图视频进行训练模型，而在预测或者推理时以RGB视频为仅有输入，对监控视频中乘客的异常行为进行检测。其中，所构建的网络模块包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型。

具体的，如图3所示，步骤3中，利用训练集中的视频片段和深度片段对后期拼接卷积神经网络模型进行训练的步骤包括：

具体的，如图4所示，步骤3中，利用训练集中的视频片段和深度片段对中期居中拼接卷积神经网络模型进行训练的步骤包括：

具体的，如图5所示，步骤3中，利用训练集中的视频片段和深度片段对中期左对齐拼接卷积神经网络模型进行训练的步骤包括：

无论是后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型或是中期左对齐拼接卷积神经网络模型，在分类层中，将特征向量输入到一或多层线性层，得出最终每一类预测结果的得分，根据得分结果作出最终预测，并根据预测计算分类损失，然后根据计算的分类损失进行下一轮迭代训练。在对RGB流模型的输入进行归一化处理，使视频片段的数值范围在0～1间，而对深度流模型和伪深度流模型的输入进行标准化处理，使其均值为0、方差为1。本实施例中，是以RGB片段作为RGB流模型的输入。

步骤4中，通过定义一种一致性损失函数来测量两种特征图间的一致性，该一致性损失函数测量的一致性包括特征图空间分布一致、特征图语义一致，及特征图绝对内容一致。其中，特征图空间分布一致性由KL散度衡量，由于伪深度流和深度流的特征图数据的概率分布相似度，同时KL散度描述对象仅仅是特征图的数据分布，与数据在特征图上的位置无关，该度量标准被用于规范神经网络的浅层模块，如模块1。特征图语义一致性由特征图自相关矩阵差的2-范数衡量，描述特征图的语义特征差异性，因而该度量标准适于规范神经网络的中层模块，如模块2。特征图绝对内容一致性由特征图差的2-范数衡量，因其对数据的数值与其在特征图上的位置要求严格，其适于规范神经网络的深层模块，如模块3及模块4。

其中，一致性损失函数定义为：

在上式(1)中，随机变量x描述伪深度流与深度流模块1的特征图数据数值，q(x)拟合伪深度流特征图的数据分布，p(x)拟合深度流特征图的数据分布。因此，等式(1)描述了伪深度特征图数据被用于近似深度特征图数据时的信息损失。

在上式(2)中，λ₁，λ₂，λ₃和λ₄描述深度流和伪深度流在四个模块输出特征图阶段，特征图相似的重要性。通过令λ₁到λ₄依次递增，可在训练中增强深度特征图的相似性，并允许伪深度流和深度流的浅层特征图收敛延迟。

和

分别为真伪深度流模块b的输出特征图，函数corr(·)计算高维张量在语义维度(即时间、空间维度)上的自相关矩阵，n^B,n^W,n^H,n^Tn^d,n^C分别表示一批量中样本数、特征图宽度、特征图高度、特征图时间维度大小、特征图的语义维度大小及特征图的通道数量。

除一致性损失函数外，对模型预测应用交叉熵损失函数，以规范对RGB模态与深度模态融合得出的最终得分。因此，令综合损失等于交叉熵损失与一致性损失的线性组合，并对综合损失进行梯度下降，其中综合损失定义如下：

L_total＝L_{cross entropy}+αL (3)

在上式(3)中，L_{cross entropy}为最终预测的交叉熵损失，L为一致性损失，α为调节一致性损失在综合损失中权重的参数。因此，在对各卷积神经网络模型进行迭代训练过程中，利用式(3)计算每次迭代后各卷积神经网络模型的综合损失，然后根据迭代过程中综合损失最低时所对应的迭代次数为各模型的最佳迭代次数，从而最终确定各卷积神经网络模型；

步骤5，在确定各网络模型后，利用验证集的视频片段作为各模型的输入，分别计算以上训练好的各网络模型的准确率和召回率，以准确率和召回率的均值最大者所对应的网络模型为最优模型。

具体的，步骤5中，利用验证集分别对后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型以及中期左对齐拼接卷积神经网络模型进行验证时，以RGB视频(或灰度图视频)为仅有输入，最终得到各模型的判断结果。

具体的，如图3中的推理端所示，在对后期拼接卷积神经网络模型进行验证时，由于所训练出的后期拼接卷积神经网络模型中，经过多次迭代后伪深度流模型已取得和深度流模型相似的预测效果，因此取伪深度流模型的池化层输出作为最终深度特征向量，与RGB流模型的池化层输出拼接，输送到分类层并得到最终得分，取其中得分最高的类别模型作为输入的预测结果。

如图4中的推理端所示，在对中期居中拼接卷积神经网络模型进行验证时，同样的，由于所训练出的中期居中拼接卷积神经网络模型中，经过多次迭代后伪深度流模型已取得和深度流模型相似的预测效果，因此取伪深度流模型的池化层输出作为最终深度特征向量，与RGB流模型的池化层输出拼接，输送到分类层并得到最终得分，取其中得分最高的类别模型作为输入的预测结果。

如图5中的推理端所示，在对中期左对齐拼接卷积神经网络模型进行验证时，同样的，由于所训练出的中期左对齐拼接卷积神经网络模型中，经过多次迭代后伪深度流模型已取得和深度流相似的预测效果，因此将RGB流模型和伪深度流模型的每个模块输出的中间特征图在特征维度上拼接，输入到RGB流模型的下一个模块，并继续通过RGB流的池化层与分类层，获得最终得分，取其中得分最高的类别模型作为输入的预测结果。

最终根据各模型的判断结果，确定各模型的准确率和召回率，其中准确率和召回率的均值最大者所对应的卷积神经网络模型为最优模型。

进一步的，以上实施例中，一种基于视频监控的电梯异常行为检测方法还可包括：

相应的，基于视频监控的电梯异常行为检测系统还包括最终模型确定模块，用于进行多个电梯背景下多个行为视频的拼接，以合成新的训练视频对所述最优模型进行训练，以确定最终模型；其中检测模块利用所述最终模型作为检测模型对电梯内乘客的异常行为进行检测。

本实施例中，利用生成的多个电梯背景下多种情景组合的合成视频(即复杂视频)，再对步骤5中所确定的最优模型进行精调训练，可以提高模型的准确率及鲁棒性。

具体的，步骤6包括以下子步骤：

相应的，最终模型确定模块包括

新训练集视频合成单元，用于从训练集的各类行为视频数据中随机抽取若干视频数据进行拼接，并随机选取一电梯背景与拼接后的视频合成为复杂视频；

新验证集视频合成单元，用于从验证集的各类行为视频数据中随机抽取若干视频数据进行拼接，并随机选取一电梯背景与拼接后的视频合成为复杂视频；

最终模型确定单元，用于将新训练集视频合成单元中合成的复杂视频分别输入到所述最优模型中进行迭代训练，在迭代训练过程中每迭代一定次数利用新验证集视频合成单元中合成的复杂视频对当前模型进行验证集上的损失计算，若损失比上一次保存模型的验证集损失低则保存当前模型，以训练结束后保存的模型为最终模型。

同样的，步骤6是以最终模型确定模块作为步骤的执行对象，或者是以最终模型确定模块中的组成部分作为步骤的执行对象。具体的，步骤601是以新训练集视频合成单元作为步骤的执行对象，步骤602是以新验证集视频合成单元作为步骤的执行对象，步骤603是以最终模型确定单元作为步骤的执行对象。

具体的，步骤6中，在合成复杂视频中，将RGB图像用人体检测模型检测出人物所在区域，计算出视频中所有人物最大的活动范围，截取出相应区域并删除背景，存为新的视频文件，并存放到相应类别的文件夹中；然后从所存放的文件夹中抽取每个样本时，都从这14类数据中随机抽取一个视频，按照0.4的保存比例决定此次拼接是否运用某一视频，等距抽取预设帧(如16帧)并随机缩放、反转保存后的视频；最后建立一个长宽均为448，高为16的空白三维矩阵，随机选取位置在对应帧放置处理后的保留视频；最后在背景库中随机选取一张电梯背景添加到合成的视频中，得到最终合成视频。令16个样本组成一个批量，并将所有输出转为张量；因此，数据加载器的输出及其大小分别为16×3×16×448×448的RGB流输入，16×3×16×448×448的伪深度流输入，和16×4的标签。

在模型精调中，具体的，将每次迭代抽取的16个训练样本输入到最优模型中；采用Adadelta作为优化器，RGB流的初始学习率设为0.01，伪深度图流的初始学习率设为0.001，权重衰减设为10-3，迭代8000次，在迭代训练过程中每间隔预设迭代次数(如400次)对当前模型进行验证集上的损失计算，若损失比上一次保存模型的验证集损失低，保存当前模型。训练结束后，选取所保存的在验证集上损失最低的模型作为最终模型。

步骤7中，当最优模型没有进行精调时，利用最优模型作为检测模型对电梯内乘客的的异常行为进行检测；而当最优模型经过步骤6进行精调时，则利用精调后的最终模型对电梯内乘客的异常行为进行检测。由于该模型直接输入视频片段即可对电梯内乘客的异常行为进行检测，因此在实际应用时，只需要在电梯的顶角处安装一个普通的监控录像设备即可，而并不一定要安装RGBD摄像头，也能确对电梯内乘客的异常行为进行检测，极大地系统应用时设备的成本。其中，若训练时采用的是视频片段为RGB片段，则步骤7中在进行实际预测时所获取的视频片段同样为RGB片段；而若训练时采用的是视频片段为灰度片段，则步骤7中在进行实际预测时所获取的视频片段同样为灰度片段；

同样的，实际应用时，在应用模型进行检查时，同样的：

本实施例中，检测模块检测出电梯内乘客的行为后，判断所检测出的行为是否属于用户划定的异常行为，即是否为打斗、摔倒、蹦跳或抽烟，如果是，则发出客户设置的相应类别警告，提醒相关工作人员注意。例如，若检测的行为显示乘客身体不适，控制中心则自动拨打120请求急救；若检测的行为显示乘客行为不符合电梯使用规范，则自动联系保安等相关工作人员，施加干预；若预测显示乘客行为严重威胁他人人身安全，则自动拨打110，联系当地警方制止暴力。例如，乘客行为与控制中心干预的对应表如下所示：

综上所述，本发明运用跨模态知识蒸馏思想，搭建多模态融合的3D卷积神经网络模型，在训练时利用视频片段及深度片段共同训练，在推理时仅使用视频片段输入至RGB流与深度估计流(伪深度流)并行训练的架构对监控视频中的乘客异常行为进行检测，不仅提升了现有技术中运用RGB单一模态模特训练在电梯异常行为场景内识别的效果，而且避免了推理端对深度图的依赖，在进行实际预测时仅利用视频片段即可准确对监控视频中乘客的异常行为进行检测，降低了系统应用时设备的成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频监控的电梯异常行为检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，还包括：

3.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤1中，对所述视频数据进行预处理的步骤包括：从视频数据的每一帧中识别并分割出人物形象，然后将所分割出的人物形象按照动作分类保存。

4.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对后期拼接卷积神经网络模型进行训练的步骤包括：

5.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对中期居中拼接卷积神经网络模型进行训练的步骤包括：

6.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤3中，所述多个网络模型包括但不限于后期拼接卷积神经网络模型、中期居中拼接卷积神经网络模型和中期左对齐拼接卷积神经网络模型；其中利用训练集中的视频片段和深度片段对中期左对齐拼接卷积神经网络模型进行训练的步骤包括：

7.根据权利要求4-6任一所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤5及步骤7中，

8.根据权利要求2所述基于视频监控的电梯异常行为检测方法，其特征在于，步骤6包括：

9.一种基于视频监控的电梯异常行为检测系统，其特征在于，包括：

10.根据权利要求1所述基于视频监控的电梯异常行为检测方法，其特征在于，还包括最终模型确定模块，用于进行多个电梯背景下多个行为视频的拼接，以合成新的训练视频对所述最优模型进行训练，以确定最终模型；其中检测模块利用所述最终模型作为检测模型对电梯内乘客的异常行为进行检测。