CN110619286A

CN110619286A - 一种车辆开关门动作识别方法、系统及存储介质

Info

Publication number: CN110619286A
Application number: CN201910809419.4A
Authority: CN
Inventors: 张晓春; 李熙莹; 陈振武; 邱铭凯; 张枭勇
Original assignee: Sun Yat Sen University; Shenzhen Urban Transport Planning Center Co Ltd
Current assignee: Sun Yat Sen University; Shenzhen Urban Transport Planning Center Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-27

Abstract

本发明公开了一种车辆开关门动作识别方法、系统及存储介质，方法包括：对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果；根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别，连续帧包含车门状态发生变化的车辆图片帧。本发明将车辆开关门动作识别分解成车门状态识别以及车门开关动作识别两部分，在实际应用中可以对视频的每一帧图片先进行车门状态识别，并仅当确定车门状态变化时才进行连续帧的车门动作识别，不再需要在每次预测时都输入连续帧图片进行动作识别，从而更好地提高了动作识别的效率以及实用性，可广泛应用于图像处理领域。

Description

一种车辆开关门动作识别方法、系统及存储介质

技术领域

本发明涉及图像处理领域，尤其是一种车辆开关门动作识别方法、系统及存储介质。

背景技术

在日常交通场景中，为了就近上下客，部分营运车辆在道路中明确禁止停车的区域违法停车的行为时有发生，在交通流比较高的区域，这种非法上下客的行为可能会导致道路的短时拥堵。对于这类行为的管控，由于行为发生时间以及地点的不确定性，单纯依靠交警进行巡逻来发现是不现实的。现如今，城市道路中基本每个地方都布设了各类无死角的监控摄像头，利用计算机视觉和人工智能技术，对道路监控视频进行分析，从而对非法上下客行为进行智能检测，是一种能极大提高监管效率的有效方式。

对非法上下客行为的检测可以分解为两个部分，行人的行为分析以及车辆开关门的动作识别。行人的行为分析主要是根据对行人的检测与跟踪，通过行人运动的轨迹判断是远离车辆还是从远处靠近车辆，但是在行人出现频率较高的场所，由于可能出现行人在视频中刚好经过车辆，而不是与车辆共同组成上下客的行为，所以无法仅仅依靠对行人的行为分析来完全判定非法上下客行为的发生，还需要结合车辆的开关门动作识别来进行分析。只有当行人在离开或者靠近车辆的过程中，同时伴随有车辆开关门的动作，才可以判定上下客行为的发生。

车辆开关门动作识别属于动作识别的范畴，现有的动作识别方法可以分为基于人工设计特征的识别及基于深度学习特征的识别两种。在基于人工设计特征进行动作识别的方法中，典型的方法为通过Kanade-Lucas-Tomasi(KLT)跟踪器提取特征的轨迹以及提取连续帧之间的时空描述子，例如Scale Invariant Feature Transform(SIFT)描述子，3-dimensional Histogram of Oriented Gradient(HOG3D)描述子，Speed Up RobustFeatures(SURF)描述子等作为特征，并送入分类器中进行动作识别。然而，基于人工设计特征进行动作识别的方法识别准确率较低，一般较少被采用。实际中应用更为普遍且识别准确率更高的动作识别方法是基于深度学习特征的识别方法，该方法包括：1)利用3维卷积神经网络(3-dimensional Convolutional Neural Network，3DCNN)将连续多帧的图片在时间的维度进行联结，利用神经网络学习连续帧中时空的特征，从而捕获相邻帧之间的运动信息。2)分别构建一个空间网络以及时间网络，利用空间网络捕获对于动作理解具有强区分性的特征，利用时间网络学习有效的动作特征。然而，现有基于深度学习特征的识别方法应用到实际场景中时，每次预测都需要输入连续多帧图片进行动作识别，这种处理方式是十分低效且不实际的。

发明内容

为解决上述技术问题，本发明实施例的目的在于：提供一种高效且实用的车辆开关门动作识别方法、系统及存储介质。

第一方面，本发明实施例所采取的技术方案是：

一种车辆开关门动作识别方法，包括以下步骤：

对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果；

根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别，所述连续帧包含车门状态发生变化的车辆图片帧。

进一步，还包括双阶段的分步训练步骤，所述双阶段的分步训练步骤具体包括：

训练车门状态特征编码器，所述车门状态特征编码器用于单帧车辆图片中车门的状态特征编码与识别；

固定车门状态特征编码器的参数，训练动作识别分类器，所述动作识别分类器用于连续帧的车门开关动作识别。

进一步，所述对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果这一步骤，具体包括：

从输入的视频中获取各帧车辆图片；

将各帧车辆图片分别输入训练好的车门状态特征编码器进行车门状态特征提取与识别，得到各帧车辆图片的车门状态特征及车门状态识别结果。

进一步，所述车门状态包括车门打开状态和车门关闭状态，所述训练车门状态特征编码器这一步骤，具体包括：

获取给定的单帧车辆图片作为训练样本，获取训练样本的车门状态作为标签；

根据训练样本和标签采用改进的VGG16网络进行训练，得到车门状态特征编码器，所述改进的VGG16网络包括14层，这14层依次是第一卷积层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第四卷积层、第四最大池化层、第五卷积层、第五最大池化层、全连接层、全连接层和sigmoid分类层，所述全连接层以及第一至第五卷积层均采用线性整流函数。

进一步，所述根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别这一步骤，具体包括：

根据所述车门状态识别结果确定车门状态发生变化的车辆图片帧，所述车门状态发生变化的车辆图片帧是指与前一帧车辆图片的车门状态不同的车辆图片帧；

根据车门状态发生变化的车辆图片帧得到连续帧；

将连续帧输入车门状态特征编码器后得到连续帧的车门状态特征序列；

将连续帧的车门状态特征序列输入训练好的动作识别分类器中，得到车门开关动作识别结果。

进一步，所述车门开关动作包括保持打开、由打开变为关闭、由关闭变为打开和保持关闭，所述动作识别分类器采用双层LSTM网络训练得到。

第二方面，本发明实施例所采取的技术方案是：

一种车辆开关门动作识别系统，包括以下模块：

车门状态特征提取与识别模块，用于对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果；

车门开关动作识别模块，用于根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别，所述连续帧包含车门状态发生变化的车辆图片帧。

进一步，还包括双阶段分步训练模块，所述双阶段分步训练模块具体包括：

第一阶段训练单元，用于训练车门状态特征编码器，所述车门状态特征编码器用于单帧车辆图片中车门的状态特征编码与识别；

第二阶段训练单元，用于固定车门状态特征编码器的参数，训练动作识别分类器，所述动作识别分类器用于连续帧的车门开关动作识别。

第三方面，本发明实施例所采取的技术方案是：

一种车辆开关门动作识别系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的一种车辆开关门动作识别方法。

第四方面，本发明实施例所采取的技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的一种车辆开关门动作识别方法。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明实施例先对每帧车辆图片进行车门状态特征提取与识别，再在确定识别到车门状态变化时对连续帧的车门开关状态特征序列进行车门开关动作识别，将车辆开关门动作识别分解成车门状态识别以及车门开关动作识别两部分，在实际应用中可以对视频的每一帧图片先进行车门状态识别，并仅当确定车门状态变化时才进行连续帧的车门动作识别，不再需要在每次预测时都输入连续帧图片进行动作识别，从而更好地提高了动作识别的效率以及实用性。

附图说明

图1为本发明实施例提供的一种车辆开关门动作识别方法流程图；

图2为本发明具体实施例车辆开关门动作识别方案的架构图；

图3为本发明具体实施例双阶段分步训练方法的实现流程图；

图4为本发明具体实施例车门状态特征编码器的网络结构图；

图5为本发明具体实施例动作识别分类器的网络结构图；

图6为本发明实施例提供的一种车辆开关门动作识别系统的一种结构框图；

图7为本发明实施例提供的一种车辆开关门动作识别系统的另一种结构框图。

具体实施方式

下面结合说明书附图和具体实施例对本发明做进一步解释和说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种车辆开关门动作识别方法，包括以下步骤：

S101、对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果；

具体地，车辆图片可以从输入的视频(包含有车辆的图像，可通过监控摄像头拍摄得到)中分解得到。

本实施例通过特征提取与识别来识别单帧车辆图片中车门的状态(包括打开和关闭两种状态)以及提取对应的状态特征。在进行特征提取与识别时可以采用预先通过深度学习算法(如卷积神经网络算法)训练好的车门状态特征编码器来完成。

S102、根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别，所述连续帧包含车门状态发生变化的车辆图片帧。

具体地，由于步骤S101已对每帧车辆图片的车门开关状态进行了识别，故可以根据当前帧车辆图片的车门开关状态与前一帧车辆图片的车门开关状态找出车门状态发生变化(证明车辆开关门的动作正在发生)的车辆图片帧，接着可从输入的视频中提取该视频图片帧前后预设时间内的所有帧车辆图片作为连续帧。提取到连续帧后可以通过步骤S101提取连续帧的车门开关状态特征来组成车门开关状态特征序列，然后对该车门开关状态特征序列进行车门开关动作识别来完成连续帧的车门开关动作识别。由于确定车门状态变化时才进行连续帧的车门动作识别，本实施例不再需要在每次预测时都输入连续帧图片进行动作识别，从而更好地提高了动作识别的效率以及实用性。在进行车门开关动作识别时可以采用预先通过深度学习算法(如卷积神经网络算法)训练好的动作识别分类器来完成。

由上述内容可见，本实施例将车辆开关门动作识别分解成车门状态识别以及车门开关动作识别两部分，在实际应用中可以对视频的每一帧图片先进行车门状态识别，并仅当确定车门状态变化时才进行连续帧的车门动作识别，极大地提高了动作识别的效率以及实用性。

进一步作为优选的实施方式，还包括双阶段的分步训练步骤S100，所述双阶段的分步训练步骤具体包括：

S1001、训练车门状态特征编码器，所述车门状态特征编码器用于单帧车辆图片中车门的状态特征编码与识别；

S1002、固定车门状态特征编码器的参数，训练动作识别分类器，所述动作识别分类器用于连续帧的车门开关动作识别。

具体地，在实际应用中，视频数据存在收集麻烦、数据量较少的问题。为了能够在较少的训练样本上仍然能够得到较高的识别准确率，考虑到视频由多帧图片组成，少量的视频便可以得到大量的图片样本，并且图片的标注相比视频样本的标注更为简单，本实施例采用了双阶段的分步训练方法：在第一阶段，首先构建并训练车门开关状态特征编码器，以对单帧车辆图片中车门的状态特征进行提取与识别；然后固定车门开关状态特征编码器的参数，训练动作识别分类器来对连续帧的车门开关动作进行识别。

进一步作为优选的实施方式，所述对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果这一步骤S101，具体包括：

S1011、从输入的视频中获取各帧车辆图片；

具体地，在实际应用中，视频是由多帧图片组成的，故可以以帧为单位通过视频分割将输入的视频划分为若干帧的车辆图片。

S1012、将各帧车辆图片分别输入训练好的车门状态特征编码器进行车门状态特征提取与识别，得到各帧车辆图片的车门状态特征及车门状态识别结果。

具体地，由于已训练好车门状态特征编码器，故实际应用时只需将各帧车辆图片分别输入该车门状态特征编码器中即可输出每帧车辆图片的车门状态及对应的车门状态特征，十分便捷且智能化程度高。

进一步作为优选的实施方式，所述车门状态包括车门打开状态和车门关闭状态，所述训练车门状态特征编码器这一步骤S1001，具体包括：

S10011、获取给定的单帧车辆图片作为训练样本，获取训练样本的车门状态作为标签；

S10012、根据训练样本和标签采用改进的VGG16网络进行训练，得到车门状态特征编码器，所述改进的VGG16网络包括14层，这14层依次是第一卷积层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第四卷积层、第四最大池化层、第五卷积层、第五最大池化层、全连接层、全连接层和sigmoid分类层，所述全连接层以及第一至第五卷积层均采用线性整流函数。

具体地，VGG全称是Visual Geometry Group，属于牛津大学科学工程系2014年提出的一种卷积神经网络模型，具有良好的特征提取能力和可移植性。VGG网络按隐含层数可分为11层(8个卷积层和3个全连接层)的VGG11网络、13层的VGG13网络(10个卷积层和3个全连接层)、16层的VGG16网络和19层的VGG19网络，其中16层(13个卷积层和3个全连接层)的VGG16应用和19层(16个卷积层和3个全连接层)的VGG19网络较为广泛。

本实施例的车门状态特征编码器采用了改进的VGG16网络结构，在VGG16网络结构的基础上对网络层数以及各层的特征维度进行了缩减，在保证网络结构有效的基础上，减少网络参数，提高网络运算的速度。具体地，改进的VGG16网络结构包含2个第一卷积层及第二至第五卷积层共6个卷积层和2个全连接层，而第一至第五最大池化层这5个最大池化层则与传统的VGG16网络的最大池化层数量相同。另外，由于车门状态包括车门打开状态和车门关闭状态这两种状态，属于二分类的问题，故本实施例改进的VGG16网络结构采用sigmoid分类层来取代传统的softmax分类器作为输出。

由此可见，本实施例采用了改进的VGG16网络来进行车门状态特征编码器训练，提升了训练的速度，网络结构更加简洁和高效。

进一步作为优选的实施方式，所述根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别这一步骤S102，具体包括：

S1021、根据所述车门状态识别结果确定车门状态发生变化的车辆图片帧，所述车门状态发生变化的车辆图片帧是指与前一帧车辆图片的车门状态不同的车辆图片帧；

具体地，车门状态发生变化的车辆图片帧可根据当前帧车辆图片与前一帧车辆图片的相对状态来确定：若前一帧车辆图片的车门状态识别为打开而当前帧车辆图片的车门状态识别为关闭或者前一帧车辆图片的车门状态识别为关闭而当前帧车辆图片的车门状态识别为打开，则确定当前帧车辆图片的车门状态发生变化。当前帧车辆图片可以为输入视频中的任一帧车辆图片。

S1022、根据车门状态发生变化的车辆图片帧得到连续帧；

具体地，可在确定车门状态发生变化的车辆图片帧之后，从输入视频中选取该帧图片前或后一定时间内的所有帧图片作为连续帧。

S1023、将连续帧输入车门状态特征编码器后得到连续帧的车门状态特征序列；

S1024、将连续帧的车门状态特征序列输入训练好的动作识别分类器中，得到车门开关动作识别结果。

具体地，由于已训练好动作识别分类器，故实际应用时本实施例只需将连续帧的车门状态特征序列输入该动作识别分类器中即可进行完整的车辆开关门动作识别，十分便捷且智能化程度高。

进一步作为优选的实施方式，所述车门开关动作包括保持打开、由打开变为关闭、由关闭变为打开和保持关闭，所述动作识别分类器采用双层LSTM网络训练得到。

具体地，保持打开是指车门处于一直打开状态，保持关闭是指车门处于一直关闭状态。考虑到在连续帧中车门的状态变化具有一定的时序关系，本实施例的动作识别分类器使用双层LSTM(Long Short-Term Memory，长短期记忆网络)网络来提取车门状态变化的时序信息。

针对现有技术的缺点，本具体实施例提出了一个在实际应用中可以高效判断视频车辆开关门动作的可拆分网络结构，以及提出了一种适用于少量样本训练的双阶段训练方法。本具体实施例设计了一个包含车门状态特征编码器以及动作识别分类器的可分离网络结构，首先在第一阶段利用单帧车辆图片对车门状态特征编码器进行训练，然后在第二阶段固定车门状态特征编码器的参数，利用连续帧序列对动作识别分类器进行训练，从而实现在少量样本下仍然能够得到较高的识别准确率的效果。如图2所示，在应用到实际场景中时，本具体实施例将车辆开关门动作识别分解成车门状态识别以及动作识别两部分，首先将输入视频中的每一帧车辆图片利用车门状态特征编码器对车门的开关状态进行识别与特征提取，只有当识别到车辆状态变化时，再对包含该帧的连续帧序列利用动作识别分类器进行完整的车辆开关门动作识别，从而大大提高了该车门动作识别技术的效率及应用的可行性。下面对本具体实施例的主要内容进行具体说明：

(1)训练方法。

实际应用中，视频数据存在收集麻烦、数据量较少的问题。为了能够在较少的训练样本上仍然能够得到较高的识别准确率，考虑到视频由多帧图片组成，少量的视频便可以得到大量的图片样本，并且图片的标注相比视频样本的标注更为简单的特点，本具体实施例采用图3所示的双阶段分步训练方法。在第一阶段，首先构建图4所示的车门开关状态特征编码器，输入单帧图片，对单帧图片中车门的开关状态进行识别，训练车门开关状态特征编码器学习表示车门开关状态的特征。然后在第二阶段中，固定车门开关状态特征编码器的参数，输入连续帧，经过车门开关状态特征的特征编码，得到连续帧的车门开关状态特征序列，将该特征序列输入如图5所示的动作识别分类器中，对动作识别分类器进行训练。

(2)网络结构。

车门开关状态特征编码器的网络结构设计如图4所示。该编码器在VGG16网络结构的基础上对网络层数以及各层的特征维度进行缩减，在保证网络结构有效的基础上，减少了网络参数，提高了网络运算的速度。

该车门开关状态特征编码器的输出特征维度可与VGG16网络保持一致，设置为4096维，此时如图4所示，该网络结构的具体处理过程依次为：

1)输入的图片，经第一卷积层c1的32个3×3的卷积核作两次卷积+线性整流函数ReLU，尺寸变为224×224×32；

2)、经第一最大化池化层p1作max pooling(最大化池化)，最大化池化层p1的尺寸为2×2(效果为图像尺寸减半)，池化后的尺寸变为112×112×32；

3)、经第二卷积层c2的64个3×3的卷积核作一次卷积+ReLU，尺寸变为112×112×64；

4)经第二最大化池化层p2作2×2的max pooling池化，尺寸变为56×56×64；

5)经第三卷积层c3的128个3×3的卷积核作一次卷积+ReLU，尺寸变为56×56×128；

6)经第三最大化池化层p3作2×2的max pooling池化，尺寸变为28×28×128；

7)经第四卷积层c4的256个3×3的卷积核作一次卷积+ReLU，尺寸变为28×28×256；

8)经第四最大化池化层p4作2×2的max pooling池化，尺寸变为14×14×256；

9)经第五卷积层c5的256个3×3的卷积核作一次卷积+ReLU，尺寸保持为14×14×256；

10)经第五最大化池化层p5作2×2的max pooling池化，尺寸变为7×7×256；

11)、与全连接层Fc1和Fc2的两层1×1×4096进行全连接+ReLU；

12)通过sigmoid输出1个预测结果。

而在综合考虑资源占用及网络预测精度的情况下，该编码器输出特征维度可以在集合{512，1024，2048，4096}中根据实际设备配置进行选取，特征维度越大，则预测精度越高，但是占用资源越多，对设备的要求配置越高。

而动作识别分类器的网络结构设计如图5所示。考虑到在连续帧中车门的状态变化具有一定的时序关系，动作识别分类器使用双层LSTM(Long Short-Term Memory，长短期记忆网络)网络来提取车门状态变化的时序信息。该分类器使用连续帧的编码特征序列作为输入，如图2和图5所示，对于输入的N帧连续帧序列{f_1,f₂,…,f_N}，其每一帧经过车门状态特征编码器得到特征序列{F_1,F₂,…,F_N}，其中F_i为第i帧编码得到的大小为1×4096的车门状态特征，将N个1×4096的车门状态特征按顺序输入图5的双层LSTM网络中，提取表示连续帧中车门动作的状态特征{C_1,C₂,…,C₄₀₉₆}。车门动作状态特征{C_1,C₂,…,C₄₀₉₆}经过两个全连接层FC1和FC2进行编码后，经Softmax分类器输出连续帧中车门动作类别的预测结果。

(3)车辆开关门动作识别。

在车辆开关门动作识别算法的实际应用中，对于所有连续帧都进行完整的车辆开关门动作识别是耗时且不实际的。本具体实施例基于本申请所采用的双阶段分布训练的方式，在实际应用中，可以对视频的每一帧车辆图片先利用车门状态特征编码器对车门的状态进行判别，只有当检测到车门状态变化的时候，证明车辆开关门的动作正在发生，才再对包含该帧的连续帧序列进行完整的车辆开关门动作识别。这样的检测流程可以大大提高算法运行的效率，增强算法在实际应用中的可行性。

参照图6，本发明实施例提供了一种车辆开关门动作识别系统，包括以下模块：

车门状态特征提取与识别模块201，用于对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果；

车门开关动作识别模块202，用于根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别，所述连续帧包含车门状态发生变化的车辆图片帧。

参照图6，进一步作为优选的实施方式，还包括双阶段分步训练模块200，所述双阶段分步训练模块200具体包括：

第一阶段训练单元2001，用于训练车门状态特征编码器，所述车门状态特征编码器用于单帧车辆图片中车门的状态特征编码与识别；

第二阶段训练单元2002，用于固定车门状态特征编码器的参数，训练动作识别分类器，所述动作识别分类器用于连续帧的车门开关动作识别。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图7，本发明实施例提供了一种车辆开关门动作识别系统，包括：

至少一个处理器301；

至少一个存储器302，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器301执行，使得所述至少一个处理器301实现所述的一种车辆开关门动作识别方法。

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的一种车辆开关门动作识别方法。其中，所述存储介质可为软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、XD卡等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种车辆开关门动作识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种车辆开关门动作识别方法，其特征在于：还包括双阶段的分步训练步骤，所述双阶段的分步训练步骤具体包括：

3.根据权利要求2所述的一种车辆开关门动作识别方法，其特征在于：所述对每帧车辆图片进行车门状态特征提取与识别，得到每帧车辆图片的车门状态特征及车门状态识别结果这一步骤，具体包括：

从输入的视频中获取各帧车辆图片；

4.根据权利要求2所述的一种车辆开关门动作识别方法，其特征在于：所述车门状态包括车门打开状态和车门关闭状态，所述训练车门状态特征编码器这一步骤，具体包括：

5.根据权利要求2所述的一种车辆开关门动作识别方法，其特征在于：所述根据所述车门状态识别结果在确定识别到车门状态变化时，对连续帧的车门开关状态特征序列进行车门开关动作识别这一步骤，具体包括：

根据车门状态发生变化的车辆图片帧得到连续帧；

6.根据权利要求5所述的一种车辆开关门动作识别方法，其特征在于：所述车门开关动作包括保持打开、由打开变为关闭、由关闭变为打开和保持关闭，所述动作识别分类器采用双层LSTM网络训练得到。

7.一种车辆开关门动作识别系统，其特征在于：包括以下模块：

8.根据权利要求7所述的一种车辆开关门动作识别系统，其特征在于：还包括双阶段分步训练模块，所述双阶段分步训练模块具体包括：

9.一种车辆开关门动作识别系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述的一种车辆开关门动作识别方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-6任一项所述的一种车辆开关门动作识别方法。