CN111523510A

CN111523510A - 行为识别方法、装置、系统、电子设备及存储介质

Info

Publication number: CN111523510A
Application number: CN202010383500.3A
Authority: CN
Inventors: 刘冠达; 邱培刚; 杨春丽; 任仰奇; 张婷婷; 范军; 何国新; 张军
Original assignee: Beijing Zhongrun Guosheng Technology Co ltd; Guoyou Hengan Beijing Technology Co ltd; State Post Bureau Postal Industry Security Center; China Unicom System Integration Ltd Corp
Current assignee: Beijing Zhongrun Guosheng Technology Co ltd; Guoyou Hengan Beijing Technology Co ltd; State Post Bureau Postal Industry Security Center; China Unicom System Integration Ltd Corp
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-11

Abstract

本发明实施例提供了一种基于视频的行为识别方法、装置、系统、电子设备及存储介质，其中方法包括：获取当前待识别视频片段；当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段；将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型；动作分类模型，是基于预设时长的样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个样本监控视频片段的动作类型标签进行训练获得的。本发明实施例能够提高违规行为的识别准确性。

Description

行为识别方法、装置、系统、电子设备及存储介质

技术领域

本发明涉及视频识别技术领域，特别是涉及一种基于视频的行为识别方法、装置、系统、电子设备及存储介质。

背景技术

目前，很多行业为了实现安全生产，都在生产场景安装了监控设备，以对人员的违规行为进行识别。例如：在快递或者物流行业，经常需要操作人员在分拣中心对包裹进行分拣，以将不同区域的包裹分别放置。操作人员在分拣包裹的过程中，可能存在抛扔、脚踢包裹等暴力分拣行为，这些暴力分拣行为均是被禁止的行为。为了知晓在分拣过程中，是否出现操作人员暴力分拣的违规行为，通常可以对分拣中心的摄像头所拍摄的监控视频进行识别。

现有技术中，获取分拣中心的预设时长的当前待识别视频片段，并将该当前待识别视频片段输入至预先训练好的神经网络模型中，输出动作识别结果，该动作识别结果为当前监控视频中是否包括违规行为。

然而，在实际识别过程中，发明人发现用现有的神经网络模型进行识别，存在违规行为漏检的情况，即，有些视频片段存在违规行为，神经网络模型中输出的识别结果却是不存在违规行为，因此，现有技术中对当前监控视频中的违规行为识别的准确性较低。

发明内容

本发明实施例的目的在于提供一种基于视频的行为识别方法、装置、系统、电子设备及存储介质，以提高违规行为的识别准确性。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种基于视频的行为识别方法，所述方法包括：

获取当前待识别视频片段；所述当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段；

将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；所述动作类型包括：正常动作类型和至少一种违规行为类型；

所述动作分类模型，是基于所述预设时长的样本监控视频片段，从所述预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个样本监控视频片段的动作类型标签进行训练获得的。

在本发明实施的第二方面，还提供了一种基于视频的行为识别装置，所述装置包括：

视频片段获取模块，用于获取当前待识别视频片段；所述当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段；

动作分类模块，用于将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；所述动作类型包括：正常动作类型和至少一种违规行为类型；

在本发明实施的第三方面，还提供了一种基于视频的行为识别系统，包括：视频采集设备和监控主机；

所述视频采集设备，安装在目标监控场景中，用于对目标监控场景拍摄监控视频；

所述监控主机，与所述视频采集设备通信连接，用于实现上述任一所述的基于视频的行为识别方法。

在本发明实施的第四方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的基于视频的行为识别方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的基于视频的行为识别方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的基于视频的行为识别方法。

本发明实施例提供的基于视频的行为识别方法、装置、系统、电子设备及存储介质，通过获取当前待识别视频片段，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型。本发明实施例中的动作分类模型是基于多个样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，各个样本监控视频片段的动作类型标签进行训练获得的。由于经裁剪后的视频片段中仅包含一种类型的人体动作，因此，使得训练后的动作分类结果在对目标视频片段进行识别的过程中，能够综合考虑目标视频片段中的包含动作的视频帧以及不包含动作的视频帧，降低当前待识别视频片段中不包含动作的视频帧对动作分类结果的影响，进而能够提高动作分类模型对违规行为的识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1a为本发明实施例提供的基于视频的行为识别方法的一种流程示意图；

图1b为本发明实施例提供的动作分类模型的一种结构示意图；

图2a为本发明实施例提供的基于视频的行为识别方法的第二种流程示意图；

图2b为本发明实施例提供的神经网络模型的第一种结构示意图；

图3a为本发明实施例提供的基于视频的行为识别方法的第三种流程示意图；

图3b为本发明实施例提供的神经网络模型的第二种结构示意图；

图4a为本发明实施例提供的基于视频的行为识别方法的第四种流程示意图；

图4b为本发明实施例提供的动作分类模型的第三种结构示意图；

图5为图1a所示实施例中，S101的一种流程示意图；

图6为本发明实施例提供的动作分类模型的一种训练流程示意图；

图7为本发明实施例提供的动作定位模型的一种训练流程示意图；

图8为本发明实施例提供的动作识别模型的一种训练流程示意图；

图9为本发明实施例提供的基于视频的行为识别装置的一种结构示意图；

图10为本发明实施例提供的基于视频的行为识别系统的一种结构示意图；

图11为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例中，提供有四种基于视频的行为识别方法：

第一种基于视频的行为识别方法：

如图1a所示，本发明实施例提供了一种基于视频的行为识别方法，该过程可以包括：

S101，获取当前待识别视频片段。

在本发明实施例中，当前待识别视频片段可以为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段。其中，目标监控场景可以为物流行业或快递行业的分拣中心。

预设时长可以为预先设置好的时长，该预设时长可以根据人体做出一个动作的时长来确定，例如，在对分拣中心的包裹进行分拣的过程中，每分拣一个包裹大概需要不到2s的时长，因此可以将预设时长设置为2s。

S102，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型。

如图1b所示，动作分类模型可以为3DCNN(3D Convolutional Neural Networks，3D卷积神经网络模型)，其中可以包括卷积层、池化层和输出层。在将当前待识别视频片段输入动作分类模型之前，可以预先对动作分类模型进行训练，具体地，该动作分类模型可以是基于预设时长的样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个子样本监控视频片段的动作类型标签进行训练获得的。

其中仅包含一种类型人体动作的子样本监控视频片段的获取过程，可以为首先获得该样本监控视频片段中动作的开始时间点和结束时间点，并将开始时间点之前，以及结束时间点之后的视频帧删除，得到子样本监控视频片段。可以采用人工标定的方法获得该样本监控视频片段中动作的开始时间点和结束时间点，也可以采用将当前待识别视频片段输入动作定位网络中获得该样本监控视频片段中动作的开始时间点和结束时间点，该方法将在下文中进行详细的说明。

可以将当前待识别视频片段输入训练好的动作分类模型中，得到动作分类模型输出的动作类型，该动作类型可以包括：正常动作类型和至少一种违规行为类型。违规行为可以包括抛扔包裹，脚踢包裹，或者其他的可能对包裹造成损伤的违规行为。

本发明实施例提供的基于视频的行为识别方法，通过获取当前待识别视频片段，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型。本发明实施例中的动作分类模型是基于多个样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，各个样本监控视频片段的动作类型标签进行训练获得的。由于经裁剪后的视频片段中仅包含一种类型的人体动作，因此，使得训练后的动作分类结果在对目标视频片段进行识别的过程中，能够综合考虑目标视频片段中的包含动作的视频帧以及不包含动作的视频帧，降低当前待识别视频片段中不包含动作的视频帧对动作分类结果的影响，进而能够提高动作分类模型对违规行为的识别准确性。

第二种基于视频的行为识别方法：

该基于视频的行为识别方法是在图1a所示的行为识别方法的基础上，引入动作定位模型，以进一步提高基于视频的行为识别方法的准确性。如图2b所示，在该种方法中所使用的神经网络模型中可以包括：动作定位模型和动作分类模型。

如图2a所示，在图1a所示实施例流程步骤S102，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤之前，本发明实施例提供的基于视频的行为识别方法还可以包括：

S201，将当前待识别视频片段输入预先训练好的动作定位模型中，得到至少一个动作定位结果。

动作定位模型可以为3DCNN，其中可以包括卷积层、池化层和输出层。在将当前待识别视频片段输入动作定位模型之前，可以预先对动作定位模型进行训练，具体地，该动作定位模型可以是基于预设时长的样本监控视频片段，以及样本监控视频片段的动作占比标签进行训练得到的。

将当前待识别视频片段输入训练好的动作定位模型中，可以得到至少一个动作定位结果，各动作定位结果中包括：当前待识别视频片段中动作的开始时间点，以及动作的结束时间点，其中动作的开始时间点可以表示在当前待识别视频中，动作开始于第几秒，或者也可以表示动作开始于第几个视频帧。各动作定位结果中还包括动作的开始时间点的概率，以及动作的结束时间点的概率。

S202，对至少一个动作定位结果进行NMS(Non-Maximum Suppression，非极大值抑制)处理，得到当前待识别视频片段中动作的目标开始时间点，以及动作的目标结束时间点。

可以对至少一个动作定位结果进行NMS处理，从多个动作定位结果中选择最优的一个动作定位结果，作为目标动作定位结果，即，得到当前待识别视频片段动作的目标开始时间点和动作的目标结束时间点。具体NMS处理过程可以为：按照多个动作定位结果各自动作开始时间点或动作结束时间点的概率从大到小的顺序，对多个动作定位结果进行排序，首先取出概率最高的动作定位结果，放入预设的一个队列中，接着计算该结果，与剩余的多个动作定位结果之间的重叠度，并将重叠度超过预设重叠度阈值的动作定位结果从多个动作定位结果中排除，最终得到一个动作定位结果。

S203，将当前待识别视频片段中位于目标开始时间点之前，以及位于目标结束时间点之后的视频帧进行裁剪处理，得到经裁剪后的视频片段。

在得到当前待识别视频片段中动作的目标开始时间点和目标结束时间点之后，可以采用OpenCV等图像处理工具对当前待识别视频片段进行裁剪处理，具体裁剪处理过程为，将当前待识别视频片段中，位于目标开始时间点之前的视频帧，以及位于目标结束时间点之后的视频帧进行裁剪处理，得到经裁剪后的视频片段，该经裁剪后的视频片段中仅包含一个类型的动作。

图1a所示实施例流程步骤S102，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤，可以包括：

S204，将经裁剪后的视频片段输入动作分类模型中，对经裁剪后的视频片段进行动作分类，获得动作分类结果。

可以将经裁剪后的视频片段输入动作分类模型中，对经裁剪后的视频片段进行动作分类，获得动作分类结果。在本发明实施例中，由于可以预先采用动作定位模型获得当前待识别视频片段的动作定位结果，接着对多个动作定位结果进行NMS处理，得到一个动作定位结果，该动作定位结果中包括：动作的目标开始时间点，以及动作的目标结束时间点，利用目标开始时间点和目标结束时间点对当前待识别视频片段进行裁剪处理，得到的经裁剪后的视频片段中仅包含一种类型的动作。接着将该经裁剪后的视频片段输入动作分类模型中，获得动作分类结果。由于该经裁剪后的视频片段中仅包含一种类型的动作，即，该经裁剪后的视频片段中所有视频帧中的动作共同组成了一个完整的动作，不包含不存在该类型动作的视频帧，即，不存在背景视频帧的干扰，因此能够提高违规行为识别的准确性。

如图3a所示，本发明实施例提供的第三种基于视频的行为识别方法：

该基于视频的行为识别方法是在图1a所示的行为识别方法的基础上，引入动作识别模型，以进一步提高基于视频的行为识别方法的准确性。如图3b所示，在该种方法中所使用的神经网络模型中可以包括：动作识别模型和动作分类模型。

在图1a所示实施例流程步骤S102，将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤之前，本发明实施例提供的基于视频的行为识别方法还可以包括：

S301，将当前待识别视频片段输入预先训练好的动作识别模型中，得到动作识别模型输出的当前待识别视频片段中是否包含人体动作的识别结果。

动作识别模型可以为3DCNN，其中可以包括卷积层、池化层和输出层。在将当前待识别视频片段输入动作识别模型之前，可以预先对动作识别模型进行训练，具体地，该动作识别模型可以是基于预设时长的样本监控视频片段，以及各个样本监控视频片段中是否包含人体动作的动作标签进行训练获得。

将当前待识别视频片段属于训练好的动作识别模型中，对该当前待识别视频片段进行动作识别，识别当前待识别视频片段是否包含人体动作，得到动作识别模型输出的当前待识别视频片段中是否包含人体动作的识别结果。其中，识别结果可以包括：当前待识别视频片段中包含人体动作的概率，以及不包含人体动作的概率，在得到的两个概率中，哪个概率大，则该概率对应的结果为该当前待识别视频片段对应的结果。例如，当包含人体动作的概率较大时，则该当前待识别视频片段中包含人体动作，当不包含人体动作的概率较大时，则该当前待识别视频片段中不包含人体动作。

S302，如果当前待识别视频片段中包含人体动作，则执行图1a所示实施例流程步骤S102。

此处的包含人体动作可以指，该当前待识别视频片段中不存在多个人体图像重叠的情况。由于在当前待识别视频片段中如果包含多个人体图像，且多个人体图像之间有一定的重叠度，识别其中一个人体图像的行为是否是违规行为时，与其具有一定重叠度的其他人体图像可能造成干扰，导致识别结果不够准确。因此，在识别当前待识别视频片段中是否包含违规动作，以及确定违规动作的动作类型之前，可以先确定当前待识别视频片段中是否包含人体动作，在包含人体动作的情况下，则可以对当前待识别视频片段进行动作分类。

如图4a所示，本发明实施例提供的第四种基于视频的行为识别方法：

该基于视频的行为识别方法是在图2a所示的行为识别方法的基础上，引入动作识别模型，以进一步提高基于视频的行为识别方法的准确性。如图4b所示，在该种方法中所使用的神经网络模型中可以包括：动作识别模型、动作定位模型和动作分类模型。

在图2a所示实施例流程S201，将当前待识别视频片段输入预先训练好的动作定位模型中，得到至少一个动作定位结果的步骤之前，本发明实施例提供的基于视频的行为识别方法可以包括：

S401，将当前待识别视频片段输入预先训练好的动作识别模型中，得到动作识别模型输出的当前待识别视频片段中是否包含人体动作的识别结果。本步骤可以参考图3a所示实施例流程步骤S301，本发明实施例对此不再赘述。

S402，如果当前待识别视频片段中包含人体动作，则执行图2a所示实施例流程步骤S201。

在本发明实施例中，首先将当前待识别视频片段输入动作识别模型中，得到当前待识别视频片段中是否包含人体动作的识别结果；若当前待识别视频片段中包含人体动作，则将当前待识别视频片段输入动作定位模型中，得到动作定位结果，接着利用动作定位结果对当前待识别视频片段进行裁剪处理，得到经裁剪后的视频片段，最后将经裁剪后的视频片段输入动作分类模型中，得到动作分类结果。根据动作分类结果可以得到当前待识别视频片段中是否存在违规行为，且上述得到违规行为的识别方法准确性更高。

作为本发明实施例一种可选的实施方式，如图5所示，图1a所示实施例流程步骤S101，获取当前待识别视频片段的步骤，可以包括：

S501，获取当前待识别视频帧。

可以实时获取当前待识别视频帧，即，在目标监控场景中，每拍摄一帧视频帧，则可以获取该视频帧，作为当前待识别视频帧。

S502，判断当前待识别视频帧中是否包含人体图像。

在本发明实施例中，需要判断当前待识别视频中是否存在操作人员抛扔包裹、脚踢包裹等违规行为。因此，在获取到当前待识别视频帧之后，可以对其进行图像识别，判断当前待识别视频帧中是否包含人体图像，如果包含人体图像，该当前待识别视频帧可能存在违规行为，则可以继续根据人体图像判断当前待识别视频帧中是否存在违规行为。如果不包含人体图像，则当前待识别视频帧不可能存在违规行为，因此，不需要进行后续的处理，可以获取下一帧待识别视频帧，并对下一帧待识别视频帧进行图像识别。

可以采用现有的通用物体检测模型对当前待视频帧进行图像识别，获得图像识别结果，该图像识别结果中可以包括：多个矩形框的位置区域，以及各个矩形框的分类。矩形框的位置区域可以通该矩形框的中心点的坐标位置，以及该矩形框的长度和宽度表示。矩形框的分类可以为：人体，物体等，根据所获得的图像识别结果中的分类即可知晓当前待识别视频帧中是否包含人体图像。

S503，若当前待识别视频帧中包含人体图像，则获得该人体图像的位置区域。

若当前待识别视频帧中包含人体图像，则可以从图像识别结果中获取人体图像的位置区域，该人体图像的位置区域为，分类为人体的矩形框的位置区域。在获得人体图像的位置区域之后，可以将其中一些位置区域面积超过预设的预设面积范围阈值、位置区域的长度尺寸超过预设的长度范围阈值、位置区域的宽度尺寸超过预设的宽度范围阈值、或者位置区域距离当前待识别视频帧中的边缘小于预设距离阈值的位置区域删除，这些位置区域不利于对违规行为的识别。

S504，对人体图像的位置区域进行扩展处理，得到经扩展后的位置区域。

在得到人体图像的位置区域后，由于违规行为可以包括操作人员抛扔包裹，或者脚踢包裹，因此在做出违规行为的过程中，可能出现人体的肢体部分超出人体图像的位置区域的情况。为了能够更全面地获取人体各部位的位置区域，可以将所得到的人体图像的位置区域进行扩展处理，例如，可以将该人体图像的位置区域以其中心为基准，长度尺寸和宽度尺寸均增大20％，得到扩展后的位置区域。

S505，针对位于当前待识别视频帧之后预设时长的多个视频帧，从该视频帧中提取与经扩展后的位置区域相同的位置区域的图像，得到当前待识别视频片段。

针对位于当前待识别视频帧之后，预设时长内的多个视频帧中的每一个视频帧，可以从该视频帧中提取与经扩展后的位置区域相同的位置区域的图像，即，获取经扩展后的位置区域的中心点的坐标位置，以及长度尺寸和宽度尺寸，并将经扩展后的位置区域的中心点坐标位置，长度尺寸和宽度尺寸，分别作为要提取的图像的中心点坐标位置，长度尺寸和宽度尺寸，接着可以使用OpenCV等图像处理工具从多个视频帧中提取图像，得到当前待识别视频片段。

由于操作人员在分拣包裹时，通常位置不变，因此，所提取的多个视频帧中的图像中包含与当前待识别视频帧相同的人体。此外，由于在分拣中心，可能有多个操作人员同时在分拣包裹，如果需要识别违规行为的当前待识别视频片段中包含多个人体图像时，不同的人体图像对别的人体图像的违规行为可能造成干扰，因此，本发明实施例得到的当前待识别视频片段中可以只包含一个人体图像，进而能够提高对违规行为识别的准确性。

作为本发明一种可选的实施方式，在图1a所示实施例步骤S101之前，本发明实施例提供的基于视频的行为识别方法还可以包括：

第一步，检测历史监控视频中预设间隔时长的两个视频帧之间的视频场景变化量。可以采用预设的运动检测方法，对两个视频帧进行运动检测，获得视频帧中的运动区域。可以统计运动区域中像素点个数，以及统计视频帧中所有像素点个数，并计算运动区域像素点个数，与所有像素点个数之间的比值，作为两个视频帧的视频场景变化量。

第二步，判断视频场景变化量是否大于预设场景变化阈值。

由于人体在做出抛扔包裹或者脚踢包裹的违规动作时，预设间隔时长的两个视频帧之间的视频场景有变化，如果人体站立不动时，则预设间隔时长的两个视频帧之间的视频场景可能没有变化，因此，可以预先设置一个场景变化阈值，判断视频场景变化量是否大于该场景变化阈值，如果是，则表明两个视频帧的变化量较小，可能操作人员静止不动，此时则可以不进行违规行为的识别。如果否，则表明可能存在操作人员的违规行为的情况，则可以对当前待识别视频进行识别。

如果是，则执行获取当前待识别视频片段的步骤。如果是，表明可以对当前待识别视频进行违规行为的识别，即，执行图1a所示实施例流程步骤S101。如果否，则不执行图1a所示实施例流程步骤S101，执行本实施例中的步骤S601。本发明实施例中，通过先计算两个视频帧之间的视频场景变化量，并在视频场景变化量大于预设场景变化阈值的情况下，获取当前待识别视频片段以及对其进行违规行为的识别，因此，能够节省计算资源。

作为本发明实施例一种可选的实施方式，如图6所示，动作分类模型采用如下步骤进行训练：

S601，确定初始动作分类模型的初始网络参数。

可以使用迁移学习预置初始网络参数，以减少训练成本，其具体过程可以为将初始动作分类模型的初始网络参数，设置为经训练后的其他视频识别中的动作分类模型的网络参数。可以随机初始化其初始网络参数。

S602，获取多个样本监控视频片段。

多个样本监控视频片段的视频时长可以相同，也可以不同，在本发明实施例中，可以选择预设的时长范围，多个样本监控视频片段的时长在该时长范围内即可。例如，该时长范围可以为1.5-5s之间。

S603，分别为不存在违规行为的样本监控视频片段、存在不同违规行为的样本监控视频片段设置不同的动作类型标签。

针对多个样本监控视频片段，可以通过人工标定的方法，分别为不存在违规行为的样本监控视频片段，存在不同违规行为的样本监控视频片段设置不同的动作类型标签。该动作类型标签可以为数值标签，例如，不存在违规行为的样本监控视频标签的动作类型标签可以为0，抛扔行为的动作类型标签可以为1，脚踢行为的动作类型标签可以为2，等等。

S604，对样本监控视频片段进行裁剪处理，得到经裁剪后的样本监控视频片段。

可以采用人工标定的方法获得该样本监控视频片段中动作的开始时间点和结束时间点，并将开始时间点之前，以及结束时间点之后的视频帧裁剪，得到子样本监控视频片段，经裁剪后的样本监控视频片段中仅包含一种类型人体动作。

S605，分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果。

可以分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果。

S606，基于样本动作分类结果、动作类型标签和预设的动作损失函数，计算样本动作分类结果与动作类型标签之间的第一动作损失函数值。

可以利用现有的损失函数计算公式，样本动作分类结果以及动作类型标签，计算得到第一动作损失函数值，例如，其中动作损失函数可以为交叉熵损失函数、或者均方差损失函数等。

S607，基于第一动作损失函数值以及迭代次数，判断初始动作分类模型是否收敛，如果是，则执行步骤S608；如果否，则执行步骤S609。S608，动作分类模型训练完成。S609，调整动作分类模型的初始网络参数，返回分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中的步骤。

可以预先设置损失函数阈值，在得到第一动作损失函数值之后，可以判断第一动作损失函数值是否小于损失函数阈值，还可以预先设置迭代次数阈值，在初始动作分类模型训练的过程中，判断迭代次数是否达到迭代次数阈值。当第一动作损失函数值小于损失函数阈值，且迭代次数等于迭代次数阈值，表明动作分类模型收敛，则动作分类模型训练完成。如果迭代次数小于迭代次数阈值，或者迭代次数大于或等于迭代次数阈值但第一动作损失函数值大于或等于损失函数阈值，则表明初始动作分类模型未收敛，则可以调整其初始网络参数，并进行下一次迭代计算，即，返回分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中的步骤。

此外，造成初始动作分类模型未收敛的原因还可能是样本数据里的噪声比较多，即样本监控视频片段中不包含人体动作的视频帧比较多，因此，在调整初始网络参数的基础上，还可以调整样本监控视频片段，例如，对样本监控视频片段进行样本增广、或者清洗数据等处理。

作为本发明一种可选的实施方式，如图7所示，动作定位模型采用如下步骤进行训练：

S701，确定初始动作定位模型的初始网络参数。

可以使用迁移学习预置初始网络参数，或者也可以随机初始化其初始网络参数。

S702，获取多个样本监控视频片段。S703，分别为不存在违规行为的样本监控视频片段、存在不同违规行为的样本监控视频片段设置不同的动作类型标签。

步骤S702和步骤S703分别可以参照图6所示实施例中步骤S602和步骤S603，本发明实施例在此不再赘述。

S704，为样本监控视频片段设置动作的开始时间点标签、结束时间点标签以及动作占比标签。

在本发明实施例中，动作占比标签为样本监控视频片段中，人体的动作时长与样本监控视频片段的总时长之间的比值，可以通过人工标定的方法，获得个样本监控视频片段的开始时间点标签，结束时间点标签。其中开始时间点标签可以为该样本监控视频片段中人体动作开始的时间点，结束时间点标签可以为该样本监控视频片段中人体动作结束的时间点。可以计算结束时间点和开始时间点之间的差值，并将该差值与样本监控视频片段之间的比值作为动作占比标签。

S705，将样本监控视频片段输入初始动作定位模型中，基于其初始网络参数，获得至少一个样本动作定位结果。S706，对样本动作定位结果进行NMS处理，得到样本监控视频片段中动作的样本目标开始时间点，以及动作的样本目标结束时间点。S707，将样本监控视频片段中，位于样本目标开始时间点之前，以及位于样本目标结束时间点之后的视频帧进行裁剪，得到样本经裁剪后的视频片段。S708，将样本监控视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果。S709，基于样本动作分类结果，动作占比标签以及预设的重叠度损失函数，计算样本动作分类结果与动作占比标签之间的重叠度损失函数值。

可以基于样本动作分类结果，动作占比标签以及重叠度损失函数，计算样本动作分类结果与动作占比标签之间的重叠度损失函数值，其中重叠度损失函数的计算公式可以为：

式中，Loverlap表示重叠度损失函数值，N表示在每次迭代计算过程中一批次样本监控视频片段的总数量，P_n(kn)表示第n个样本监控视频片段对应的样本动作分类结果，v_n表示样本监控视频标签的动作占比标签，α表示预设参数，可以将该预设参数设置为0.5。当样本监控视频标签中存在违规行为时，[kn>0]等于1，否则[kn>0]等于0。从式中可以看出，当动作占比标签越大，则重叠度损失函数值越小。

S710，基于样本动作分类结果、动作类型标签和动作损失函数，计算样本动作分类结果与动作类型标签之间的第二动作损失函数值。

可以利用现有的损失函数计算公式，样本动作分类结果以及动作类型标签，计算得到第二动作损失函数值，例如，其中动作损失函数可以为交叉熵损失函数、或者均方差损失函数等。

S711，计算重叠度损失函数值与第二动作损失函数值之和，作为总损失函数值。S712，基于总损失函数值以及迭代次数判断动作定位模型是否收敛，如果是，则执行S713，否则，执行S714。S713，动作定位模型训练完成。S714，调整动作定位模型的初始网络参数，返回将样本监控视频片段输入初始动作分类模型中的步骤。

可以预先设置损失函数阈值，在得到总损失函数值之后，可以判断总损失函数值是否小于损失函数阈值，还可以预先设置迭代次数阈值，在初始动作定位模型训练的过程中，判断迭代次数是否达到迭代次数阈值。当总损失函数值小于损失函数阈值，且迭代次数等于迭代次数阈值，表明动作定位模型收敛，则动作定位模型训练完成。如果迭代次数小于迭代次数阈值，或者迭代次数大于或等于迭代次数阈值但总损失函数值大于或等于损失函数阈值，则表明初始动作定位模型未收敛，则可以调整其初始网络参数，并进行下一次迭代计算，即，返回将样本监控视频片段输入初始动作分类模型中的步骤。

作为本发明一种可选的实施方式，如图8所示，动作识别模型采用如下步骤进行训练：

S801，确定初始动作识别模型的初始网络参数。

S802，获取多个样本监控视频片段。S803，分别为包含人体动作的样本监控视频片段和不包含人体动作的样本监控视频片段设置不同的动作标签。

可以为包含人体动作的样本监控视频片段和不包含人体动作的样本监控视频片段设置不同的动作标签，该动作标签同样可以用0和1表示，其中0可以表示样本监控视频片段中包含人体动作，1可以表示样本监控视频片段中不包含人体动作。

S804，将样本监控视频片段输入初始动作确定模型中，基于其初始网络参数，获得样本识别结果。S805，基于样本识别结果、动作标签以及动作损失函数，计算样本动作识别结果与动作标签之间的第三动作损失函数值。

可以利用现有的损失函数计算公式，样本识别结果以及动作标签，计算得到第三动作损失函数值，例如，其中动作损失函数可以为交叉熵损失函数、或者均方差损失函数等。

S806，基于第三动作损失函数值以及迭代次数，判断初始动作识别模型是否收敛，如果收敛，则执行S807，否则，执行S808。S807，动作识别模型训练完成。S808，调整动作识别模型的初始网络参数，返回将样本监控视频片段输入初始动作识别模型中的步骤。

可以预先设置损失函数阈值，在得到第三动作损失函数值之后，可以判断第三动作损失函数值是否小于损失函数阈值，还可以预先设置迭代次数阈值，在初始动作识别模型训练的过程中，判断迭代次数是否达到迭代次数阈值。当第三动作损失函数值小于损失函数阈值，且迭代次数等于迭代次数阈值，表明动作识别模型收敛，则动作识别模型训练完成。如果迭代次数小于迭代次数阈值，或者迭代次数大于或等于迭代次数阈值但第三动作损失函数值大于或等于损失函数阈值，则表明初始动作识别模型未收敛，则可以调整其初始网络参数，并进行下一次迭代计算，即，返回将样本监控视频片段输入初始动作识别模型中。

本发明实施例提供了一种基于视频的行为识别装置的一种具体实施例，与图1a所示流程相对应，参考图9，图9为本发明实施例的一种基于视频的行为识别装置的一种结构示意图，可以包括：

视频片段获取模块901，用于获取当前待识别视频片段；当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段；动作分类模块902，用于将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型；动作分类模型，是基于预设时长的样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个样本监控视频片段的动作类型标签进行训练获得的。

本发明实施例提供的基于视频的行为识别装置，经裁剪后的视频片段中仅包含一种类型的人体动作，因此，使得训练后的动作分类结果在对目标视频片段进行识别的过程中，能够综合考虑目标视频片段中的包含动作的视频帧以及不包含动作的视频帧，降低当前待识别视频片段中不包含动作的视频帧对动作分类结果的影响，进而能够提高动作分类模型对违规行为的识别准确性。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：动作定位模块，用于将当前待识别视频片段输入预先训练好的动作定位模型中，得到至少一个动作定位结果；动作定位结果中包括：当前待识别视频片段中动作的开始时间点，以及动作的结束时间点，动作定位模型，是基于预设时长的样本监控视频片段，样本监控视频片段的动作占比标签进行训练得到的；非极大值抑制处理模块，用于对至少一个动作定位结果进行NMS处理，得到当前待识别视频片段中动作的目标开始时间点，以及动作的目标结束时间点；待识别视频片段裁剪模块，用于将当前待识别视频片段中位于目标开始时间点之前，以及位于目标结束时间点之后的视频帧进行裁剪处理，得到经裁剪后的视频片段。

作为本发明实施例一种可选的实施方式，上述动作分类模块1002，具体用于：将经裁剪后的视频片段输入动作分类模型中，对经裁剪后的视频片段进行动作分类，获得动作分类结果。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：

动作识别模块，用于将当前待识别视频片段输入预先训练好的动作识别模型中，得到动作识别模型输出的当前待识别视频片段中是否包含人体动作的识别结果；动作识别模型，是基于预设时长的样本监控视频片段，以及各个样本监控视频片段中是否包含人体动作的动作标签进行训练获得的；

触发模块，用于如果当前待识别视频片段中包含人体动作，则触发动作分类模块执行将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤。

作为本发明实施例一种可选的实施方式，上述视频片段获取模块，可以包括：待识别视频帧获取子模块，用于获取当前待识别视频帧；人体图像判断子模块，用于判断当前待识别视频帧中是否包含人体图像；位置区域获取模块，用于若当前待识别视频帧中包含人体图像，则获得该人体图像的位置区域；位置区域扩展模块，用于对人体图像的位置区域进行扩展处理，得到经扩展后的位置区域；图像提取模块，用于针对位于当前待识别视频帧之后预设时长的多个视频帧，从该视频帧中提取与经扩展后的位置区域相同的位置区域的图像，得到当前待识别视频片段。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：视频场景变化量检测模块，用于检测历史监控视频中预设间隔时长的两个视频帧之间的视频场景变化量；场景变化量判断模块，用于判断视频场景变化量是否大于预设场景变化阈值；触发模块，用于如果是，则触发视频片段获取模块执行获取当前待识别视频片段的步骤。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：第一初始网络参数确定模块，用于确定初始动作分类模型的初始网络参数；第一监控视频片段获取模块，用于获取多个样本监控视频片段；第一动作类型标签设置模块，用于分别为不存在违规行为的样本监控视频片段、存在不同违规行为的样本监控视频片段设置不同的动作类型标签；第一样本监控视频片段裁剪模块，用于裁剪对样本监控视频片段进行裁剪处理，得到经裁剪后的样本监控视频片段，经裁剪后的样本监控视频片段中仅包含一种类型人体动作；第一样本动作分类模块，用于分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果；第一动作损失函数值计算模块，用于基于样本动作分类结果、动作类型标签和预设的动作损失函数，计算样本动作分类结果与动作类型标签之间的第一动作损失函数值；动作分类模型网络参数调整模块，用于基于第一动作损失函数值以及迭代次数，判断初始动作分类模型是否收敛，如果收敛，则动作分类模型训练完成；否则，调整动作分类模型的初始网络参数，返回分别将样本监控视频片段和样本经裁剪后的视频片段输入初始动作分类模型中的步骤。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：第二初始网络参数确定模块，用于确定初始动作定位模型的初始网络参数；第二监控视频片段获取模块，用于获取多个样本监控视频片段；第二动作类型标签设置模块，用于分别为不存在违规行为的样本监控视频片段、存在不同违规行为的样本监控视频片段设置不同的动作类型标签；动作占比标签设置模块，用于为样本监控视频片段设置动作的开始时间点标签、结束时间点标签以及动作占比标签，动作占比标签为样本监控视频片段中，人体的动作时长与样本监控视频片段的总时长之间的比值；样本动作定位结果获得模块，用于将样本监控视频片段输入初始动作定位模型中，基于其初始网络参数，获得至少一个样本动作定位结果；样本NMS处理模块，用于对样本动作定位结果进行NMS处理，得到样本监控视频片段中动作的样本目标开始时间点，以及动作的样本目标结束时间点；第二样本监控视频片段裁剪模块，用于将样本监控视频片段中，位于样本目标开始时间点之前，以及位于样本目标结束时间点之后的视频帧进行裁剪，得到样本经裁剪后的视频片段；第二样本动作分类模块，用于将样本监控视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果；重叠度损失函数计算模块，用于基于样本动作分类结果，动作占比标签以及预设的重叠度损失函数，计算样本动作分类结果与动作占比标签之间的重叠度损失函数值；第二动作损失函数值计算模块，用于基于样本动作分类结果、动作类型标签和动作损失函数，计算样本动作分类结果与动作类型标签之间的第二动作损失函数值；总损失函数值计算模块，用于计算重叠度损失函数值与第二动作损失函数值之和，作为总损失函数值；动作分类模型网络参数调整模块，用于基于总损失函数值以及迭代次数判断动作定位模型是否收敛，如果是，则动作定位模型训练完成；否则，调整动作定位模型的初始网络参数，返回将样本监控视频片段输入初始动作分类模型中的步骤。

作为本发明实施例一种可选的实施方式，本发明实施例提供的基于视频的行为识别装置还可以包括：第三初始网络参数确定模块，用于确定初始动作识别模型的初始网络参数；第三监控视频片段获取模块，用于获取多个样本监控视频片段；动作标签设置模块，用于分别为包含人体动作的样本监控视频片段和不包含人体动作的样本监控视频片段设置不同的动作标签；样本识别模块，用于将样本监控视频片段输入初始动作确定模型中，基于其初始网络参数，获得样本识别结果；第三动作损失函数值计算模块，用于基于样本识别结果、动作标签以及动作损失函数，计算样本动作识别结果与动作标签之间的第三动作损失函数值；动作识别模型网络参数调整模块，用于基于第三动作损失函数值以及迭代次数，判断初始动作识别模型是否收敛，如果收敛，则动作识别模型训练完成；否则，调整动作识别模型的初始网络参数，返回将样本监控视频片段输入初始动作识别模型中的步骤。

如图10所示，本发明实施例还提供了一种基于视频的违规行为监控系统，包括：视频采集设备1001和监控主机1002。视频采集设备1001，安装在目标监控场景中，用于对目标监控场景拍摄监控视频。例如，该视频采集设备1001可以为安装在转运中心中的摄像机，该摄像机可以根据拍摄的需求调整角度，即，拍摄目标监控场景在不同视角下的监控视频。

监控主机1002，与视频采集设备1001通信连接，且可以从视频采集设备1001中获取当前监控视频，用于执行如下步骤：

获取当前待识别视频片段；当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段。

将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型；动作分类模型，是基于预设时长的样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个样本监控视频片段的动作类型标签进行训练获得的。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，存储器1103，用于存放计算机程序；处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

获取当前待识别视频片段；当前待识别视频片段为：当前时刻前预设时长内，对目标监控场景拍摄的包含人体图像的监控视频片段。将当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型；动作类型包括：正常动作类型和至少一种违规行为类型；动作分类模型，是基于预设时长的样本监控视频片段，从预设时长的样本监控视频片段中裁剪出的仅包含一种类型人体动作的子样本监控视频片段，以及各个样本监控视频片段的动作类型标签进行训练获得的。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的基于视频的行为识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于视频的行为识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于视频的行为识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤之前，所述方法还包括：

将所述当前待识别视频片段输入预先训练好的动作定位模型中，得到至少一个动作定位结果；所述动作定位结果中包括：所述当前待识别视频片段中动作的开始时间点，以及动作的结束时间点，所述动作定位模型，是基于所述预设时长的样本监控视频片段，所述样本监控视频片段的动作占比标签进行训练得到的；

对至少一个所述动作定位结果进行非极大值抑制NMS处理，得到所述当前待识别视频片段中动作的目标开始时间点，以及动作的目标结束时间点；

将所述当前待识别视频片段中位于所述目标开始时间点之前，以及位于所述目标结束时间点之后的视频帧进行裁剪处理，得到经裁剪后的视频片段；

所述将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤，包括：

将所述经裁剪后的视频片段输入所述动作分类模型中，对所述经裁剪后的视频片段进行动作分类，获得动作分类结果。

3.根据权利要求1或2所述的方法，其特征在于，所述将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤之前，所述方法还包括：

将所述当前待识别视频片段输入预先训练好的动作识别模型中，得到动作识别模型输出的所述当前待识别视频片段中是否包含人体动作的识别结果；所述动作识别模型，是基于所述预设时长的样本监控视频片段，以及各个样本监控视频片段中是否包含人体动作的动作标签进行训练获得的；

如果所述当前待识别视频片段中包含人体动作，则执行所述将所述当前待识别视频片段输入预先训练好的动作分类模型中，得到动作分类模型输出的动作类型的步骤。

4.根据权利要求1所述的方法，其特征在于，所述动作分类模型采用如下步骤进行训练：

确定初始动作分类模型的初始网络参数；

获取多个样本监控视频片段；

分别为不存在违规行为的样本监控视频片段、存在不同违规行为的样本监控视频片段设置不同的动作类型标签；

对所述样本监控视频片段进行裁剪处理，得到经裁剪后的样本监控视频片段，所述经裁剪后的样本监控视频片段中仅包含一种类型人体动作；

分别将所述样本监控视频片段和所述样本经裁剪后的视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果；

基于样本动作分类结果、所述动作类型标签和预设的动作损失函数，计算样本动作分类结果与所述动作类型标签之间的第一动作损失函数值；

基于所述第一动作损失函数值以及迭代次数，判断所述初始动作分类模型是否收敛，如果收敛，则所述动作分类模型训练完成；否则，调整所述动作分类模型的初始网络参数，返回所述分别将所述样本监控视频片段和所述样本经裁剪后的视频片段输入初始动作分类模型中的步骤。

5.根据权利要求2所述的方法，其特征在于，所述动作定位模型采用如下步骤进行训练：

确定初始动作定位模型的初始网络参数；

获取多个样本监控视频片段；

为所述样本监控视频片段设置动作的开始时间点标签、结束时间点标签以及动作占比标签，所述动作占比标签为所述样本监控视频片段中，人体的动作时长与所述样本监控视频片段的总时长之间的比值；

将所述样本监控视频片段输入所述初始动作定位模型中，基于其初始网络参数，获得至少一个样本动作定位结果；

对所述样本动作定位结果进行NMS处理，得到所述样本监控视频片段中动作的样本目标开始时间点，以及动作的样本目标结束时间点；

将所述样本监控视频片段中，位于所述样本目标开始时间点之前，以及位于所述样本目标结束时间点之后的视频帧进行裁剪，得到样本经裁剪后的视频片段；

将所述样本监控视频片段输入初始动作分类模型中，基于其初始网络参数，获得样本动作分类结果；

基于所述样本动作分类结果，所述动作占比标签以及预设的重叠度损失函数，计算所述样本动作分类结果与所述动作占比标签之间的重叠度损失函数值；

基于所述样本动作分类结果、所述动作类型标签和所述动作损失函数，计算样本动作分类结果与所述动作类型标签之间的第二动作损失函数值；

计算所述重叠度损失函数值与所述第二动作损失函数值之和，作为总损失函数值；

基于总损失函数值以及迭代次数判断所述动作定位模型是否收敛，如果是，则所述动作定位模型训练完成；否则，调整所述动作定位模型的初始网络参数，返回所述将所述样本监控视频片段输入初始动作分类模型中的步骤。

6.根据权利要求3所述的方法，其特征在于，所述动作识别模型采用如下步骤进行训练：

确定初始动作识别模型的初始网络参数；

获取多个样本监控视频片段；

分别为包含人体动作的样本监控视频片段和不包含人体动作的样本监控视频片段设置不同的动作标签；

将所述样本监控视频片段输入所述初始动作确定模型中，基于其初始网络参数，获得样本识别结果；

基于所述样本识别结果、所述动作标签以及所述动作损失函数，计算所述样本动作识别结果与所述动作标签之间的第三动作损失函数值；

基于第三动作损失函数值以及迭代次数，判断所述初始动作识别模型是否收敛，如果收敛，则所述动作识别模型训练完成；否则，调整所述动作识别模型的初始网络参数，返回所述将所述样本监控视频片段输入初始动作识别模型中的步骤。

7.一种基于视频的行为识别装置，其特征在于，所述装置包括：

8.一种基于视频的行为识别系统，其特征在于，包括：视频采集设备和监控主机；

所述监控主机，与所述视频采集设备通信连接，用于实现权利要求1-6任一所述的方法步骤。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。