CN112580523A

CN112580523A - 行为识别方法、装置、设备及存储介质

Info

Publication number: CN112580523A
Application number: CN202011531975.9A
Authority: CN
Inventors: 赵勇
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-30

Abstract

本发明涉及人工智能的行为识别技术领域，公开了一种行为识别方法、装置、设备及存储介质，用于结合时序信息的同时也提高了行为识别准确率。所述方法包括：将待识别视频图片按预设帧数间隔划分为对应的若干区段、将得到的所有时空序列图片合并为待识别视频图片，根据预设的第一神经网络对待识别视频图片进行空间特征提取，根据预设的第二神经网络对光流图进行时序特征提取，得到所述待识别视频图片的时序特征，将待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像，输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。

Description

行为识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的行为识别技术领域，尤其涉及一种行为识别方法、装置、设备及存储介质。

背景技术

目前，利用人工智能技术对社区、园区、养老院的监控视频进行自动检测，可以对老人特定行为比如吃饭、跌倒等进行监控，获取老人身体状况等数据。行为识别属于视频理解的范畴，目前的算法大部分基于姿态估计，根据提取的关键点再训练分类器，这种方法强烈依赖于人体关键点的识别准确度，发明人意识到很多主体行为发生时，需要经过完整的一段过程，即需要完整的时序信息才能做出判断，如果把所有数据都经过计算，则计算量非常大，若不采用时序信息，则可能导致行为识别准确率低。

发明内容

本发明的主要目的在于解决现有人工智能技术对监控视频检测行为主体的特定行为时，存在加入时序信息后计算量过大、而不加入时序信息计算则存在行为识别准确率低的问题，本发明提供的行为识别方法、装置、设备及存储介质，在结合时序信息计算的同时也能提高行为识别准确率。

为实现上述目的，本发明第一方面提供了一种行为识别方法，包括：

将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；

将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；

将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；

将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；

将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。

可选的，在本发明第一方面的另一种实现方式中，在所述将待识别视频图片按预设帧数间隔划分为对应的若干区段之前，所述方法还包括：

从视频监控端获取目标视频流数据，并通过循环读取的方式对所述目标视频流数据进行解码抽帧处理，得到对应的多帧视频图片作为待识别视频图片。

可选的，在本发明第一方面的另一种实现方式中，在所述从视频监控端获取目标视频流数据，并通过循环读取的方式对所述目标视频流数据进行解码，得到对应的多帧视频图片作为待识别视频图片之前，所述方法还包括：预先对所述行为识别分类模型进行训练；

所述预先对所述行为识别分类模型进行训练具体包括：

获取目标数量主体行为的视频数据集，所述主体行为的视频数据集中包括主体的各个行为类别的视频数据、且每个行为类别的视频数据具有相同的时长及清晰度，所述视频数据集包括视频部分与标签部分，所述标签部分用于标定视频中主体行为的行为类别；

将所述视频数据集划分为模型训练集与模型验证集；

根据预设的目标检测器对所述模型训练集与模型验证集中进行目标检测选取，得到行为主体，对选取的行为主体进行图像增强处理；

将处理后的模型训练集输入行为识别分类模型，设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。

可选的，在本发明第一方面的另一种实现方式中，在将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率之后，还包括：

通过预设的编码规则将所述待识别的目标视频图像对应存在行为主体的行为类别、以及所述行为类别对应的概率转化为结构化数据；

将所述结构化数据返回给视频监控端。

可选的，在本发明第一方面的另一种实现方式中，所述对选取的行为主体进行图像增强处理包括：

截取行为主体子图片，并对所述行为主体子图片进行图像预处理，所述图像预处理包括将图像缩放至固定尺寸、图像去均值与归一化处理，得到经图像增强处理的模型训练集与模型验证集。

本发明第二方面提供了一种行为识别装置，包括：

区段划分与图片获取模块，用于将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；

空间特征提取模块，用于将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；

时序特征提取模块，用于将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；

特征融合模块，用于将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；

行为类别输出模块，用于将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。

可选的，在本发明第二方面的另一种实现方式中，所述装置还包括：

视频流解码抽帧模块，用于从视频监控端获取目标视频流数据，并通过循环读取的方式对所述目标视频流数据进行解码抽帧处理，得到对应的多帧视频图片作为待识别视频图片。

模型训练模块，用于预先对所述行为识别分类模型进行训练；

所述模型训练模块具体包括：

视频数据集获取模块，用于获取目标数量主体行为的视频数据集，所述主体行为的视频数据集中包括主体的各个行为类别的视频数据、且每个行为类别的视频数据具有相同的时长及清晰度，所述视频数据集包括视频部分与标签部分，所述标签部分用于标定视频中主体行为的行为类别；

数据集划分模块，用于将所述视频数据集划分为模型训练集与模型验证集；

主体选取与图像增强模块，用于根据预设的目标检测器对所述模型训练集与模型验证集中进行目标检测选取，得到行为主体，对选取的行为主体进行图像增强处理；

模型训练与收敛模块，用于将处理后的模型训练集输入行为识别分类模型，设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。

结构化数据转化模块，用于通过预设的编码规则将所述待识别的目标视频图像对应存在行为主体的行为类别、以及所述行为类别对应的概率转化为结构化数据；

数据返回模块，用于将所述结构化数据返回给视频监控端。

可选的，在本发明第二方面的另一种实现方式中，所述主体选取与图像增强模块还包括：

截取与图像预处理单元，用于截取行为主体子图片，并对所述行为主体子图片进行图像预处理，所述图像预处理包括将图像缩放至固定尺寸、图像去均值与归一化处理，得到经图像增强处理的模型训练集与模型验证集。

本发明第三方面提供了一种行为识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述行为识别设备执行上述第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明提供的技术方案中，将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。本发明实施例通过对视频监控端获取的视频数据进行采样和分段，对时空信息和时序信息进行融合，并输入经训练的神经网络模型，减少人为设计特征，来提高行为识别准确率，实现了在结合时序信息计算的同时也能提高行为识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例中行为识别方法的一个实施例过程示意图；

图2为本发明实施例中行为识别装置的一个实施例示意图；

图3为本发明实施例中行为识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种行为识别方法、装置、设备及存储介质，用于降低软件本地部署的成本。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在现有技术中，利用人工智能技术对社区、园区、养老院的监控视频进行自动检测，可以对老人特定行为比如吃饭、跌倒等进行监控，获取老人身体状况等数据。行为识别属于视频理解的范畴，目前的算法大部分基于姿态估计，根据提取的关键点再训练分类器，这种方法强烈依赖于人体关键点的识别准确度，但很多行为发生时，需要经过完整的一段过程，即需要完整的时序信息才能做出判断，如果把所有数据都经过计算，则计算量非常大，若不采用时序信息，则可能导致行为识别准确率低。

本发明提供的行为识别方法能解决现有人工智能技术对监控视频检测行为主体的特定行为时，存在加入时序信息后计算量过大、而不加入时序信息计算则存在行为识别准确率低的问题，实现在结合时序信息计算的同时也能提高行为识别准确率。通过对视频监控端获取的视频数据进行采样和分段，对时空信息和时序信息进行融合，并输入经训练的神经网络模型，减少人为设计特征，来提高行为识别准确率，实现了在结合时序信息计算的同时也能提高行为识别准确率。以下分别进行详细的说明。

参阅图1，本发明实施例中行为识别方法的一个实施例包括：

步骤101、将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；

步骤102、将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；

步骤103、将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；

步骤104、将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；

步骤105、将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。

具体的，本发明将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片。待识别视频图片是从视频数据中抽取出来的每帧图像，若预设帧数间隔为5帧，则按每间隔5帧将待识别视频图片划分为一个区段，如果一个目标待识别视频有100帧图片，则分为20个区段；进一步地，由于原始视频是由数量极多的一帧帧图片组成，因此本发明只需随机择取在每个区段中一个带有时空序列特征的图片、代表带有时间特征的图片即可，并将得到的所有时空序列图片合并为待识别视频图片。本发明通过视频分段择取图片可大大减少采集的图片数量，而不需要对原始视频中的每一帧图片都进行计算，可以减少服务器的运算压力，提高行为识别的效率。

进一步地，在所述将待识别视频图片按预设帧数间隔划分为对应的若干区段之前，所述方法还包括：

本发明通过解析视频监控端的rstp视频流，通过循环读取的方式转化为一帧帧的视频图像，具体实施时，对视频流进行抽帧解析可以采用ffmpeg快速解码抽帧、或matlab读取视频流并抽帧、或使用opencv对视频流进行抽帧，具体不作赘述。

进一步地，在步骤102中，将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征。在步骤103中，将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征。

具体地，所述第一神经网络、第二神经网络可以采用卷积视神经网络、前馈神经网络、双向循环神经网络、双向长短期记忆网络等等，在此不作限定。本发明的第一神经网络用于针对图片中主体的移动进行空间位移信息识别及提取，也即经过预先训练得到能够针对图片中的主体移动进行空间位移信息识别、提取的网络模型，具体的模型训练为现有技术、具体不作赘述。本发明的第二神经网络用于针对图片中主体的移动进行时间信息识别及提取，也即经过预先训练得到能够针对图片中主体的移动进行时间信息识别、提取的网络模型，具体的模型训练为现有技术、具体不作赘述。

本发明通过第一神经网络对所述待识别视频图片进行空间特征提取，得到对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征。其中，具备运动相关关系的光流图，是由于场景中目标主体的移动所产生的，如果图像中有运动物体，通过运动物体的光流图可以检测出运动主体及位置，本发明通过第二神经网络对待识别视频图片进行时间信息识别及提取，可以获取每个主体动作发生的时间、以及每个动作的持续时间等信息，因此可以检测出运动主体的时间信息。本发明具体实施时，行为类别可以为主体的吃、喝或抽烟等行为动作，因此通过行为识别能识别出监控视频中主体的行为动作。

进一步地，在步骤104中，将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像，具体地本发明可采用MSCNN结构的算法，其将基于两个原始的多尺度卷积层，两个卷积层，一个池化层和两个全连接层，以将待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像。通过将待识别视频图片的空间特征与时序特征进行融合，可以得到经简化抽取、且同时具有时空特征的目标视频图像，基于主体的行为识别可针对该目标视频图像进行识别，可降低运算维度、提升运算效率。

在步骤105中，将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率，即通过预先训练好的行为识别分类模型对上一步骤中获取的目标视频图像进行行为识别，可得到模型输出的行为类别、以及各个行为类别的概率，从而实现了自动识别出待识别视频中的主体行为。

进一步地，在本发明行为识别方法的另一个实施例中，行为识别方法还包括：预先对所述行为识别分类模型进行训练。

具体地，预先对所述行为识别分类模型进行训练包括：

将所述视频数据集划分为模型训练集与模型验证集；

将处理后的模型训练集输入行为识别分类模型，设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。其中，第二预设概率值可以是第一预设概率值的预设倍数，如0.01倍、0.1倍、0.5倍等。

本实施例采用深度学习模型，通过对行为识别分类模型进行训练，从而实现通过人工智能方式对输入的视频流能直接识别得到行为主体的行为类型。此外，为提高对视频流应用此模型识别准确率，调整截取的帧数、分段数等参数，譬如，设定初始学习率为0.001，设定优化方法为SGD(随机梯度下降)，当训练达到预定的训练次数时将学习率降为初始学习率的0.1倍，可以得到训练效果比较好的行为识别分类模型。

进一步地，在本发明行为识别方法的另一个实施例中，对选取的行为主体进行图像增强处理包括：

本实施例中，经过对模型训练集及模型验证集中行为主体的截图进行图像增强处理，譬如设定图像缩放大小，可选的，设定图像缩放至600*600；可选地，还能设定随机裁剪，譬如随机裁剪至224*224，并进一步设定随机翻转方式等，通过图像增强处理提高了行为主体的图像质量，从而提高了模型训练的效果。

进一步地，在本发明行为识别方法的另一个实施例中，在步骤105之后，本发明行为识别方法还包括：

将所述结构化数据返回给视频监控端。

具体地，通过将最终得到待识别的目标视频图像对应存在行为主体的行为类别、以及所述行为类别对应的概率转化为结构化数据，返回给视频监控端，因此视频监控端可获知视频监控中行为主体的行为类别及对应概率，实现视频监控端实时且自动评估主体的行为动作。

综上可知，本发明提供的一种行为识别方法，将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。本发明实施例通过对视频监控端获取的视频数据进行采样和分段，对时空信息和时序信息进行融合，并输入经训练的神经网络模型，减少人为设计特征，来提高行为识别准确率，实现了在结合时序信息计算的同时也能提高行为识别准确率。

上面对本发明实施例中行为识别方法进行了描述，下面对本发明实施例中行为识别装置进行描述，请参阅图2，本发明实施例中行为识别装置的一个实施例包括：

区段划分与图片获取模块11，用于将待识别视频图片按预设帧数间隔划分为对应的若干区段，并在每个区段中择取一个带有时空序列特征的时空序列图片，将得到的所有所述时空序列图片合并为待识别视频图片；

空间特征提取模块12，用于将所述待识别视频图片输入预设的第一神经网络，得到与所述待识别视频图片对应具备运动相关关系的光流图、以及所述待识别视频图片的空间特征；

时序特征提取模块13，用于将所述待识别视频图片输入预设的第二神经网络，得到所述待识别视频图片的时序特征；

特征融合模块14，用于将所述待识别视频图片的空间特征与时序特征进行融合，得到待识别的目标视频图像；

行为类别输出模块15，用于将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率。

可选的，在本发明行为识别装置的另一个实施例中，所述装置还包括：

可选的，在本发明行为识别装置的另一个实施例中，所述行为识别装置还包括：

所述模型训练模块具体包括：

模型训练与收敛模块，用于将处理后的模型训练集输入行为识别分类模型，设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。其中，第二预设概率值可以是第一预设概率值的预设倍数，如0.01倍、0.1倍、0.5倍等。

数据返回模块，用于将所述结构化数据返回给视频监控端。

可选的，在本发明行为识别装置的另一个实施例中，所述主体选取与图像增强模块还包括：

需要说明的是，本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

上面图2从模块化功能实体的角度对本发明实施例中的行为识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中行为识别设备进行详细描述。

图3是本发明实施例提供的一种行为识别设备的结构示意图，该行为识别设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)301(例如，一个或一个以上处理器)和存储器309，一个或一个以上存储应用程序307或数据306的存储介质308(例如一个或一个以上海量存储设备)。其中，存储器309和存储介质308可以是短暂存储或持久存储。存储在存储介质308的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对图计算的布尔型变量存储中的一系列指令操作。更进一步地，处理器301可以设置为与存储介质308通信，在行为识别设备300上执行存储介质308中的一系列指令操作。

行为识别设备300还可以包括一个或一个以上电源302，一个或一个以上有线或无线网络接口303，一个或一个以上输入输出接口304，和/或，一个或一个以上操作系统305，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3中示出的行为识别设备结构并不构成对行为识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中，该计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行为识别方法，其特征在于，包括：

2.根据权利要求1所述的行为识别方法，其特征在于，在所述将待识别视频图片按预设帧数间隔划分为对应的若干区段之前，所述方法还包括：

3.根据权利要求2所述的行为识别方法，其特征在于，在所述从视频监控端获取目标视频流数据，并通过循环读取的方式对所述目标视频流数据进行解码抽帧处理，得到对应的多帧视频图片作为待识别视频图片之前，所述方法还包括：预先对所述行为识别分类模型进行训练；

所述预先对所述行为识别分类模型进行训练具体包括：

将所述视频数据集划分为模型训练集与模型验证集；

根据预设的目标检测器对所述模型训练集与模型验证集进行目标检测选取，得到行为主体，对选取的行为主体进行图像增强处理；

4.根据权利要求1所述的行为识别方法，其特征在于，在将所述待识别的目标视频图像输入预先训练完成的行为识别分类模型进行行为识别，得到所述行为识别分类模型输出的行为类别以及所述行为类别对应的概率之后，还包括：

将所述结构化数据返回给视频监控端。

5.根据权利要求3所述的行为识别方法，其特征在于，所述对选取的行为主体进行图像增强处理包括：

6.一种行为识别装置，其特征在于，包括：

7.根据权利要求6所述的行为识别方法，其特征在于，所述装置还包括：

所述模型训练模块具体包括：

8.根据权利要求7所述的行为识别方法，其特征在于，所述主体选取与图像增强模块还包括：

9.一种行为识别设备，其特征在于，所述行为识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述行为识别设备执行如权利要求1-5中任意一项所述的行为识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述行为识别方法的步骤。