CN111222493B

CN111222493B - 一种视频处理方法及装置

Info

Publication number: CN111222493B
Application number: CN202010066598.XA
Authority: CN
Inventors: 陈富强; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-07-28
Anticipated expiration: 2040-01-20
Also published as: CN111222493A

Abstract

本发明提供了一种视频处理方法及装置，属于计算机技术领域。本发明通过从待处理视频中获取M帧视频图像，其中M为正整数，对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，对于每个人物，根据人物在每帧视频图像中的人体姿态，提取人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域，其中N为正整数，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物。由于每个备选视频中都只包含单个人物，进而可以提高识别待处理视频中抽烟人物的准确性。

Description

一种视频处理方法及装置

技术领域

本发明属于计算机技术领域，特别是涉及一种视频处理方法及装置。

背景技术

随着禁止抽烟的规定越来越普及，对抽烟行为的捕捉也变得越来越重要，如何监测是否有人在室内抽烟，成为人们广泛关注的问题。

相关技术中，往往是在禁止抽烟的场所安装监控摄像头，通过该监控摄像头实时采集该场所中的视频，相应地，工作人员根据监控摄像头采集到的监控视频人工判断是否有人在抽烟。这种人工检测的方式，成本较大，效率较低。

发明内容

本发明提供一种视频处理方法及装置，以便解决室内抽烟检测成本大、效率低的问题。

第一方面，本发明实施例提供一种视频处理方法，所述方法包括：

从待处理视频中获取M帧视频图像；所述M为正整数；

对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态；

对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数；

将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别；

若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

第二方面，本发明实施例还提供一种视频处理装置，所述装置包括：

获取模块，用于从待处理视频中获取M帧视频图像；所述M为正整数；

第一确定模块，用于对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态；

提取模块，用于对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数；

第二确定模块，用于将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别；

第三确定模块，用于若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

第三方面，本发明实施例提供了一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的视频处理程序，所述视频处理程序被所述处理器执行时实现如第一方面所述的视频处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储视频处理程序，所述视频处理程序被处理器执行时实现如第一方面所述的视频处理方法的步骤。

综上所述，本发明实施例提供的视频处理方法，从待处理视频中获取M帧视频图像，其中M为正整数，对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，对于每个人物，根据人物在每帧视频图像中的人体姿态，提取人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域，其中N为正整数，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物。通过提取视频中的每个人物对应的备选视频，然后通过动作分类模型进行动作识别，由于每个备选视频中都只包含单个人物，因此，可以降低利用动作分类模型进行分类时的烦扰，确保利用该动作分类模型能够准确的确定出动作类别，进而可以提高识别待处理视频中抽烟人物的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频处理方法的步骤流程图；

图2-1是本发明实施例提供的另一种视频处理方法的步骤流程图；

图2-2是本发明实施例提供的识别抽烟人物的流程图；

图3是本发明实施例提供的一种视频处理装置的结构框图；

图4表示本发明实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种视频处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，从待处理视频中获取M帧视频图像；所述M为正整数。

本发明实施例可以应用于具有处理视频能力的终端，该终端可以是PC端(Personal Computer个人计算机)，也可以是手机、平板电脑等移动终端，本发明对此不作限制。

本发明实施例中，待处理视频可以是需要检测是否包含有抽烟人物的视频，该视频可以是实时监控拍摄得到的在线视频，也可以是用户上传的本地视频。获取M帧视频图像，可以是通过对待处理视频进行解码得到对应的待处理视频图像，基于待处理视频的时序，提取M帧待处理视频图像，具体的，可以是缓存M帧待处理视频图像。

示例的，当待处理视频为本地视频时，可以基于本地视频的时序，依次从本地视频中提取M帧视频图像并存储下来。当待处理视频为在线视频时，实时缓存在线视频对应的视频图像，可以是每缓存一帧就提取一帧视频图像，在提取M次之后，得到M帧视频图像；也可以是每次缓存A帧视频图像，提取M/A次，进而得到M帧视频图像，其中，A可以是不大于M的正整数，具体数值可以根据实际需求预先设置。

需要说明的是，M可以是正整数，其中，M越大，所提供的信息量就越大，进而一定程度上可以提高基于这些视频图像进行识别得到结果的准确性，但是，需要处理的数据量就越大，相应地，所需耗费的处理资源就越多。反之，M越小，需要处理的数据量就越少，相应地，需耗费的处理资源就越少，进而可以减低处理资源的消耗量，因此，M的具体值是可以是根据实际需求选取的。

具体的，可以预先以不同值作为M进行测试，以选择出在确保视频图像能够提供足够信息量的同时，还能尽可能降低所需的处理资源的值，作为M。示例的，M可以为32，相应地，可以从待处理视频中一次获取32帧视频图像。这样，以32作为M，在确保视频图像能够提供足够信息量的同时，可以尽可能降低所需的处理资源，进而可以提高处理器的运算速度，从而提高处理效率。

步骤102，对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态。

本发明实施例中，人物的人体姿态可以用于体现该人物的人体姿态，由于人体处于不同姿态时，人体关键点的位置不同，因此，确定人物的人体姿态可以是通过确定人物的人体关键点实现，以人体关键点体现人体姿态。具体的，对每帧视频图像进行人体姿态检测，可以是对每帧视频图像中出现的人物，识别该人物所包含的人体关键点。其中，视频图像中的人体关键点可以是该视频图像中包含的人体的指定位置，在视频图像中对应的像素点的位置，该人体的指定位置可以是预先设定的，能够体现人体姿势特征的位置，例如，该指定位置可以是人体的头顶、手腕、手肘、肩膀、膝盖等等。

步骤103，对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数。

本发明实施例中，人体图像区域可以是人体在视频图像中所占的区域，提取人物在每帧视频图像中对应的人体图像区域时，可以是将视频图像中包含该人物的人体关键点所形成的图像区域剪切出来，进而得到该人物在该帧视频图像中对应的人体图像区域，以此类推，对每帧视频图像都执行该操作，可以得到对应每帧视频图像中，该人物对应的人体图像区域。

需要说明的是，由于待处理视频中的人物是自由活动的，可能会走出待处理视频的画面，这会导致对于同一人物，可能不是在每帧视频图像中都出现的，所以，提取同一个人物在M帧视频图像中对应的人体图像区域，可以得到该人物的N帧人体图像区域，其中，N是不大于M的正整数。

示例的，假设M为32，在这32帧视频图像中存在2个人物，即人物A和B。对于人物A，可以基于视频图像中人物A的人体姿态，提取人物A对应的人体图像区域，进而得到只有人物A的多帧人体图像区域。假设只有30帧视频图像中包含人物A，那么通过对每张图像中的人物A进行提取，可以提取到人物A的30帧人体图像区域。同理，假设32帧视频图像中都包含人物B，那么可以提取到人物B的32帧人体图像区域。

步骤104，将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别。

本发明实施例中，该备选视频可以是将该人物在每帧视频图像中对应的人体图像区域，按照图像时序进行组合得到的，该备选视频可以显示该人物在N帧视频图像中的动作姿态。

本发明实施例中，该动作分类模型是基于正样本以及负样本训练得到的，具体的，对初始动作分类模型进行迭代训练得到的。通过不断的迭代训练，使得动作分类模型可以学习到正确预测视频中动作姿态所对应的动作类别的能力。因此，本发明实施例中，可以利用训练得到的动作分类模型对备选视频中的动作姿态进行识别，确定备选视频中动作姿态所属于的动作类别。

需要说明的是，该正样本为包含抽烟动作的视频，该负样本为包含类抽烟动作的视频，其中，类抽烟动作的是与抽烟动作的相似度大于预设相似度阈值的非抽烟动作。具体的，该正样本与负样本中可以是仅包含单个人物的视频，该正样本与负样本可以是预先从网络上下载的，也可以是预先拍摄得到的，其中，负样本中的类似抽烟动作可以是吃东西、打电话等与抽烟动作在视频中较为相似的动作，本发明实施例对此不做限定。由于负样本为类抽烟动作，正样本为真正的抽烟动作，因此，利用正样本与负样本对动作分类模型进行训练，可以使得动作分类模型能够学习到区分真正的抽烟动作和与抽烟动作相似度较高的类抽烟动作，进而可以有效避免动作分类模型将类似抽烟动作误认为抽烟动作，从而可以提高动作分类模型识别抽烟动作的准确率。

具体的，初始动作分类模型可以是卷积神经网络(Convolutional NeuralNetwork,CNN)中的视频动作分类模型，示例的，由于膨胀卷积网络(Inflated 3D ConvNet，I3D)对视频中的动作进行识别并分类的处理速度快，且识别准确率高，因此，以I3D模型作为初始动作分类模型，可以提高处理速度与识别结果的准确率。初始动作分类模型的训练过程可以包括：将正样本与负样本输入到初始动作分类模型中，初始动作分类模型对正样本与负样本进行识别，通过不断的迭代训练，提高识别抽烟动作的准确率，而负样本作为补充可以进一步提高识别抽烟动作的准确性，当初始动作分类模型的识别正确率达到预设正确率，比如97％时，模型训练完成，将达到预设正确率的初始动作分类模型作为预训练的动作分类模型。

步骤105，若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

本发明实施例中，若备选视频对应的动作类别为抽烟，则可以确定该备选视频中对应的人物做出了抽烟动作，因此，可以将备选视频中对应的人物确定为抽烟人物。

综上所述，本发明实施例提供的视频处理方法，先从待处理视频中获取M帧视频图像，其中M为正整数，再对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，对于每个人物，根据人物在每帧视频图像中的人体姿态，提取人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域，其中N为正整数，最后，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物。通过提取视频中的每个人物对应的备选视频，然后通过动作分类模型进行动作识别，由于每个备选视频中都只包含单个人物，因此，可以降低利用动作分类模型进行分类时的干扰，确保利用该动作分类模型能够准确的确定出动作类别，进而可以提高识别待处理视频中抽烟人物的准确性。

图2-1是本发明实施例提供的另一种视频处理方法的步骤流程图，如图2-1所示，该方法可以包括：

步骤201，从待处理视频中获取M帧视频图像；所述M为正整数。

具体的，本步骤的实现方式可以参照前述步骤101，本发明实施例对此不作限定。

步骤202，对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态。

本发明实施例中，按照每帧视频图像在待处理视频中的图像时序依次执行步骤2021～步骤2023的操作：

步骤2021，利用预设的人体姿态检测算法对所述视频图像进行检测，得到所述视频图像中包含的人物的人体姿态；所述人体姿态包括人体关键点。

本发明实施例中，预设的人体姿态检测算法可以是姿态估计模型(OpenPose模型)，可以通过确定人物的人体关键点来确定人体姿态。具体的，该人体姿态检测算法可以基于输入的视频图像，识别视频图像中包含的人体关键点，再根据人体关键点的有效连接对关系，对视频图像中出现的人体关键点进行划分，确定每个人体关键点所对应的人物，相应地，可以得到每个人物包含的所有人体关键点，进而可以确定每个人物的人体姿态。通过人体关键点确定人体姿态，可以提高确定人物人体姿态的准确性，避免视频图像中背景信息对检测的干扰。

需要说明的是，通过获取每个人物在不同帧视频图像中的人体关键点，可以得到关于该人物的多帧人体关键点，示例的，针对获取的32帧视频图像，可以得到每个人物在32帧视频图像中的人体关键点，由于人物可能离开画面，所以，可以得到针对每个人物的1至32帧人体关键点。其中，每帧视频图像中的人体关键点可以代表一个骨架信息，即，最终可以得到一系列骨架信息。

步骤2022，根据预设的关键点跟踪算法，对所述视频图像中人物的人体姿态进行关键点跟踪，以确定所述视频图像中人物在下一帧视频图像中的人体姿态。

本发明实施例中，预设的关键点跟踪算法可以是目标跟踪算法，可以基于上一帧视频图像中的人体关键点位置，确定下一帧视频图像中该人体关键点的位置，以实现在多帧视频图像中对该人体关键点进行跟踪确定。实际应用中，可以利用目标跟踪算法中的鉴别式追踪方法(Kernel Correlation Filter，KCF)，具体的，通过循环矩阵在目标周围区域采集正负样本，其中，目标对象为正样本，周围坏境为负样本，利用脊回归训练目标检测器，检测下一帧视频图像中的预测位置是否是目标对象，并将检测结果作为新的目标对象，继续检测，确定目标对象在多帧视频图像中的位置。

进一步地，通过预设的关键点跟踪算法，可以确定该人物的人体关键点在下一帧视频图像中的位置，进而确定该人物在下一帧视频图像中的人体姿态。通过对人物的人体关键点进行跟踪，可以将不同帧视频图像中该人物的人体关键点对应起来，得到同一人物在不同帧视频图像中的人体关键点，从而确定该人物在不同帧视频图像中的人体姿态，进而可以得到该人物在这段时间内的动作姿态，避免出现对不同人物的人体关键点识别混乱的问题，从而方便之后通过该人物的动作姿态确定对应的动作类别。

步骤2023，利用所述人体姿态检测算法对所述下一帧视频图像中的其他区域进行检测，以确定所述下一帧视频图像中包含的其他人物的人体姿态，得到所述下一帧视频图像中包含的每个人物的人体姿态；所述其他区域为所述下一帧视频图像中除已检测到的人体姿态对应的区域外的区域。

本发明实施例中，由于下一帧视频图像中可能出现新的人物，因此，可以利用人体姿态检测算法对下一帧视频图像中除已检测到的人体姿态对应的区域外的区域进行检测，以避免遗漏新出现的其他人物的人体姿态。具体的，可以利用人体姿态检测算法进行检测的方式，可以参考前述步骤2021，此处不再赘述。本发明实施例中，通过结合人体姿态检测算法以及关键点跟踪算法进行检测，可以在快速检测人体姿态的同时，确保及时确定新出现人物的人体姿态，避免因视频图像中新出现人物而产生识别错漏的问题，进而确保检测到的每个人物的人体姿态的完整性。

步骤203，确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件；所述第一预设条件是根据人体在抽烟状态下的姿态特征确定的。

具体的，本步骤可以通过下述步骤2031～步骤2032实现：

步骤2031，对于每帧所述视频图像，根据所述人物在所述视频图像中的人体姿态，确定所述人物的手部与嘴部之间的第一像素个数以及所述人物头部所占的第二像素个数。

本发明实施例中，第一像素个数可以是该人物的手部与嘴部之间的距离所占的像素个数，第二像素个数可以是该人物的头部所占的像素个数，具体的，第二像素个数可以是头部宽度所占的像素个数的均值，也可以是头部的长度所占的像素个数的最大值，本发明实施例对此不作限定。

需要说明的是，由于人物与摄像头的距离不同，导致人物在视频图像中所占的图像区域不同，进而该人物的人体关键点所占的像素个数也不相同，因此，通过将人物的头部所占像素个数作为参照物，判断该人物的手部与嘴部之间的距离，可以适应所占不同图像区域的人物，提高识别人物动作的准确率。

步骤2032，若所述第一像素个数与所述第二像素个数的比值小于预设阈值，则确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件。

本发明实施例中，第一预设条件可以为人物的手部与嘴部之间的像素个数与人物头部所占的像素个数的比值小于预设阈值，该第一预设条件具体可以是根据人体在抽烟状态下的姿态特征确定的，预设阈值可以是根据实际经验预先设定的，比如，阈值可以设置为0.5，即，当第一像素个数与第二像素个数的比值小于0.5时，可以确定该人物的人体姿态满足第一预设条件，进而可以确定该人物在视频图像中的动作为疑似抽烟动作。如果人物在至少P帧视频图像中的人体姿态均满足第一预设条件，则可以认为该人物很大可能是在抽烟。

由于获取的待处理视频中没有深度信息，使得距离摄像头近的人在视频图像中所占像素较多，距离摄像头远的人所占像素较少。因此，在判断视频图像中手和头之间的距离时，可以借助头部所占像素多少来作为参照物。通过将每帧视频图像中手部与嘴部之间的距离所占的像素个数小于头部宽度所占的像素个数，作为疑似抽烟动作的触发条件，可以适应人物因距离摄像头远近不同导致在视频图像中所占像素多少不同，而难以识别人物动作的问题，从而一定程度上提高了检测抽烟动作的准确度。其中，确定疑似抽烟动作的操作可以是基于动作触发实现的，动作触发可以是基于下述规则设计的：由于视频分类只能针对已经裁剪好的只有一个动作类别的视频段进行分类，无法自动识别出长视频中哪些时间段中有特定动作，因而需要其他方法将长视频段进行裁剪，将裁剪后的小视频段进行分类。

进一步地，确定人物在至少P帧视频图像中的人体姿态均满足第一预设条件，可以是确定同一人物在至少P帧视频图像中，第一像素个数与第二像素个数的比值均小于预设阈值，则可以确定该人物在至少P帧视频图像中的人体姿态均满足第一预设条件。其中，该P帧视频图像可以为依时序连续的P帧图像，P为正整数，具体数值可以根据经验预先设定。示例的，P帧可以为10帧，即，确定同一人物在至少10帧视频图像中人体姿态均满足第一预设条件。本步骤中，通过在人物在至少P帧视频图像中的人体姿态均满足第一预设条件，才认为该人物很大可能是在抽烟，可以避免在因手部短暂接触头部，导致少部分视频图像中的人体姿态满足第一预设条件的情况下，判定该人物很大可能是在抽烟，进而避免误判。

步骤204，若所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件，则执行所述提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域的操作。

由于人物在至少P帧视频图像中的人体姿态均满足第一预设条件的情况下，说明该人物很有可能在执行抽烟动作。因此，相较于直接执行提取操作，并在后续步骤中进行检测的方式，本发明实施例中，通过先确定人物在至少P帧视频图像中的人体姿态是否均满足第一预设条件，在均满足第一预设条件的情况下，才执行提取人物在每帧视频图像中对应的人体图像区域的操作，一定程度上可以避免对不是在执行抽烟动作的视频图像进行处理，进而避免不必要的检测，节省处理资源，以及提高检测的有效性。例如，由于人体姿态检测算法的精度、人物在视频中可能出现遮挡以及离开画面等的情况，本发明实施例可以选定至少10帧作为判定该人物作出疑似抽烟动作的触发条件，相较于选择较多或较少的帧数作为触发条件，可以避免召回大量吃东西、打电话等其他手抬起的动作。进一步地，在该人物满足触发条件时，才执行提取该人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域的操作，可以提高利用动作识别模型对抽烟动作识别的有效性。

本发明实施例中，可以对于每个人物，为所述人物在每帧所述视频图像中的人体姿态，标记所述人物的人物ID，其中，不同人物对应的人物ID不同。具体的，标记该人物的人物ID，可以是对于视频图像中出现的每个人物添加人物标识(Identity Document，ID)，即人物ID，且，不同的人物对应不同的人物ID，而同一人物在不同帧视频图像中使用相同的人物ID。具体的，该人物ID可以是在该人物对应的所有人体关键点周围，以标记的形式指示出来，该标记的形式可以是根据实际需求预先设定的，示例的，可以在对应头部的人体关键点处指示该人物对应的人物ID。该人物ID也可以是利用标记框将该人物对应的所有人体关键点圈出来，人物ID可以通过指示标记框，来指示该标记框中对应的人物，具体样式本发明实施例对此不作限制。通过对同一人物添加相同的人物ID，而不同人物添加不同的人物ID，可以方便区分视频图像中出现的人物，从而提高视频处理的效率，避免发生混淆错漏的问题。通过设置人物ID，可以在提取对应人物的人体图像区域时，快速确定该人物在各帧视频图像中的位置，进而提高处理效率。

相应地，执行提取该人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域的操作，可以是从每帧视频图像中该人物的人物ID标记的位置，提取预设尺寸大小的区域，得到该人物在每帧视频图像中对应的人体图像区域。具体的，人物ID标记的位置，可以是该人物ID指示的人物所包含的所有人体关键点对应的位置。

需要说明的是，提取预设尺寸大小的区域，可以是利用预设尺寸的标记框将该人物包含的所有人体关键点的图像区域圈出，提取该标记框所圈出的图像区域，其中，利用标记框圈出该人物的图像区域，可以是将上下距离该人物在视频图像中所占的像素区域1.5个像素，左右距离该人物在视频图像中所占的像素区域2个像素的区域，使用标记框将该区域圈出，相应地，可以将标记框圈出的像素区域作为该人物在视频图像中对应的人体图像区域。而提取图像区域的具体方式可以是通过图像区域从视频图像中裁剪出得到，也可以是复制该图像区域得到。该标记框的具体样式可以根据实际需求预先设定，预设尺寸可以是根据之后输入动作分类模型的视频大小确定的，以便于之后的视频识别操作。示例的，可以选取矩形框作为标记框，预设尺寸可以为200*200，利用矩形框从视频图像中提取该人物对应的200*200的图像区域。通过提取只包含单个人物的人体图像区域，可以方便之后进行动作分类处理，减少处理资源的浪费，从而提高对待处理视频的检测速度。

步骤205，将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别。

具体的，本步骤的实现方式可以参照前述步骤104，在此不再重复。

随着室内禁止抽烟的规定越来越普及，对抽烟违规行为的捕捉成为一个难题。对抽烟行为的发现与惩罚往往存在一定的滞后性，如营业厅、办公室、餐厅等室内场景并不会总有人巡逻检查，因而对违规行为的识别、惩罚的难度很大。室内场景大多都有摄像头，例如，在实际应用场景中，许多营业厅禁止工作人员及顾客在室内抽烟，且营业厅中装有多个摄像头实时监控着室内的各个角落。

在训练动作分类模型时，可以通过人工筛查大量的营业厅监控视频来获取样本，也可以派人在营业厅实地场景中演示抽烟动作，将采集到的视频作为样本，用来训练动作分类模型识别抽烟动作。具体的，对于获取的监控视频，可以根据姿态估计模型以及预先设定的关于手嘴距离的第一预设条件，将符合条件的部分监控视频提取出来，可以通过人工筛选，选取其中是抽烟动作的视频段作为正样本，不是抽烟的部分如吃东西、打电话等类抽烟动作的视频段作为负样本，可以为动作分类模型进行数据准备。示例的，一个营业厅一般大约选取4个摄像头即可以覆盖营业厅工作人员区域及顾客区域，通过一台具有英伟达泰坦(TitanX)显卡的主机，则可以实现通过检测系统对四个摄像头同时检测识别抽烟动作。这套检测系统使用多线程，将四个摄像头对应的四个视频流输入到系统中，则可以实时监控该营业厅中是否有抽烟动作，并在有抽烟动作时进行报警并标定抽烟人物的位置。这样，通过获取实际场景中的监控视频作为动作分类模型中的样本，可以使训练得到的动作分类模型更适应对应场景下的动作识别，一定程度上可以提高模型在对应场景下识别抽烟动作的速度和准确率。同时，通过该动作分类模型可以较好的代替人工检测，进而可以低成本的解决有摄像头的场景中违规抽烟的检测与识别。同时，由于该动作分类模型的检测效率较高，一定程度上可以实现实时检测识别，因此，可以降低检测识别的延迟，进而提高检测效果。需要说明的是，原始动作分类模型只能对简单场景进行分类，如游泳视频、骑车视频、弹吉他等场景中只有单一动作的视频进行分类，而监控视频中存在不同的人在做不同的动作，所以，并不能直接使用原始动作分类模型。因此，本发明实施例通过先对监控视频检测，获取只包含单个人物单个动作的备选视频，基于备选视频可以使用动作分类模型确定动作类别，从而提高动作识别的准确率。

进一步地，本发明实施例在确定动作分类时，使用基于视频的动作分类模型，而没有使用基于图片的动作分类模型，可以结合抽烟动作的时序信息，考虑32帧视频图像中人物的动作信息，从而提高动作分类的准确率。并且，由于动作分类模型作为端到端的神经网络模型，该类模型运行速度较快，即便输入数据是单张图像的32倍，但由于模型运行速度快，且输入的视频为只包含疑似抽烟人物的局部视频段，即备选视频，因此，可以实现在单个图形处理器(Graphics Processing Unit，GPU)的电脑上进行多路实时检测，确定视频中包含的动作类别。

步骤206，若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

具体的，本步骤的实现方式可以参照前述步骤105，本发明实施例对此不作限定。

步骤207，检测所述抽烟人物在所述待处理视频中所处位置的位置信息。

本发明实施例中，位置信息可以是抽烟人物所处的视频图像的序号以及在该视频图像中的位置坐标，其中，视频图像的序号可以是该视频图像在待处理视频中所位于的时序，也可以是依据时序编制的序列号。

进一步地，确定抽烟人物在该视频图像中的位置坐标，可以是在待处理视频中建立预设坐标系，根据检测得到抽烟人物所在的图像区域，确定该图像区域在待处理视频中的位置坐标。其中，预设坐标系可以是按照预设的坐标系建立方式预先建立的，具体建立方式本发明实施例对此不做限定。示例的，该预设建立方式可以为以左上角顶点为原点，水平方向为X轴，竖直方向为Y轴进行建立。这样，通过在待处理视频上预先设置坐标，将视频图像划分为若干小区域，每个区域都有唯一对应的位置坐标，进而可以根据抽烟人物所占的图像区域，确定该图像区域在视频图像中的位置，从而确定抽烟人物在待处理视频中的位置。

步骤208，向后台监控终端发送报警信息；所述报警信息中至少包含所述位置信息。

本发明实施例中，该报警信息可以用于提示后台人员出现抽烟人物，以及该抽烟人物在待处理视频中的位置，进行报警，使得后台人员能够处理，同时，包含位置信息，可以方便定位该抽烟人物。以方便后台人员快速定位该抽烟人物。

需要说明的是，现实生活中，利用监控视频对某个人的异常行为进行检测识别是一个常见需求，然而现有的视频分类模型往往都是针对整个视频进行检测，且视频场景中只包含一类动作，并且要求该动作占整个画面较多时才能对出现的动作进行正确分类。实际应用中，对监控视频进行动作分类存在下述问题是是现有模型无法解决的：一、监控视频是连续视频流，其中只有一小部分时间段才可能出现抽烟动作；二、监控场景往往是广角摄像，每一帧视频图像中往往包含有多个人在做不同的动作；三、由于摄像头距离人物较远，而抽烟的特征部分即香烟，在视频图像中所占像素较小，且有很多类似的动作在视频检测时容易发生误判，并且每个人的体貌、抽烟姿态都不同，直接使用视频分类模型会导致识别准确率较低。

相较于使用基于动作识别的监控系统进行抽烟动作识别，本发明实施例可以对检测过程进行简化优化，可以避免在检测过程中使用训练的模型较多，而对终端运行的硬件系统要求较高，并且导致检测时间过长，从而很难实现岁视频进行实时检测。

相较于基于人体骨架的动作识别方法，本发明实施例先通过姿态估计模型再根据动作分类模型进行检测，可以识别抽烟动作这种动作幅度较小的动作姿态。进一步地，若只使用姿态估计模型检测，只可以识别出走路、站立、摔倒等这种通过骨架动作可以判别的大幅度动作，而无法区分吃东西、抽烟、喝水、打电话这种骨架动作相近的小幅度动作，因此，本发明实施例通过使用动作分类模型并借助周围像素的细节来区分动作类别，可以实现对室内摄像头场景下抽烟动作检测的任务。相较于根据姿态估计得到的骨架位置，对每张图片中所有人的骨架图像进行分类，本发明实施例通过人体姿态检测确定每个人物在不同帧视频图像中的人体姿态，再根据动作分类模型确定动作类别，可以避免只针对每张图片中所有人的骨架图像进行分类，而造成的系统运行速度不稳定，并且由于进行识别分类次数过多，而导致误报较多且系统的流程不够优化的问题。进一步地，本发明实施例并不是只使用单张图片对动作进行判断，因此，可以结合动作在时间上的持续性，提高识别动作类别的准确性。

下面以一具体实例进行说明。图2-2是本发明实施例提供的识别抽烟人物的流程图，如图2所示，将待处理视频转换为连续的单帧视频图像，根据视频时序获取32帧视频图像，将32帧视频图像输入到姿态估计模型中，识别每帧视频图像中包含的人体关键点，再利用目标跟踪算法确定每个人物在32帧视频图像中包含的人体关键点，得到每个人物的32帧人体关键点，并确定每个人物在每帧视频图像中第一像素个数与第二像素个数，判断每个人物的第一像素个数与第二像素个数的比值是否小于预设阈值，当出现人物在至少10帧视频图像中均满足第一预设条件，则提取该人物在每帧视频图像中对应的人体图像区域，作为备选视频，将备选视频输入到I3D动作分类模型中，当备选视频中的动作确定为抽烟动作，向后台监控终端发送报警信息。

综上所述，本发明实施例提供的视频处理方法，先从待处理视频中获取M帧视频图像，其中M为正整数，对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，再确定人物在至少P帧视频图像中的人体姿态均满足第一预设条件，其中，该第一预设条件是根据人体在抽烟状态下的姿态特征确定的，若该人物在至少P帧视频图像中的人体姿态均满足第一预设条件，则执行提取该人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域的操作，最后，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物，向后台监控终端发送报警信息，该报警信息中至少包含位置信息。通过提取视频中的每个人物对应的备选视频，然后通过动作分类模型进行动作识别，由于每个备选视频中都只包含单个人物，因此，可以降低利用动作分类模型进行分类时的烦扰，确保利用该动作分类模型能够准确的确定出动作类别，进而可以提高识别待处理视频中抽烟人物的准确性。并且，当同一人物在至少P帧视频图像中的人体姿态均满足第一预设条件时，才提取该人物对应的备选视频，可以提高视频处理的速度，避免处理资源的浪费。

以上介绍了本发明实施例提供的视频处理方法，下面将结合附图介绍本发明实施例提供的装置。

参见图3，本发明实施例还提供了一种视频处理装置的结构框图，如图3所示，该视频处理装置30可以包括：

获取模块301，用于从待处理视频中获取M帧视频图像；所述M为正整数；

第一确定模块302，用于对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态；

提取模块303，用于对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数；

第二确定模块304，用于将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别；

第三确定模块305，用于若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

综上所述，本发明实施例提供的视频处理装置，先从待处理视频中获取M帧视频图像，其中M为正整数，再对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，对于每个人物，根据人物在每帧视频图像中的人体姿态，提取人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域，其中N为正整数，最后，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物。通过提取视频中的每个人物对应的备选视频，然后通过动作分类模型进行动作识别，由于每个备选视频中都只包含单个人物，因此，可以降低利用动作分类模型进行分类时的干扰，确保利用该动作分类模型能够准确的确定出动作类别，进而可以提高识别待处理视频中抽烟人物的准确性。

可选的，所述装置30还包括：

第四确定模块，用于确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件；所述第一预设条件是根据人体在抽烟状态下的姿态特征确定的；

执行模块，用于若所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件，则执行所述提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域的操作。

可选的，所述第一预设条件为人物的手部与嘴部之间的像素个数与人物头部所占的像素个数的比值小于预设阈值；

相应地，所述第四确定模块具体用于：

对于每帧所述视频图像，根据所述人物在所述视频图像中的人体姿态，确定所述人物的手部与嘴部之间的第一像素个数以及所述人物头部所占的第二像素个数；

若所述第一像素个数与所述第二像素个数的比值小于预设阈值，则确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件。

可选的，所述第一确定模块302具体用于：

按照每帧所述视频图像在所述待处理视频中的图像时序依次执行以下操作：

利用预设的人体姿态检测算法对所述视频图像进行检测，得到所述视频图像中包含的人物的人体姿态；所述人体姿态包括人体关键点；

根据预设的关键点跟踪算法，对所述视频图像中人物的人体姿态进行关键点跟踪，以确定所述视频图像中人物在下一帧视频图像中的人体姿态；

利用所述人体姿态检测算法对所述下一帧视频图像中的其他区域进行检测，以确定所述下一帧视频图像中包含的其他人物的人体姿态，得到所述下一帧视频图像中包含的每个人物的人体姿态；所述其他区域为所述下一帧视频图像中除已检测到的人体姿态对应的区域外的区域。

可选的，所述装置30还包括：

标记模块，用于对于每个人物，为所述人物在每帧所述视频图像中的人体姿态，标记所述人物的人物ID；其中，不同人物对应的人物ID不同；

相应地，所述提取模块303具体用于：

从每帧所述视频图像中所述人物的人物ID标记的位置，提取预设尺寸大小的区域，得到所述人物在每帧所述视频图像中对应的人体图像区域。

可选的，所述动作分类模型是基于正样本以及负样本训练得到的；

所述正样本为包含抽烟动作的视频；所述负样本为包含类抽烟动作的视频；

所述类抽烟动作的是与抽烟动作的相似度大于预设相似度阈值的非抽烟动作。

可选的，所述装置30还包括：

检测模块，用于检测所述抽烟人物在所述待处理视频中所处位置的位置信息；

发送模块，用于向后台监控终端发送报警信息；所述报警信息中至少包含所述位置信息。

综上所述，本发明实施例提供的视频处理方法，从待处理视频中获取M帧视频图像，其中M为正整数，对每帧视频图像进行人体姿态检测，确定每帧视频图像中包含的每个人物的人体姿态，对于每个人物，根据人物在每帧视频图像中的人体姿态，提取人物在每帧视频图像中对应的人体图像区域，得到N帧人体图像区域，其中N为正整数，将N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定备选视频对应的动作类别，若备选视频对应的动作类别为抽烟，则将备选视频对应的人物确定为抽烟人物。通过提取视频中的每个人物对应的局部视频备选视频，然后通过动作分类模型进行动作识别，由于每个备选视频中都只包含单个人物，因此，可以降低利用动作分类模型进行分类时的烦扰，确保利用该动作分类模型能够准确的确定出动作类别，进而可以提高识别待处理视频中抽烟人物的准确性。并且，当同一人物在至少P帧视频图像中的人体姿态均满足第一预设条件时，才提取该人物对应的备选视频，可以提高视频处理的速度，避免处理资源的浪费。

图4为实现本发明各个实施例的一种电子设备的硬件结构示意图；

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，用于从待处理视频中获取M帧视频图像；所述M为正整数。

处理器410，用于对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态。

处理器410，用于对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数。

处理器410，用于将所述N帧人体图像区域组成的视频作为备选视频，并输入预训练的动作分类模型中，以确定所述备选视频对应的动作类别。

处理器410，用于若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在电子设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元；可选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

电子设备400还可以包括给各个部件供电的电源411(比如电池)，可选的，电源611可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备400包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种电子设备，包括处理器410，存储器409，存储在存储器409上并可在所述处理器410上运行的视频处理程序，该视频处理程序被处理器410执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有视频处理程序，该视频处理程序被处理器执行时实现上述视频处理实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从待处理视频中获取M帧视频图像；所述M为正整数；

确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件；所述第一预设条件是根据人体在抽烟状态下的姿态特征确定的；所述第一预设条件为人物的手部与嘴部之间的像素个数与人物头部所占的像素个数的比值小于预设阈值；

若所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件，则对于每个所述人物，根据所述人物在每帧所述视频图像中的人体姿态，提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域；所述N为正整数；

2.根据权利要求1所述的方法，其特征在于，所述确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件，包括：

3.根据权利要求1所述的方法，其特征在于，所述对每帧所述视频图像进行人体姿态检测，确定每帧所述视频图像中包含的每个人物的人体姿态的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对于每个人物，为所述人物在每帧所述视频图像中的人体姿态，标记所述人物的人物ID；其中，不同人物对应的人物ID不同；

相应地，所述提取所述人物在每帧所述视频图像中对应的人体图像区域，得到N帧人体图像区域，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述动作分类模型是基于正样本以及负样本训练得到的；

6.根据权利要求1所述的方法，其特征在于，所述将所述备选视频对应的人物确定为抽烟人物之后，所述方法还包括：

检测所述抽烟人物在所述待处理视频中所处位置的位置信息；

向后台监控终端发送报警信息；所述报警信息中至少包含所述位置信息。

7.一种视频处理装置，其特征在于，所述装置包括：

第三确定模块，用于若所述备选视频对应的动作类别为抽烟，则将所述备选视频对应的人物确定为抽烟人物；

所述装置还包括：

第四确定模块，用于确定所述人物在至少P帧视频图像中的人体姿态均满足第一预设条件；所述第一预设条件是根据人体在抽烟状态下的姿态特征确定的；所述第一预设条件为人物的手部与嘴部之间的像素个数与人物头部所占的像素个数的比值小于预设阈值；

8.根据权利要求7所述的装置，其特征在于，所述第四确定模块具体用于：