CN110472532B

CN110472532B - 一种视频对象行为识别方法和装置

Info

Publication number: CN110472532B
Application number: CN201910696522.2A
Authority: CN
Inventors: 乔宇; 颜岸; 王亚立; 李志鋒
Original assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-02-25
Anticipated expiration: 2039-07-30
Also published as: CN110472532A

Abstract

本申请实施例公开了一种视频对象行为识别方法和装置，所述方法涉及人工智能领域中的计算机视觉方向，所述方法包括：获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。该方案可以通过提取出视频图像对应多模态的特征信息，从而提升行为识别的准确性。

Description

一种视频对象行为识别方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及一种视频对象行为识别方法和装置。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

因此，使用人工智能技术对视频内容进行分析有着巨大的实际需求，例如使用人工智能技术对视频中视频对象的行为进行识别。现在主要通过预先定义的姿态编辑对视频中视频对象的行为进行识别，通过这样的方法进行视频对象行为识别的准确性不高。

发明内容

本申请实施例提供一种视频对象行为识别方法和装置，可以提升行为识别的准确性。

本申请实施例提供一种视频对象行为识别方法，包括：

获取视频中的多张视频图像；

获取所述视频图像中视频对象的多模态姿态特征信息；

根据所述视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息；

从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息；

基于所述时空姿态特征信息对所述视频图像进行行为识别，生成所述视频对象的行为识别结果。

相应的，本申请实施例还提供一种视频对象行为识别装置，包括：

图像获取模块，用于获取视频中的多张视频图像；

特征信息获取模块，用于获取所述视频图像中视频对象的多模态姿态特征信息；

组合模块，用于根据所述视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息；

提取模块，用于从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息；

识别模块，用于基于所述时空姿态特征信息对所述视频图像进行行为识别，生成所述视频对象的行为识别结果。

所述特征信息获取模块可以用于对所述视频图像进行图像特征提取操作，提取出所述视频图像对应的图像特征信息，对所述图像特征信息并列的进行姿态特征提取操作，提取出所述视频图像中视频对象的对象姿态特征信息。

所述组合模块可以用于根据所述视频图像对应的时间信息，将所述图像特征信息进行组合，得到三维图像特征信息，根据所述视频图像对应的时间信息，将所述对象姿态特征信息进行组合，得到三维对象姿态特征信息。

可选的，在一些实施例中，所述提取模块可以包括多尺度卷积子模块和融合子模块，如下：

所述多尺度卷积子模块，可以用于对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息；

所述融合子模块，可以用于将所述多尺度的时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。

可选的，在一些实施例中，所述多尺度卷积子模块可以包括卷积子模块和空洞卷积子模块，如下：

所述卷积子模块，可以用于对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息；

所述空洞卷积子模块，可以用于对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

所述空洞卷积子模块可以用于根据预设空洞卷积间隔，确定空洞卷积操作对应的空洞卷积核，根据所述空洞卷积核对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

可选的，在一些实施例中，所述识别模块可以包括输入子模块、提取子模块和全连接子模块：

所述输入子模块，可以用于将每个模态的时空姿态特征信息输入轻量级行为识别网络，所述轻量级行为识别网络包括多层卷积层和全连接层；

所述提取子模块，可以用于通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息；

所述全连接子模块，可以用于通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述对象的行为识别结果。

所述全连接子模块可以用于通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述对象对应的行为类型预测值，获取行为类型映射集合，所述行为类型映射集合中包括行为识别结果与行为类型预测值之间的映射关系，根据所述行为类型映射集合，获取所述行为类型预测值对应的行为识别结果。

相应的，本申请实施例还提供另一种视频对象行为识别方法，包括：

获取视频中的多张视频图像；

将获取到的视频图像输入至空间姿态卷积网络中，并基于所述空间姿态卷积网络，提取出所述视频图像中视频对象的多模态姿态特征信息；

将所述多模态姿态特征信息输入至时间姿态卷积网络中，并基于所述时间姿态卷积网络，将所述多模态姿态特征信息组合成三维姿态特征信息；

基于时间姿态卷积网络，从每个模态的三维姿态特征信息中分别提取出多尺度的时空姿态特征信息；

将所述时空姿态特征信息输入至轻量级行为识别网络中，并基于所述轻量级行为识别网络，生成所述视频对象的行为识别结果。

本申请实施例可以获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。该方案可以提升行为识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频对象行为识别系统的场景示意图；

图2是本申请实施例提供的视频对象行为识别方法的第一流程图；

图3是本申请实施例提供的视频对象行为识别方法的第二流程图；

图4是本申请实施例提供的视频对象行为识别方法的第三流程图；

图5是本申请实施例提供的视频对象行为识别方法的网络结构示意图；

图6是本申请实施例提供的时间姿态卷积网络的流程示意图；

图7是本申请实施例提供的空洞卷积示意图；

图8是本申请实施例提供的时间姿态卷积网络的结构示意图；

图9是本申请实施例提供的空间姿态卷积网络的结构示意图；

图10是本申请实施例提供的姿态特征信息组合示意图；

图11是本申请实施例提供的卷积操作示意图；

图12是本申请实施例提供的空洞卷积操作示意图；

图13是本申请实施例提供的视频对象行为识别装置的结构示意图；

图14是本申请实施例提供的网络设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频对象行为识别方法，该视频对象行为识别方法的执行主体可以是本申请实施例提供的视频对象行为识别装置，或者集成了该视频对象行为识别装置的网络设备，其中该视频对象行为识别装置可以采用硬件或者软件的方式实现。其中，网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。

请参阅图1，图1为本申请实施例提供的视频对象行为识别方法的应用场景示意图，以视频对象行为识别装置集成在网络设备中为例，网络设备可以获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。

本申请实施例提供的视频对象行为识别方法涉及人工智能领域中的计算机视觉方向。本申请实施例可以通过视频行为识别技术，提取出视频对应多模态的特征信息，进而识别出视频中视频对象的行为识别结果。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

请参阅图2，图2为本申请实施例提供的视频对象行为识别方法的流程示意图，具体通过如下实施例进行说明:

201、获取视频中的多张视频图像。

其中，视频可以为涉及各种动态影像的储存格式，视频可以被记录下来并经由不同的物理媒介进行传送。其中，视频中可以包括多张视频图像，比如，视频中可以包括多帧视频图像帧。该视频中可以包括对象，比如，视频可以为针对具体的对象进行录制的视频文件，该对象可以为生命体，还可以为静态的物品等，如该视频可以为针对运动的人体进行录制的视频文件。

在实际应用中，可以获取视频中的多张视频图像。比如，可以获取包括具体视频对象的视频，然后从视频中截取多张视频图像，如可以截取到视频中第 1秒、第11秒、第20秒、第34秒等等的多张视频图像，其中，每张视频图像都对应一个具体的时间信息。又比如，还可以按照一定的时间间隔，从视频中截取多张视频图像，如可以每隔10秒钟对视频进行截取，截取到视频中第1秒、第11秒、第21秒等等的多张视频图像。

其中，获取视频的方式可以有多种，比如，如图1所示，可以通过其他网络设备进行的视频传输，获取到需要的视频。还可以从本地存储中获取视频、通过终端等拍摄设备进行视频拍摄获取视频，或者从网络侧设备获取视频等等。

202、获取视频图像中视频对象的多模态姿态特征信息。

其中，特征信息可以为表征图像特征的信息，由于通过深度学习处理图像时，需要形成对于图像比较完备的描述，因此可以通过深度学习中多种卷积核对图像进行卷积，得到不同卷积核上的响应，该响应即可作为图像的特征信息。其中，特征信息可以包括多种模态，比如，视频图像的姿态特征信息可以包括视频图像对应的图像特征信息、以及视频图像中对象对应的多种对象姿态特征信息。其中，特征信息的表示形式可以为热力图的形式，通过热力图中不同的颜色表示图像中特征的分布情况。

其中，深度学习为通过建立具有阶层结构的人工神经网络，在计算系统中实现人工智能的机器学习。由于具有阶层结构的人工神经网络能够对输入信息进行逐层提取和筛选，因此深度学习具有表征学习能力，可以实现端到端的监督学习和非监督学习。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

其中，视频对象可以为视频图像中针对的具体对象，比如，当视频中包括跑步的人体，可以将该跑步的人体识别为视频对象，又比如，当视频中包括捕食的老虎，可以将该捕食的老虎识别为视频对象，又比如，当视频中包括静止的桌椅，也可以将静止的桌椅识别为视频对象。其中，视频图像中的视频对象可以为单一的对象，比如，可以仅将视频中主要体现的对象作为视频对象；相应的，视频中还可以包括多个视频对象，比如，当视频中有多个对象正在进行活动时，可以将多个对象都识别为视频对象。

在一实施例中，为了提高行为识别的准确性，可以对视频图像进行多模态姿态特征信息的提取。相比于单一的特征信息，提取多模态的特征信息，能够较好的描述视频图像的特征，从而更精准的对视频中的视频对象进行识别。可以获取视频图像中视频对象的多模态姿态特征信息。比如，可以通过神经网络进行视频图像中视频对象的多模态姿态特征信息的提取，其中，神经网络中可以包括多层卷积层，可以通过神经网络中的多层卷积层对视频图像进行卷积操作，进而获取到视频图像中视频对象的多模态姿态特征信息。

其中，神经网络可以为通过模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。神经网络可以依靠系统的复杂程度，通过调节内部大量节点之间相互连接的关系，从而达到处理信息的目的。比如，可以通过神经网络进行视频图像中视频对象的多模态姿态特征信息的提取。

其中，卷积层可以由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入图像的不同特征信息，第一层卷积层可以提取一些低级的特征信息，如边缘、线条、角等层级的特征信息，更多层的卷积层能够从低级特征信息中迭代提取出更复杂的特征信息。

在一实施例中，通过神经网络提取视频图像对应姿态特征信息的模态类型越多，能够越真实的反应输入视频图像的准确特征，进而提升特征提取的准确性，因此，可以通过神经网络提取视频图像多模态的姿态特征信息。具体地，步骤“获取所述视频图像中视频对象的多模态姿态特征信息”，可以包括：

对所述视频图像进行图像特征提取操作，提取出所述视频图像对应的图像特征信息；

对所述图像特征信息并列的进行姿态特征提取操作，提取出所述视频图像中视频对象的对象姿态特征信息。

其中，多模态姿态特征信息可以包括视频图像对应的图像特征信息、以及视频对象对应的对象姿态特征信息。其中，图像特征信息可以为表征视频图像底层特征的特征信息，如图像特征信息可以为表征视频图像的图像颜色、图像纹理、形状特征等特征对应的特征信息。

其中，对象姿态特征信息可以为表征视频对象对应不同层次区域的姿态特征信息，比如，当视频对象为人体时，对象姿态特征信息可以包括表征人体关键点的关键点姿态特征信息、以及表征人体关键部位的关键部位姿态特征信息和部位朝向特征信息。其中，人体关键点可以为表征人体姿态的具体的点，比如，人体关键点可以包括眼睛、鼻子、手腕、脚腕等等。其中，人体关键部位可以为表征组成人体的各个部位，比如，人体关键部位可以包括上臂、前臂、大腿、小腿等等。

在实际应用中，由于视频中可能存在不止一个视频对象，因此，为了适应视频中的各种实际情况，可以采用对视频对象中不同层次区域进行特征提取的方式，从而避免了由于视频中存在多个视频对象而难以辨认的情况。可以通过图像特征提取子网络中的多层卷积层，提取出视频图像对应的图像特征信息，并将该图像特征信息分别输入多个并列的对象姿态特征提取子网络，提取出视频对象对应多个层次的对象姿态特征信息。

比如，如图9所示，可以将视频图像输入图像特征提取子网络中，通过图像特征提取子网络中的多层卷积层，提取出视频图像底层特征对应的图像特征信息。然后将图像特征信息分别输入至关键点姿态特征提取子网络和关键部位姿态特征提取子网络中，其中，关键点姿态特征提取子网络和关键部位姿态特征提取子网络为并列排布，通过关键点姿态特征提取子网络中的多层卷积层，提取出关键点姿态特征信息，该关键点姿态特征信息描述了视频图像中人体关键点的预测置信图。同时，通过关键部位姿态特征提取子网络中的多层卷积层，提取出关键部位姿态特征信息，该关键部位姿态特征信息描述了视频图像中人体关键部位的位置与朝向信息的预测置信图。

在一实施例中，可以通过空间姿态卷积网络获取视频图像中视频对象对应的多种类型的特征信息，其中，如图9所示，空间姿态卷积网络中可以包括图像特征提取子网络和多个并列的对象姿态特征提取子网络，其中，多个并列的对象姿态特征提取子网络中包括关键点姿态特征提取子网络和关键部位姿态特征提取子网络。

在一实施例中，该空间姿态卷积网络可以为多人姿态深度模型(Realtime multi-person 2d pose estimation using part affinity fields)，可以将视频图像输入至多人姿态深度模型中，并获取多人姿态深度模型输出的三种特征图像，将输出的特征图像作为视频图像中对象的多模态姿态特征信息。

203、根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息。

在实际应用中，由于在对视频中的视频对象进行行为识别时，不仅需要对空间层级的姿态特征信息进行考虑，还需要考虑时间层级的姿态特征信息，通过考虑空间层级和时间层级的姿态特征信息，使得空间层级和时间层级相互关联，从而提升视频中特征提取的准确性。可以根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息。比如，可以获取多模态的姿态特征信息，每个姿态特征信息都对应相应视频图像的截取时间，分别将图像特征信息、关键点姿态特征信息和关键部位姿态特征信息按照其对应视频图像的截取时间顺序进行叠加，组合成每个模态的三维姿态特征信息。

在一实施例中，可以通过设计姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。具体地，步骤“根据所述视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息”，可以包括：

根据所述视频图像对应的时间信息，将所述图像特征信息进行组合，得到三维图像特征信息；

根据所述视频图像对应的时间信息，将所述对象姿态特征信息进行组合，得到三维对象姿态特征信息。

在实际应用中，可以根据视频图像对应的时间信息，将图像特征信息进行组合，得到三维图像特征信息。比如，如图10所示，可以从多模态的姿态特征信息中获取图像特征信息，并根据图像特征信息对应视频图像的截取时间，对图像特征信息进行叠加并组合，如将t＝1、t＝11、t＝20、t＝34对应的图像特征信息按照时间顺序进行叠加，得到图像特征信息对应的立方体，即三维图像特征信息。

在实际应用中，可以根据视频图像对应的时间信息，将对象姿态特征信息进行组合，得到三维对象姿态特征信息。比如，可以从多模态的姿态特征信息中获取关键点姿态特征信息，如可以获取人体关键点右手腕对应的多张关键点姿态特征信息，每张关键点姿态特征信息都对应一个截取时间信息，然后按照截取时间顺序，将所有右手腕对应的关键点姿态特征信息进行组合，得到右手腕关键点姿态特征信息对应的立方体，即关键点对应的三维对象姿态特征信息。

又比如，还可以从多模态的姿态特征信息中获取关键部位姿态特征信息，如可以获取人体关键部位右小腿对应的多张关键部位姿态特征信息，每张关键部位姿态特征信息都对应一个截取时间信息，然后按照截取时间顺序，将所有右小腿对应的关键部位姿态特征信息进行组合，得到右小腿关键部位姿态特征信息对应的立方体，即关键部位对应的三维关键部位姿态特征信息。

通过上述方式，如图6所示，根据截取时间，将姿态特征信息转换为三维姿态特征信息的步骤可以称为时间关联。对于每张姿态特征信息，都根据截取时间顺序进行叠加，组合成立方体姿态特征信息的形式，生成了姿态特征信息对应的时空特征立方体，从而在姿态特征信息中考虑到了时间的影响，从而提升了特征提取的准确性。

204、从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息。

在实际应用中，由于在诸多应用场景中，获取到的视频并非都是在实验室中以固定格式拍摄出的视频，而多为在不受限制的情况下拍摄出的非受限视频，而非受限视频由于其复杂性与不确定性，导致单一尺度的特征提取难以满足提取非受限视频特征的需求，因此可以通过多种尺度的特征提取操作，对三维姿态特征信息进行特征提取，得到每个模态对应多尺度的时空姿态特征信息，从而提取出更全面的特征信息。比如，可以分别通过多尺度的特征提取操作，对三维姿态特征信息进行特征提取，从而得到多尺度特征提取操作下，提取出的多尺度时空姿态特征信息。

在一实施例中，可以通过不同尺度的卷积操作，获取视频图像中不同尺度对应的特征信息，并将获取到的特征信息进行融合，从而保证了特征信息的完整性、全面性、准确性。具体地，步骤“从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息”，可以包括：

对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息；

将所述多尺度的时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。

在实际应用中，可以对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息，将多尺度的时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。比如，可以通过多尺度的卷积操作，分别对三维图像特征信息、三维对象姿态特征信息和三维关键部位姿态特征信息都进行特征提取，得到每个模态三维姿态特征信息对应的多尺度的时空姿态特征子信息，然后将获取到的多尺度时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。

在一实施例中，多尺度的卷积操作可以包括卷积和空洞卷积，因此，可以分别通过卷积和空洞卷积进行特征提取。具体地，步骤“对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息”，可以包括：

对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息；

对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

其中，空洞卷积是通过在普通的卷积核中注入空洞，从而增加感受野的卷积操作。空洞卷积中定义了超参数扩张率(dilation rate)，该扩张率定义了卷积核处理数据时各值的间距，如图12所示，图12为空洞卷积操作的示意图。普通的卷积可以认为是扩张率为1的卷积，如图11所示，图11为普通卷积操作的示意图。其中，本申请实施例中将普通卷积统一称为卷积。

在实际应用中，可以对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息，对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

比如，对于每个模态对应的三维姿态特征信息，可以分别通过普通卷积子网络进行1x1的卷积操作，从而将三维姿态特征信息转化为相应的运动热力图，即普通时空姿态特征子信息，如可以将右手腕对应的三维姿态特征信息输入至普通卷积子网络中进行卷积操作，得到右手腕对应的运动热力图，该运动热力图可以明确地编辑针对右手腕的时空运动轨迹。

其中，在通过普通卷积子网络进行卷积操作时，可以对视频图像的对象对应的所有区域共享卷积参数，以此减小过拟合。比如，当视频图像的对象为人体时，可以对所有人体关键点共享卷积参数，并且对所有人体关键部位共享卷积参数，以此减小过拟合。

比如，如图7所示，对于每个模态对应的三维姿态特征信息，还可以分别通过空洞卷积子网络进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息，该扩张时空姿态特征子信息可以为热力图的形式。由于单一尺度的卷积缺乏对非受限视频中复杂多尺度行为特征的建模，因此，可以通过添加空洞卷积进行多尺度设计，从而形成不同时间感知域的时空姿态特征。

在一实施例中，可以通过确定空洞卷积子网络对应的空洞卷积核进行空洞卷积操作。具体地，步骤“对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息”，可以包括：

根据预设空洞卷积间隔，确定空洞卷积操作对应的空洞卷积核；

根据所述空洞卷积核对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

在实际应用中，根据预设空洞卷积间隔，确定空洞卷积操作对应的空洞卷积核，根据空洞卷积核对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。比如，如图7所示，可以确定空洞卷积核的空洞卷积间隔，如该空洞卷积间隔可以确定为2，然后可以根据该空洞卷积核对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

通过上述方式，通过多种尺度的卷积操作，对三维姿态特征信息进行特征提取，得到多尺度的时空姿态特征信息的步骤可以称为语义卷积。通过多个尺度的卷积，可以形成视频图像对应多个尺度的特征信息。其中，如图6所示，还可以定义包括时间关联步骤和语义卷积步骤的模块为时间姿态卷积模块。

在一实施例中，如图8所示，可以通过时间关联将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，然后分别通过空洞卷积子网络和普通卷积子网络对三维姿态特征信息进行卷积操作，进而将卷积操作得到的普通时空姿态特征子信息和扩张时空姿态特征子信息进行融合，得到时空姿态特征信息。

205、基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。

在实际应用中，可以通过对提取出的时空姿态特征信息对视频图像进行行为识别，得到视频图像中视频对象对应的行为识别结果。比如，可以将时空姿态特征信息输入轻量级行为识别网络中，通过轻量级行为识别网络中的多层卷积层和全连接层，预测出视频图像中视频对象对应的行为识别结果，该行为识别结果可以为一种具体的行为类型，如跑步、打高尔夫球等等。

在一实施例中，由于视频图像中视频对象的时空姿态特征信息属于中层语义特征，因此其稀疏化程度比较高，进而可以通过轻量级行为识别网络进行复杂对象行为的识别。具体地，步骤“基于所述时空姿态特征信息对所述视频图像进行行为识别，得到所述视频对象的行为识别结果”，可以包括：

将每个模态的时空姿态特征信息输入轻量级行为识别网络，所述轻量级行为识别网络包括多层卷积层和全连接层；

通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息；

通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述视频对象的行为识别结果。

在实际应用中，比如，可以将每个模态的时空姿态特征信息输入轻量级行为识别网络，轻量级行为识别网络中包括多层卷积层和全连接层，通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息，然后通过全连接层对多个模态的行为特征信息进行全连接运算，得到视频图像中视频对象对应的行为识别结果。其中，该轻量级行为识别网络中层级的分布情况可以如表1所示。

表1

层级	输出尺寸	轻量级行为识别网络
			输入	R×H×W	-
卷积层1-1	128×H/2×W/2	3×3，卷积步长2
			卷积层1-2	128×H/2×W/2	3×3，卷积步长1
卷积层2-1	256×H/4×W/4	3×3，卷积步长2
			卷积层2-2	256×H/4×W/4	3×3，卷积步长1
卷积层3-1	512×H/8×W/8	3×3，卷积步长2
			卷积层3-2	512×H/8×W/8	3×3，卷积步长1
全连接层-512	512×1×1	平均池化，随机失活
			全连接层-K	K×1×1	归一化

在一实施例中，还可以通过全连接层获取到行为类型预测值，并根据该行为类型预测值进行视频图像中对象行为的识别。具体地，步骤“通过全连接层对每个模态的行为特征信息进行全连接运算，生成所述视频对象的行为识别结果”，可以包括：

通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述对象对应的行为类型预测值；

获取行为类型映射集合，所述行为类型映射集合中包括行为识别结果与行为类型预测值之间的映射关系；

根据所述行为类型映射集合，获取所述行为类型预测值对应的行为识别结果。

在实际应用中，比如，可以通过全连接层对每个模态的行为特征信息进行全连接运算，得到对象对应的行为类型预测值，其中，该行为类型预测值可以为分数的形式。然后获取包括行为识别结果与行为类型预测值之间的映射关系的行为类型映射集合，并根据行为类型映射集合，获取行为类型预测值对应的行为识别结果。如可以根据行为类型预测值的数值，对应出该视频中的人体正在打高尔夫球或者在跑步等等。

在一实施例中，如图5所示，本申请实施例提供的视频对象行为识别方法可以包括多个神经网络，获取到视频图像后，可以通过空间姿态卷积网络获取视频图像中对象的多模态姿态特征信息，其中，多模态姿态特征信息包括图像特征信息、关键点姿态特征信息和关键部位姿态特征信息。然后分别将三种模态的姿态特征信息输入时间姿态卷积网络中，提取出多尺度的时空姿态特征信息。然后分别将多尺度的时空姿态特征信息输入至轻量级行为识别网络，最后将结果融合，得到视频图像中对象的行为识别结果。

在一实施例中，由于该视频对象行为识别方法可以识别出视频中视频对象的行为，因此，可以应用于智能视频监控、智能机器人、运动分析等领域中。比如，可以通过识别视频中人体正在进行的行为，检测出视频是否涉及色情、暴恐、不文明行为等，从而能够及时的将不合规的视频进行处理。又比如，还可以应用于安防领域，当视频中检测出视频对象在进行危险行为时，可以及时进行处理，以提高用户安全。

由上可知，本申请实施例可以获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。该方案可以通过设计人工智能的姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。通过空间姿态卷积模块和时间姿态卷积模块明确的学习具有强辨别力的姿态特征信息，从而有效提高行为识别的准确性。

根据前面实施例所描述的方法，以下将以该视频对象行为识别装置具体集成在网络设备举例作进一步详细说明。

参考图3，本申请实施例的视频对象行为识别方法的具体流程可以如下：

301、网络设备从视频中截取多张视频图像。

在实际应用中，本申请实施例可以应用于对视频中人体进行的行为进行识别的场景，比如，用户可以通过该视频对象行为识别方法识别出视频里的人体正在进行跑步还是在打高尔夫球。对视频对象进行行为识别可以应用于视频监控、基于内容的视频检索、人机互动等领域。因此，网络设备可以从获取到的视频中，截取多张视频图像，其中，每张视频图像都对应一个截取时间。该视频既可以为在实验室中以固定格式拍摄出的视频，还可以为非受限视频。

302、网络设备通过空间姿态卷积网络获取视频图像中人体的多模态姿态特征信息。

在实际应用中，网络设备可以通过空间姿态卷积网络获取视频图像中人体的多模态姿态特征信息，该空间姿态卷积网络可以包括图像特征提取子网络、以及并列排布的关键点姿态特征提取子网络和关键部位姿态特征提取子网络。网络设备可以将视频图像输入至图像特征提取子网络中，提取出视频图像对应的图像特征信息。该图像特征信息描述了视频图像的底层特征。

进而将图像特征信息分别输入至关键点姿态特征提取子网络和关键部位姿态特征提取子网络中，通过关键点姿态特征提取子网络提取出关键点姿态特征信息，该关键点姿态特征信息可以为描述人体关键点的预测置信图；通过关键部位姿态特征提取子网络提取出关键部位姿态特征信息，该关键部位姿态特征信息可以为描述人体关键部位位置与朝向信息的预测置信图。其中，图像特征信息、关键点姿态特征信息和关键部位姿态特征信息可以构成视频图像中对象的多模态姿态特征信息。

303、网络设备根据视频图像的截取时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息。

在实际应用中，网络设备可以从多模态的姿态特征信息中获取图像特征信息，并将t＝1、t＝11、t＝20、t＝34对应的图像特征信息按照时间顺序进行叠加，得到图像特征信息对应的立方体，即三维图像特征信息。

在实际应用中，网络设备可以获取人体关键点右手腕对应的多张关键点姿态特征信息，每张关键点姿态特征信息都对应一个截取时间信息，然后按照截取时间顺序，将所有右手腕对应的关键点姿态特征信息进行组合，得到右手腕关键点姿态特征信息对应的立方体，即关键点对应的三维对象姿态特征信息。

在实际应用中，网络设备可以获取人体关键部位右小腿对应的多张关键部位姿态特征信息，每张关键部位姿态特征信息都对应一个截取时间信息，然后按照截取时间顺序，将所有右小腿对应的关键部位姿态特征信息进行组合，得到右小腿关键部位姿态特征信息对应的立方体，即关键部位对应的三维对象姿态特征信息。

304、网络设备对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息。

在实际应用中，网络设备可以对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息。比如，对于每个模态对应的三维姿态特征信息，可以分别通过普通卷积子网络进行1x1的卷积操作，从而将三维姿态特征信息转化为相应的运动热力图，即普通时空姿态特征子信息，如可以将右手腕对应的三维姿态特征信息输入至普通卷积子网络中进行卷积操作，得到右手腕对应的运动热力图，该运动热力图可以明确地编辑针对右手腕的时空运动轨迹。

305、网络设备对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

在实际应用中，网络设备可以对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息，比如，可以确定空洞卷积核的空洞卷积间隔，如该空洞卷积间隔可以确定为2，然后对于每个模态对应的三维姿态特征信息，分别通过间隔为2的空洞卷积子网络进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息，该扩张时空姿态特征子信息可以为热力图的形式。由于单一尺度的卷积缺乏对非受限视频中复杂多尺度行为特征的建模，因此，可以通过添加空洞卷积进行多尺度设计，从而形成不同时间感知域的时空姿态特征。

306、网络设备将普通时空姿态特征子信息和扩张时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。

在实际应用中，网络设备获取到普通时空姿态特征子信息和扩张时空姿态特征子信息后，可以将普通时空姿态特征子信息和扩张时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息，从而形成多尺度的时空姿态特征信息。

307、网络设备基于时空姿态特征信息对视频图像进行行为识别，得到人体的行为识别结果。

在实际应用中，网络设备可以将每个模态的时空姿态特征信息输入轻量级行为识别网络，轻量级行为识别网络中包括多层卷积层和全连接层，通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息，然后通过全连接层对每个模态的行为特征信息进行全连接运算，得到人体对应的行为类型预测值，然后获取包括行为识别结果与行为类型预测值之间的映射关系的行为类型映射集合，并根据行为类型映射集合，获取行为类型预测值对应的行为识别结果，该行为识别结果可以为一种具体的行为类型，如跑步、打高尔夫球等等。

由上可知，本申请实施例可以通过网络设备从视频中截取多张视频图像，通过空间姿态卷积网络获取视频图像中人体的多模态姿态特征信息，根据视频图像的截取时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息，对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息，将普通时空姿态特征子信息和扩张时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，得到人体的行为识别结果。该方案可以通过设计姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。通过空间姿态卷积模块和时间姿态卷积模块明确的学习具有强辨别力的姿态特征信息，从而有效提高行为识别的准确性。

请参阅图4，图4为本申请实施例提供的视频对象行为识别方法的流程示意图。本申请实施例提供的视频对象行为识别方法涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明:

401、网络设备获取视频中的多张视频图像。

在实际应用中，网络设备可以从获取到的视频中，截取多张视频图像，其中，每张视频图像都对应一个截取时间。

402、网络设备将获取到的视频图像输入至空间姿态卷积网络中，并基于所述空间姿态卷积网络，提取出所述视频图像中视频对象的多模态姿态特征信息。

在实际应用中，网络设备可以将获取到的视频图像输入至空间姿态卷积网络中，该空间姿态卷积网络可以包括图像特征提取子网络、以及并列排布的关键点姿态特征提取子网络和关键部位姿态特征提取子网络。因此，网络设备可以将获取到的视频图像输入至图像特征提取子网络中，提取出视频图像对应的图像特征信息。进而将图像特征信息分别输入至关键点姿态特征提取子网络和关键部位姿态特征提取子网络中，通过关键点姿态特征提取子网络提取出关键点姿态特征信息，通过关键部位姿态特征提取子网络提取出关键部位姿态特征信息。其中，图像特征信息、关键点姿态特征信息和关键部位姿态特征信息可以构成视频图像中对象的多模态姿态特征信息。

403、网络设备将所述多模态姿态特征信息输入至时间姿态卷积网络中，并基于所述时间姿态卷积网络，将所述多模态姿态特征信息组合成三维姿态特征信息。

在实际应用中，网络设备可以将多模态姿态特征信息输入至时间姿态卷积网络中，该时间姿态卷积网络可以包括时间关联部分和语义卷积部分。网络设备可以通过时间关联，分别将图像特征信息、关键点姿态特征信息和关键部位姿态特征信息按照时间顺序进行叠加，得到三维图像特征信息和三维对象姿态特征信息，其中三维图像特征信息和三维对象姿态特征信息可以构成三维姿态特征信息。

404、网络设备基于时间姿态卷积网络，从每个模态的三维姿态特征信息中分别提取出多尺度的时空姿态特征信息。

在一实施例中，网络设备可以通过时空姿态卷积网络中的语义卷积部分，从每个模态的三维姿态特征信息中分别提取出多尺度的时空姿态特征信息，其中，该语义卷积部分中包括并列排布的普通卷积子网络和空洞卷积子网络。网络设备可以通过普通卷积子网络对三维姿态特征信息进行1x1的卷积操作，从而将三维姿态特征信息转化为相应的运动热力图，即普通时空姿态特征子信息；并通过间隔为2的空洞卷积子网络进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。获取到普通时空姿态特征子信息和扩张时空姿态特征子信息后，可以将普通时空姿态特征子信息和扩张时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息，从而形成多尺度的时空姿态特征信息。

405、网络设备将所述时空姿态特征信息输入至轻量级行为识别网络中，并基于所述轻量级行为识别网络，生成所述视频对象的行为识别结果。

在实际应用中，网络设备可以将时空姿态特征信息输入至轻量级行为识别网络中，该轻量级行为识别网络中包括多层卷积层和全连接层，可以通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息，然后通过全连接层对每个模态的行为特征信息进行全连接运算，得到人体对应的行为类型预测值，然后获取包括行为识别结果与行为类型预测值之间的映射关系的行为类型映射集合，并根据行为类型映射集合，获取行为类型预测值对应的行为识别结果，该行为识别结果可以为一种具体的行为类型，如跑步、打高尔夫球等等。

由上可知，本申请实施例可以通过网络设备获取视频中的多张视频图像，将获取到的视频图像输入至空间姿态卷积网络中，并基于所述空间姿态卷积网络，提取出所述视频图像中视频对象的多模态姿态特征信息，将所述多模态姿态特征信息输入至时间姿态卷积网络中，并基于所述时间姿态卷积网络，将所述多模态姿态特征信息组合成三维姿态特征信息，基于时间姿态卷积网络，从每个模态的三维姿态特征信息中分别提取出多尺度的时空姿态特征信息，将所述时空姿态特征信息输入至轻量级行为识别网络中，并基于所述轻量级行为识别网络，生成所述视频对象的行为识别结果。该方案可以通过设计姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。通过空间姿态卷积模块和时间姿态卷积模块明确的学习具有强辨别力的姿态特征信息，从而有效提高行为识别的准确性。

为了更好地实施以上方法，本申请实施例还可以提供一种视频对象行为识别装置，该视频对象行为识别装置具体可以集成在网络设备中，该网络设备可以包括服务器、终端等，其中，终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，PersonalComputer)等。

例如，如图13所示，该视频对象行为识别装置可以包括图像获取模块131、特征信息获取模块132、组合模块133、提取模块134和识别模块135，如下：

图像获取模块131，用于获取视频中的多张视频图像；

特征信息获取模块132，用于获取所述视频图像中视频对象的多模态姿态特征信息；

组合模块133，用于根据所述视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息；

提取模块134，用于从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息；

识别模块135，用于基于所述时空姿态特征信息对所述视频图像进行行为识别，得到所述对象的行为识别结果。

在一实施例中，所述特征信息获取模块132可以具体用于：

在一实施例中，所述组合模块133可以具体用于：

在一实施例中，所述提取模块134可以包括多尺度卷积子模块1341和融合子模块1342，如下：

多尺度卷积子模块1341，用于对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息；

融合子模块1342，用于将所述多尺度的时空姿态特征子信息进行融合，得到每个模态对应的时空姿态特征信息。

在一实施例中，所述多尺度卷积子模块1341可以包括卷积子模块13411和空洞卷积子模块13413：

卷积子模块13411，用于对每个模态的三维姿态特征信息进行卷积操作，得到每个模态对应的普通时空姿态特征子信息；

空洞卷积子模块13413，用于对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息。

在一实施例中，所述空洞卷积子模块13413可以具体用于：

在一实施例中，所述识别模块135可以包括输入子模块1351、提取子模块 1352和全连接子模块1353：

输入子模块1351，用于将每个模态的时空姿态特征信息输入轻量级行为识别网络，所述轻量级行为识别网络包括多层卷积层和全连接层；

提取子模块1352，用于通过多层卷积层对每个模态的时空姿态特征信息进行卷积操作，提取出每个模态的行为特征信息；

全连接子模块1353，用于通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述视频对象的行为识别结果。

在一实施例中，所述全连接子模块1353可以具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视频对象行为识别装置可以通过图像获取模块131 获取视频中的多张视频图像，通过特征信息获取模块132获取视频图像中视频对象的多模态姿态特征信息，通过组合模块133根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，通过提取模块134从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，通过识别模块135基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。该方案可以通过设计姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。通过空间姿态卷积模块和时间姿态卷积模块明确的学习具有强辨别力的姿态特征信息，从而有效提高行为识别的准确性。

本申请实施例还提供一种网络设备，该网络设备可以集成本申请实施例所提供的任一种视频对象行为识别装置。

例如，如图14所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器141、一个或一个以上计算机可读存储介质的存储器142、电源143和输入单元144等部件。本领域技术人员可以理解，图14中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器141是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器142内的软件程序和/或模块，以及调用存储在存储器142内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器141可包括一个或多个处理核心；优选的，处理器141可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器141中。

存储器142可用于存储软件程序以及模块，处理器141通过运行存储在存储器142的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器 142可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器142可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器142还可以包括存储器控制器，以提供处理器141对存储器142的访问。

网络设备还包括给各个部件供电的电源143，优选的，电源143可以通过电源管理系统与处理器141逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源143还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元144，该输入单元144可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器141会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器142中，并由处理器141来运行存储在存储器142中的应用程序，从而实现各种功能，如下：

获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例可以获取视频中的多张视频图像，获取视频图像中视频对象的多模态姿态特征信息，根据视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，基于时空姿态特征信息对视频图像进行行为识别，生成视频对象的行为识别结果。该方案可以通过设计姿态-行为三维模型，从而有效的将视频图像中对象的多种姿态模态编码成一致的三维框架，以此形成的三维姿态特征信息可以精准的进行视频图像中对象的行为识别。通过空间姿态卷积模块和时间姿态卷积模块明确的学习具有强辨别力的姿态特征信息，从而有效提高行为识别的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机设备，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频对象行为识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频对象行为识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频对象行为识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频对象行为识别方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频对象行为识别方法，其特征在于，包括：

获取视频中的多张视频图像；

获取所述视频图像中视频对象的多模态姿态特征信息，所述多模态姿态特征信息包括图像特征信息和对象姿态特征信息，所述对象姿态特征信息包括表征视频对象对应不同层次区域的姿态特征信息；

2.根据权利要求1所述的视频对象行为识别方法，其特征在于，获取所述视频图像中视频对象的多模态姿态特征信息，包括：

3.根据权利要求1所述的视频对象行为识别方法，其特征在于，所述根据所述视频图像对应的时间信息，将每个模态的姿态特征信息进行组合，得到每个模态的三维姿态特征信息，包括：

4.根据权利要求1所述的视频对象行为识别方法，其特征在于，从每个模态的三维姿态特征信息中，分别提取出多尺度的时空姿态特征信息，包括：

5.根据权利要求4所述的视频对象行为识别方法，其特征在于，所述多尺度的时空姿态特征子信息包括普通时空姿态特征子信息和扩张时空姿态特征子信息；

对每个模态的三维姿态特征信息分别进行多尺度的卷积操作，得到每个模态对应多尺度的时空姿态特征子信息，包括：

6.根据权利要求5所述的视频对象行为识别方法，其特征在于，对每个模态的三维姿态特征信息进行空洞卷积操作，得到每个模态对应的扩张时空姿态特征子信息，包括：

7.根据权利要求1所述的视频对象行为识别方法，其特征在于，基于所述时空姿态特征信息对所述视频图像进行行为识别，生成所述对象的行为识别结果，包括：

通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述对象的行为识别结果。

8.根据权利要求7所述的视频对象行为识别方法，其特征在于，通过全连接层对每个模态的行为特征信息进行全连接运算，得到所述对象的行为识别结果，包括：

9.一种视频对象行为识别装置，其特征在于，包括：

图像获取模块，用于获取视频中的多张视频图像；

特征信息获取模块，用于获取所述视频图像中视频对象的多模态姿态特征信息，所述多模态姿态特征信息包括图像特征信息和对象姿态特征信息，所述对象姿态特征信息包括表征视频对象对应不同层次区域的姿态特征信息；

10.一种基于神经网络的视频对象行为识别方法，其特征在于，包括：

获取视频中的多张视频图像；

将获取到的视频图像输入至空间姿态卷积网络中，并基于所述空间姿态卷积网络，提取出所述视频图像中视频对象的多模态姿态特征信息，所述多模态姿态特征信息包括图像特征信息和对象姿态特征信息，所述对象姿态特征信息包括表征视频对象对应不同层次区域的姿态特征信息；