CN112270246A

CN112270246A - 视频行为识别方法及装置、存储介质、电子设备

Info

Publication number: CN112270246A
Application number: CN202011147943.9A
Authority: CN
Inventors: 邓玥琳; 刘岩; 李驰; 贾晨; 杨颜如
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26
Anticipated expiration: 2040-10-23
Also published as: CN112270246B

Abstract

本发明实施例是关于一种视频行为识别方法及装置、存储介质、电子设备，涉及视频处理技术领域，该视频行为识别方法包括：对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。本发明实施例提高了行为识别结果的准确率。

Description

视频行为识别方法及装置、存储介质、电子设备

技术领域

本发明实施例涉及视频处理技术领域，具体而言，涉及一种视频行为识别方法、视频行为识别装置、计算机可读存储介质以及电子设备。

背景技术

人体行为识别是一项以目标检测、识别、跟踪为基础的高层次的任务，构建一套鲁棒性好、应用范围广的人体行为识别系统仍极具挑战性。基于计算视觉的人体行为识别研究包含丰富的研究内容，涉及图像处理、计算机视觉、模式识别、人工智能等诸多方面的知识。

当前，主流的视频行为识别算法都是基于深度学习与神经网络的方法。具体的，可以通过基于骨骼点+神经网络的方法对视频中所包括的人的行为进行识别。

但是，上述方法存在如下缺陷：现有的基于骨骼点+神经网络的方法，由于其输入信息仅包括骨骼点的笛卡尔坐标，使得输入的信息与特征不够充分，进而使得识别结果的准确率较低。

因此，需要提供一种新的视频行为识别方法及装置。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种视频行为识别方法、视频行为识别装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的识别结果的准确率较低的问题。

根据本公开的一个方面，提供一种视频行为识别方法，包括：

对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；

根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；

将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；

根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

在本公开的一种示例性实施例中，对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标，包括：

获取所述待识别实时视频流，并基于预设的帧率对所述待识别实时视频流进行解码，得到多个连续的待识别分段图像序列；

提取各所述待识别分段图像序列中的每一帧中所包括的所述待识别对象的骨骼点的笛卡尔坐标。

在本公开的一种示例性实施例中，根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标，包括：

根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标以及纵坐标与极坐标中极点的横坐标以及纵坐标之间的距离，计算所述目标对象的骨骼点的极坐标中的径向坐标；

根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值，计算所述待识别对象的骨骼点的极坐标中的角坐标；

根据所述径向坐标以及所述角坐标，得到所述待识别对象的骨骼点的极坐标。

在本公开的一种示例性实施例中，根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值，计算所述待识别对象的骨骼点的极坐标中的角坐标，包括：

计算所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值；

计算所述第二差值与所述第一差值之间的比值，并根据所述比值的反正切值，得到所述待识别对象的骨骼点的极坐标中的角坐标。

在本公开的一种示例性实施例中，将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型，得到所述待识别对象的行为识别结果，包括：

将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标分别输入至所述双流时空卷积网络中所包括的第一时空卷积网络以及第二时空卷积网络，得到第一预测结果以及第二预测结果；

对所述第一预测结果以及第二预测结果进行加权求和，得到所述待识别对象的行为识别结果。

在本公开的一种示例性实施例中，所述视频行为识别方法还包括：

获取历史视频数据集，并对所述历史视频数据集进行视频解码以及分段，得到多个连续的标准分段图像序列；

提取各所述标准分段图像序列中的每一帧中所包括的目标对象的骨骼点的笛卡尔坐标，并根据所述目标对象的骨骼点的笛卡尔坐标计算所述目标对象的骨骼点的极坐标；

利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型。

在本公开的一种示例性实施例中，所述双流时空卷积网络包括第一时空卷积网络以及第二时空卷积网络；

其中，利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型，包括：

分别利用所述第一时空卷积网络以及第二时空卷积网络的第一批归一化层以及第二批归一化层对所述目标对象的骨骼点的笛卡尔坐标以及所述目标对象的骨骼点的极坐标进行归一化处理；

分别利用所述第一时空卷积网络以及第二时空卷积网络的第一时空图卷积层以及第二时空图卷积层对归一化处理后的目标对象的骨骼点的笛卡尔坐标以及目标对象的骨骼点的极坐标进行卷积处理，得到所述目标对象的第一局部特征以及第二局部特征；

分别利用所述第一时空卷积网络以及第二时空卷积网络的第一全局平均池化层以及第二全局平均池化层对所述第一局部特征以及第二局部特征进行压缩处理；

分别利用所述第一时空卷积网络以及第二时空卷积网络的第一全连接层以及第二全连接层对压缩处理后的第一局部特征以及第二局部特征进行加权求和，得到第三预测结果以及第四预测结果；

对所述第三预测结果以及第四预测结果进行加权求和，得到所述目标对象的行为预测结果，并根据所述目标对象的行为预测结果以及所述目标对象所属的行为类别构建损失函数；

基于所述损失函数对所述双流时空卷积网络中所包括的参数进行调整，得到所述预设的行为识别模型。

在本公开的一种示例性实施例中，利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型，包括：

根据预设的公开数据集对所述双流时空卷积网络进行预训练，得到所述双流时空卷积网络中所包括的初始化参数；

利用所述初始化参数、所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型。

根据本公开的一个方面，提供一种视频行为识别装置，包括：

第一坐标计算模块，用于对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；

第二坐标计算模块，用于根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；

行为识别模块，用于将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；

提示信息生成模块，用于根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的视频行为识别方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的视频行为识别方法。

本发明实施例提供的一种视频行为识别方法，一方面，通过对待识别实时视频流进行解码以及分段，得到待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；并根据待识别对象的骨骼点的笛卡尔坐标，计算待识别对象的骨骼点的极坐标；再将将待识别对象的骨骼点的笛卡尔坐标以及待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到待识别对象的行为识别结果；解决了现有技术中由于输入信息仅包括骨骼点的笛卡尔坐标，使得输入的信息与特征不够充分，进而使得识别结果的准确率较低的问题；另一方面，由于预设的行为识别模型是通过对双流时空卷积网络进行训练得到的，进而可以同时在时间上以及空间上对待识别对象的行为进行识别以及预测，提高了待识别对象的行为识别结果的准确率；再一方面，通过根据待识别对象的行为识别结果，生成与待识别对象对应的报警提示信息，使得待识别对象(人)可以及时的被救治，减少了事故的发生率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出根据本发明示例实施例的一种视频行为识别方法的流程图。

图2示意性示出根据本发明示例实施例的一种预设的行为识别模型的结构示例图。

图3示意性示出根据本发明示例实施例的一种双流时空卷积网络的结构示例图。

图4示意性示出根据本发明示例实施例的另一种视频行为识别方法的流程图。

图5意性示出根据本发明示例实施例的一种根据待识别对象的骨骼点的笛卡尔坐标，计算待识别对象的骨骼点的极坐标的方法流程图。

图6示意性示出根据本发明示例实施例的另一种视频行为识别方法的流程图。

图7示意性示出根据本发明示例实施例的一种图像序列的示例图。

图8示意性示出根据本发明示例实施例的一种基于Openpose所提取的人体骨骼点的笛卡尔坐标的示例图。

图9(a)示意性示出根据本发明示例实施例的一种在笛卡尔坐标系下，人体骨骼点的具体分布示例图。

图9(b)示意性示出根据本发明示例实施例的一种根据笛卡尔坐标所计算得到的极坐标下，人体骨骼点的具体分布示例图。

图10示意性示出根据本发明示例实施例的一种视频行为识别装置的框图。

图11示意性示出根据本发明示例实施例的一种用于实现上述视频行为识别方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种视频行为识别方法，该方法可以运行于服务器、服务器集群或云服务器以及终端的计算芯片等；当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。其中，以该方法运行在服务器为例，该服务器可以通过不同的接口为不同的业务场景提供请求服务。参考图1所示，该视频行为识别方法可以包括以下步骤：

步骤S110.对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；

步骤S120.根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；

步骤S130.将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；

步骤S140.根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

上述视频行为识别方法中，一方面，通过对待识别实时视频流进行解码以及分段，得到待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；并根据待识别对象的骨骼点的笛卡尔坐标，计算待识别对象的骨骼点的极坐标；再将将待识别对象的骨骼点的笛卡尔坐标以及待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到待识别对象的行为识别结果；解决了现有技术中由于输入信息仅包括骨骼点的笛卡尔坐标，使得输入的信息与特征不够充分，进而使得识别结果的准确率较低的问题；另一方面，由于预设的行为识别模型是通过对双流时空卷积网络进行训练得到的，进而可以同时在时间上以及空间上对待识别对象的行为进行识别以及预测，提高了待识别对象的行为识别结果的准确率；再一方面，通过根据待识别对象的行为识别结果，生成与待识别对象对应的报警提示信息，使得待识别对象(人)可以及时的被救治，减少了事故的发生率。

以下，将结合附图对本发明示例实施例视频行为识别方法中涉及的各步骤进行详细的解释以及说明。

首先，对本发明示例实施例的应用场景以及发明目的进行解释以及说明。

具体的，本发明示例实施例可以应用于智能视频分析平台中涉及基于骨骼的行为识别任务模块，如：跌倒检测等；具体的业务场景包括但不限于养老社区监护、智能楼宇监控以及智能视觉交互等。同时，本发明示例实施例聚焦于养老、大健康、金融业务需要高精度的自动化行为识别和处理场景，主要解决现有技术方案中的行为识别结果的准确率不足的问题，以提升自动化行为识别的系统性能与自动化处理任务的占比。通过实时准确地给出行为识别的预测结果，以便业务系统快速执行相应的处理方案。

其次，对于本发明示例实施例相关的视频行为识别技术进行解释以及说明。

具体的，目前主流的视频行为识别算法都是基于深度学习与神经网络的方法，按照利用的模态与方法划分，主要有以下几大类方法：

1)基于2D卷积神经网络+循环神经网络的方法，比较有代表性的方法有：LRCN(Long-term Recurrent Convolutional Networks，长时递归卷积网络)等；

2)基于2D卷积神经网络+光流的方法，比较有代表性的方法有：TSN(TemporalSegment Networks，时间段网络)等；

3)基于3D卷积神经网络的方法，比较有代表性的方法有：C3D(Convolutional 3D，基于3D的卷积神经网络)以及I3D(Inflated 3D，基于3D的膨胀卷积网络)等；

4)基于骨骼点+神经网络的方法，比较有代表性的方法有：ST-GCN(SpatialTemporal Graph Convolutional Networks，时空图卷积网络)等。

由于业务所需的行为识别均是以人为主体和中心的，所以骨骼点+神经网络的方法具备更强的鲁棒性。而在所有基于骨骼点+神经网络的方法中，骨骼点+时空图卷积网络的方法，相比骨骼点+卷积神经网络和骨骼点+循环神经网络的方法，能更好地利用骨骼的非欧式拓扑结构特征，在实践中具备相对较好的效果。其中，最具代表性的方法是ST-GCN方法，但是由于ST-GCN方法的输入仅包含骨骼点的笛卡尔坐标，信息与特征不够丰富，对最终的准确率提升有限。

进一步的，由于真实的业务场景对算法有较高的准确率要求，为了使现有的技术能更好地应用，本发明示例实施例在上述ST-GCN的基础上，提出融合了骨骼点笛卡尔坐标和极坐标的双流时空图卷积神经网络架构。作为一种经典的空间建模方法，极坐标表述蕴含空间位置和运动变化上的特殊信息，尤其是在一些径向和轴向变化比较剧烈的动作上，特征尤其明显，如：跌倒、挥手等。因此，将极坐标特征引入与笛卡尔坐标融合形成双流架构，可以增强和补充单流架构的识别能力，使最终预测的准确率得到提升。

进一步的，对本发明示例实施例中所涉及到的预设的行为识别模型进行解释以及说明。具体的，参考图2所示，该预设的行为识别模型可以包括双流时空卷积网络，该双流时空卷积网络可以包括第一时空卷积网络210以及第二时空卷积网络220，该预设的行为识别模型还包括softmax层230。其中，第一时空卷积网络以及第二时空卷积网络分别与归一化层连接。同时，第一时空卷积网络以及第二时空卷积网络用于根据骨骼点的笛卡尔坐标以及骨骼点的极坐标进行行为识别，得到两个预测结果；softmax层用于根据两个预测结果得到最终的行为识别结果。

进一步的，参考图3所示，第一时空卷积网络210可以包括第一批归一化层301、多个第一时空图卷积层302、第一全局平均池化层303以及第一全连接层304；其中，第一批归一化层、多个第一时空图卷积层(例如可以为9个)、第一全局平均池化层以及第一全连接层依次连接，每一个第一时空图卷积层中分别包括一个第一空间图卷积网络层3021以及一个第一时间图卷积网络层3022，然后将第一空间图卷积网络层所得到的卷积结果以及第一时间图卷积网络层所得到的卷积结果进行求和，进而得到该第一时空图卷积层的卷积结果。并且，每一个第一时空图卷积层上均有残差机制以及注意力机制，基于此，可以进一步的提高所得到的卷积结果的准确性，进而提高预测结果的准确性。

同理，第二时空卷积网络220可以包括第二批归一化层305、多个第二时空图卷积层306、第二全局平均池化层307以及第二全连接层308，每一个第二时空图卷积层中分别包括一个第二空间图卷积网络层3061以及一个第二时间图卷积网络层3062其具体的连接方式以及作用与上述第一时空卷积网络类似，此处不再一一赘述。

同时，第一批归一化层以及第二批归一化层用于对骨骼点的笛卡尔坐标以及骨骼点的极坐标进行归一化处理；第一时空图卷积层以及第二时空图卷积层用于对归一化处理后的骨骼点的笛卡尔坐标以及骨骼点的极坐标进行卷积处理，得到第一局部特征以及第二局部特征；第一全局平均池化层以及第二全局平均池化层用于对第一局部特征以及第二局部特征进行压缩处理；第一全连接层以及第二全连接层用于对压缩处理后的第一局部特征以及第二局部特征进行加权求和，得到第三预测结果以及第四预测结果。

此处需要进一步补充说明的是，该双流时空卷积网络的输入也不限于笛卡尔坐标和极坐标，也可以包括其他坐标，例如三维坐标或者柱坐标等等，本示例对此不做特殊限制；同时，时空卷积网络也可以从双流扩展为多流。

以下，将结合上述图2以及图3对预设的行为识别模型的具体训练过程进行解释以及说明。具体的，参考图4所示，该视频行为识别方法还可以包括步骤S410-步骤S430。其中：

在步骤S410中，获取历史视频数据集，并对所述历史视频数据集进行视频解码以及分段，得到多个连续的标准分段图像序列。

具体的，可以从数据库中获取自行采集的历史视频数据，并对其进行视频解码以及分段，得到多个连续的标准分段图像序列；在此基础上，还需要通过人工对每个标准分段图像序列进行标注，得到各标准分段图像所属的行为类别。

在步骤S420中，提取各所述标准分段图像序列中的每一帧中所包括的目标对象的骨骼点的笛卡尔坐标，并根据所述目标对象的骨骼点的笛卡尔坐标计算所述目标对象的骨骼点的极坐标。

在本示例实施例中，通过OpenPose提取各标准分段图像序列中每一帧所包括的目标对象的骨骼点的笛卡尔坐标；然后，再根据目标对象的骨骼点的笛卡尔坐标计算目标对象的骨骼点的极坐标，具体的计算方法可以如下公式(1)所示：

其中，r_ti是径向坐标，表示与极点(x_tp,y_tp)的距离，其中，(x_tp,y_tp)表示极坐标的原点，θ_ti是角坐标，表示与水平方向的夹角；x_ti以及y_ti表示一个骨骼节点v_ti的在笛卡尔坐标系中的横坐标以及纵坐标。

在步骤S430中，利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型。

具体的，首先，分别利用所述第一时空卷积网络以及第二时空卷积网络的第一批归一化层以及第二批归一化层对所述目标对象的骨骼点的笛卡尔坐标以及所述目标对象的骨骼点的极坐标进行归一化处理；其次，分别利用所述第一时空卷积网络以及第二时空卷积网络的第一时空图卷积层以及第二时空图卷积层对归一化处理后的目标对象的骨骼点的笛卡尔坐标以及目标对象的骨骼点的极坐标进行卷积处理，得到所述目标对象的第一局部特征以及第二局部特征；紧接着，分别利用所述第一时空卷积网络以及第二时空卷积网络的第一全局平均池化层以及第二全局平均池化层对所述第一局部特征以及第二局部特征进行压缩处理；然后，分别利用所述第一时空卷积网络以及第二时空卷积网络的第一全连接层以及第二全连接层对压缩处理后的第一局部特征以及第二局部特征进行加权求和，得到第三预测结果以及第四预测结果；进一步的，对所述第三预测结果以及第四预测结果进行加权求和，得到所述目标对象的行为预测结果，并根据所述目标对象的行为预测结果以及所述目标对象所属的行为类别构建损失函数；最后，基于所述损失函数对所述双流时空卷积网络中所包括的参数进行调整，得到所述预设的行为识别模型。

此处需要补充说明的是，上述损失函数可以是常见的分类问题中所运用的损失函数，例如可以是交叉熵损失、指数损失函数以及负对数似然损失函数等等，本示例对此不做特殊限制。同时，在得到目标对象的骨骼点的笛卡尔坐标以及目标对象的骨骼点的极坐标以后，为了避免数据量过少的问题，还可以对目标对象的骨骼点的笛卡尔坐标以及目标对象的骨骼点的极坐标进行数据增强，具体的数据增强方法可以包括：翻转、旋转、比例缩放、裁剪、移位以及高斯噪声等等，本示例对此不做特殊限制。具体的数据增强过程可以基于上述数据增强方法采用现有技术进行实现，因此不再一一赘述。

另外，由于第一时空图卷积层以及第二时空图卷积层分别包括了第一时间图卷积层、第一空间图卷积层、第二时间图卷积层以及第二空间图卷积层，因此可以分别从时间上以及空间上对骨骼点的笛卡尔坐标以及骨骼点的极坐标进行卷积处理，进而得到卷积结果。通过该方法，可以进一步的提高模型的准确率。

进一步的，为了可以进一步的提高上述预设的分类模型的准确率，还可以在模型的训练中引入预训练模型。具体的，可以根据预设的公开数据集对所述双流时空卷积网络进行预训练，得到所述双流时空卷积网络中所包括的初始化参数。

举例来说，对于公开数据集，需要筛选满足一定类别条件的公开数据集，对公开数据集中骨骼点维度和骨骼位置和拓扑关系按照OpenPose的18个骨骼点进行转化和对齐(提取骨骼点的笛卡尔坐标)，然后根据骨骼点的笛卡尔坐标计算骨骼点的极坐标特征；再将骨骼点的笛卡尔坐标以及骨骼点的极坐标分别输入至第一时空卷积网络以及第二时空卷积网络进行训练(具体的训练过程与上述训练过程一致，此处不再赘述)，得到预训练模型(也即得到初始化模型参数)。

同时，当得到上述初始化参数以后，可以利用所述初始化参数、所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型。通过该方法，可以加快模型的训练速度，同时还可以进一步的提高模型的准确率。

以下，将对步骤S110-步骤S140进行解释以及说明。

在步骤S110中，对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标。

在本示例实施例中，首先，获取所述待识别实时视频流，并基于预设的帧率对所述待识别实时视频流进行解码，得到多个连续的待识别分段图像序列；其次，提取各所述待识别分段图像序列中的每一帧中所包括的所述待识别对象的骨骼点的笛卡尔坐标。

具体的，首先，可以从数据库中获取待识别实时视频流(该待识别实时视频流可以是通过各处设置的摄像头通过拍摄与该摄像头对应的区域的实时画面产生的)，然后对该待识别实时视频流按照预设的帧率FPS进行解码抽帧，按照T帧为一个分段，将视频转换为连续的待识别分段图像序列，每个待识别分段图像序列中包含T帧图像；其中，该预设的帧率可以是30FPS，也可以是其他帧率，本示例对此不做特殊限制。

其次，当得到上述待识别分段图像序列以后，在每一个分段图像序列中，用OpenPose方法提取每一帧的骨骼点笛卡尔坐标，每一个分段提取不超过2个人的骨骼序列，每一个人体包含18个骨骼点。例如，可以用v_ti表示分段中第t帧第i个骨骼节点，则一个人体骨骼序列在该视频分段中可以表示为：

V＝{v_ti|t＝1,K,T,i＝1,K,N}；其中，N＝18。

在步骤S120中，根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标。

在本示例实施例中，参考图5所示，根据待识别对象的骨骼点的笛卡尔坐标，计算待识别对象的骨骼点的极坐标可以包括步骤S510-步骤S530。其中：

在步骤S510中，根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标以及纵坐标与极坐标中极点的横坐标以及纵坐标之间的距离，计算所述目标对象的骨骼点的极坐标中的径向坐标。

在步骤S520中，根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值，计算所述待识别对象的骨骼点的极坐标中的角坐标。

在本示例实施例中，首先，计算所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值；其次，计算所述第二差值与所述第一差值之间的比值，并根据所述比值的反正切值，得到所述待识别对象的骨骼点的极坐标中的角坐标。

在步骤S530中，根据所述径向坐标以及所述角坐标，得到所述待识别对象的骨骼点的极坐标。

以下，将对步骤S510-步骤S530进行解释以及说明。具体的，在笛卡尔坐标系中，一个骨骼节点v_ti在笛卡尔坐标系中的二维坐标可以表示为(x_ti,y_ti)。同样，在极坐标中，一个骨骼节点v_ti的二维坐标可以表示为(r_ti,θ_ti)。其中，r_ti是径向坐标，表示与极点(x_tp,y_tp)的距离，其中，(x_tp,y_tp)表示极坐标的原点，θ_ti是角坐标，表示与水平方向的夹角。其中，极坐标可以用笛卡尔坐标表示为：

同样的，笛卡尔坐标可以用极坐标表示为：

通过该方法，使得人体空间位置和运动变化上的信息和特征可以得到增强与补充，进而可以进一步的提高预测结果的准确率。

在步骤S130中，将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的。

在本示例实施例中，首先，将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标分别输入至所述双流时空卷积网络中所包括的第一时空卷积网络以及第二时空卷积网络，得到第一预测结果以及第二预测结果；其次，对所述第一预测结果以及第二预测结果进行加权求和，得到所述待识别对象的行为识别结果。

具体的，将待识别对象的笛卡尔坐标系骨骼点序列和极坐标系骨骼点序列分别输入两个网络，进而得到第一预测结果以及第二预测结果，具体的计算过程与前述在训练过程中的计算过程一致，此处不再赘述。进一步的，两个网络的输出通过加权平均后经过一个Softmax层，从而得到最终的行为识别结果，如下公式(2)所示：

z_cp＝softmax(w_cz_c+w_pz_p)；公式(2)

其中，z_cp为行为识别结果，z_c表示待识别对象的骨骼点的笛卡尔坐标对应的第一预测结果，z_p表示待识别对象的骨骼点的极坐标对应的第二预测结果；w_c以及w_p分别表示骨骼点的笛卡尔坐标以及骨骼点的极坐标的权重，可以根据实际需要进行设置，同时有：w_c+w_p＝1。

在步骤S140中，根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

具体的，通过根据待识别对象的行为识别结果，生成与待识别对象对应的报警提示信息，使得待识别对象(人，尤其是老是)可以及时的被救治，减少了事故的发生率。

以下，用办公楼宇的监控视频作为数据，以该方法应用于智能视频监控-跌倒检测为例，对本发明示例实施例的视频行为识别方法进行解释以及说明。具体的，参考图6所示，该视频行为识别方法可以包括以下步骤：

步骤S610，获取视频流，并对视频进行按照指定的帧率FPS＝30进行解码抽帧，按照150帧(即5秒)为一个分段，将视频转换为连续的分段图像序列，每个序列中包含150帧图像，具体得到的图像序列可以参考图7所示。

步骤S620，在每一个分段图像序列中，用OpenPose提取每一帧的骨骼点笛卡尔坐标，每一个分段提取不超过2个人的骨骼序列，每一个人体包含18个骨骼点，具体可以参考图8所示。

步骤S630，计算骨骼点极坐标，得到每一个骨骼序列的极坐标，具体可以参考图9所示；其中，图9(a)为根据在笛卡尔坐标系下，骨骼点的具体分布，图9(b)为根据笛卡尔坐标所计算得到的极坐标下，骨骼点的具体分布。

步骤S640，将笛卡尔坐标系骨骼点序列和极坐标系骨骼点序列分别输入双流网络，输出通过加权平均后经过一个Softmax层，得到最终的行为识别结果，类别为跌倒。

进一步的，在办公楼宇日常监控环境中收集百级日常行为和跌倒行为视频片段作为技术方案的评估测试集合，分别用行为类别的准确率(Accuracy)和跌倒行为的F1作为技术评估指标，在不同的数据集划分方式下(X-Sub和X-View)，本发明示例实施例的各项指标均高于基准方案，具体可以如下表1所示：

表1

基于此可以毫无疑问的得出，由本发明提案带来的技术效果提升，使得应用系统在实践中具备更高的准确率，从而使得更多的跌倒行为能够被及时报警和发现，减少事故的发生。进而在养老/大健康监护系统中，可及时准确预测养老社区中存在的风险行为，如：跌倒、老人被虐等，以便老人能及时得到医疗救护，减少老人发生危险和事故的概率；在智能人机交互系统中，可以识别人体交互行为，无接触式执行特定指令，使人机交互更加智能化；在保险双录质检系统中，可以识别特定质检规定行为，实现自动审核，提升业务效率，减少人工成本。

本发明示例实施例还提供了一种视频行为识别装置。参考图10所示，该视频行为识别装置可以包括第一坐标计算模块1010、第二坐标计算模块1020、行为识别模块1030以及提示信息生成模块1040。其中：

第一坐标计算模块1010可以用于对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；

第二坐标计算模块1020可以用于根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；

行为识别模块1030可以用于将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；

提示信息生成模块1040可以用于根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

在本公开的一种示例性实施例中，所述视频行为识别装置还包括：

数据获取模块，可以用于获取历史视频数据集，并对所述历史视频数据集进行视频解码以及分段，得到多个连续的标准分段图像序列；

第三坐标计算模块，可以用于提取各所述标准分段图像序列中的每一帧中所包括的目标对象的骨骼点的笛卡尔坐标，并根据所述目标对象的骨骼点的笛卡尔坐标计算所述目标对象的骨骼点的极坐标；

模型训练模块，可以用于利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型。

上述视频行为识别装置中各模块的具体细节已经在对应的视频行为识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图11来描述根据本发明的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130以及显示单元1140。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1110执行，使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1110可以执行如图1中所示的步骤S110：对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标；步骤S120：根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标；步骤S130：将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型中，得到所述待识别对象的行为识别结果；其中，所述预设的行为识别模型是通过对双流时空卷积网络进行训练得到的；步骤S140：根据所述待识别对象的行为识别结果，生成与所述待识别对象对应的报警提示信息。

存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203。

存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204，这样的程序模块11205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种视频行为识别方法，其特征在于，包括：

2.根据权利要求1所述的视频行为识别方法，其特征在于，对待识别实时视频流进行解码以及分段，得到所述待识别实时视频流中所包括的待识别对象的骨骼点的笛卡尔坐标，包括：

3.根据权利要求1所述的视频行为识别方法，其特征在于，根据所述待识别对象的骨骼点的笛卡尔坐标，计算所述待识别对象的骨骼点的极坐标，包括：

4.根据权利要求3所述的视频行为识别方法，其特征在于，根据所述待识别对象的骨骼点的笛卡尔坐标中的横坐标与极坐标中极点的横坐标之间的第一差值，以及所述待识别对象的骨骼点的笛卡尔坐标中的纵坐标与极坐标中极点的纵坐标之间的第二差值，计算所述待识别对象的骨骼点的极坐标中的角坐标，包括：

5.根据权利要求1所述的视频行为识别方法，其特征在于，将所述待识别对象的骨骼点的笛卡尔坐标以及所述待识别对象的骨骼点的极坐标输入至预设的行为识别模型，得到所述待识别对象的行为识别结果，包括：

6.根据权利要求1所述的视频行为识别方法，其特征在于，所述视频行为识别方法还包括：

7.根据权利要求6所述的视频行为识别方法，其特征在于，所述双流时空卷积网络包括第一时空卷积网络以及第二时空卷积网络；

8.根据权利要求6所述的视频行为识别方法，其特征在于，利用所述目标对象的骨骼点的笛卡尔坐标、所述目标对象的骨骼点的极坐标以及所述目标对象所属的行为类别，对双流时空卷积网络进行训练得到所述预设的行为识别模型，包括：

9.一种视频行为识别装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的视频行为识别方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的视频行为识别方法。