CN115761885B

CN115761885B - 一种共时与跨域异步融合驱动的行为识别方法

Info

Publication number: CN115761885B
Application number: CN202211433310.3A
Authority: CN
Inventors: 郭方泰; 朱世强; 宋伟; 张格格; 钱金菊; 穆宗昊; 孟森森
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-08-29
Anticipated expiration: 2042-11-16
Also published as: CN115761885A

Abstract

一种共时与跨域异步融合驱动的行为识别方法，包括：获取多人人体彩色图像作为图像序列；从截取图像中估计二维人体姿态，计算二维人体姿态的关键点热图作为姿态序列；建立表观网络，以图像序列作为输入并提取图像特征；同时，建立姿态网络，以姿态序列作为输入并提取姿态特征；以图像特征和姿态特征作为输入，将图像特征和姿态特征进行缩放、对齐和融合；将融合后的图像特征和姿态特征归一化，拼接归一化后的双流特征得到全局特征，输入到分类器中求解概率最大的行为类别；采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集，对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。

Description

一种共时与跨域异步融合驱动的行为识别方法

技术领域

本发明涉及计算机视觉和机器人领域，尤其涉及了一种共时与跨域异步融合驱动的行为识别方法，通过设计共时缩放单元和跨域融合单元，分别在时间和空间维度对图像与姿态特征进行缩放并融合，提高了行为识别的通用性，可以应用于服务机器人领域对人体动作意图的识别和理解。

背景技术

人体行为识别技术作为人机交互领域的核心驱动引擎，可以辅助机器人通过视觉感知交互发起人的肢体动作，来理解交互发起人的交互意图与交互指令。随着深度学习与视觉感知技术的迅猛发展，人体行为识别方法在VR/AR体感交互、机器人遥操作和无人驾驶等领域，拥有越发广泛的应用前景。人们常见的交互动作不仅人体自身运动有关，例如“挥手”、“站立”和“看向”等独立动作，而且与场景物体的类别有关，例如“取下帽子”、“摘掉眼镜”和“端起杯子”等场景动作。图像中的物体纹理、颜色和类别信息，一方面对于识别场景动作是必不可少的，另一方面却是干扰独立动作识别的额外噪声。现有基于单一图像或人体姿态的行为识别解决方案，因无法兼顾场景动作和独立动作的通用识别，导致无法识别人们向机器人发出的跨场景动作指令。由此可见，研发图像与人体姿态的高效特征融合方式，有助于进一步推动跨场景通用人体行为识别技术的发展。

发明内容

本发明实施例的目的是提供一种共时与跨域异步融合驱动的行为识别方法，以解决现有行为识别解决方案无法兼顾场景动作和独立动作的通用识别的问题。

为达到上述目的，本发明的一种共时与跨域异步融合驱动的行为识别方法，通过一下技术方案来实现的：

步骤S101，获取多人人体彩色图像作为图像序列；

步骤S102，采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框，采用二维人体姿态估计网络从截取图像中估计二维人体姿态，计算二维人体姿态的关键点热图作为姿态序列；

步骤S103，建立表观网络，以图像序列作为输入并提取图像特征；同时，建立姿态网络，以姿态序列作为输入并提取姿态特征；

步骤S104，采用共时与跨域异步融合的策略，搭建共时缩放单元和跨域融合单元，以图像特征和姿态特征作为输入，将图像特征和姿态特征进行缩放、对齐和融合；

步骤S105，采用全局池化层将融合后的图像特征和姿态特征归一化，拼接归一化后的双流特征得到全局特征，输入到分类器中求解概率最大的行为类别；

步骤S106，采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集，对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。

所述多人人体彩色图像应尽量捕捉到人体的全身姿态，将机器人身上的彩色相机安装到距离地面1.7m的高度位置，调整拍摄角度获取优质图像。

所述目标检测网络和二维人体姿态估计网络均采用轻量化可实时运行的开源预训练模型；

所述目标检测网络从彩色图像中检测出“人”的类别置信度c_j及其二维人体包围框(u₁,v₁,u₂,v₂)，当人体类别置信度c_j≥0.5时，从图像中剪裁出(u₁,v₁,u₂,v₂)作为局部图像；

所述二维人体姿态估计网络从局部图像中计算出二维人体关键点，可由相机坐标系下人体的右脚、右肩、左肘、右肘等14个关键关节的二维坐标组成，记作c_j为置信度，ξ为每个人的关节总数，第t帧彩色图像的总人数为ρ，p∈{1,ρ}为图像第p个人；

所述关键点热图将二维人体关键点重构成类似图像的模态，可选择高斯分布函数作为基函数，第t帧第j个关键点热图可以计算如下：

式中，σ＝0.5为高斯分布的标准差，第t帧彩色图像中有关第j个关节(x_j,y_j)的热图分布；通过将每一帧图像中的每一个关节热图拼接，姿态序列记作H_P和W_P分别表示高度和宽度，T为采样帧数。

所述图像序列将T帧图像拼接为四维张量，图像序列记作

所述表观网络与姿态网络由二维卷积神经网络构建，均采用开源的ResNet-50作为网络结构，表观网络提取的图像特征为为图像特征的通道维度，和/>分别表示高度和宽度；同样的，姿态网络提取的姿态特征可记作

所述共时与跨域异步融合包括共时缩放单元和跨域融合单元，对于双流特征采用的异步融合策略：在时间维度上进行缩放、在空间维度上进行叠加，满足了图像特征与姿态特征在时间上共享节奏、在空间上互补特征的基本原则；

所述共时缩放单元以图像特征和姿态特征作为输入，采用空间池化对输入的空间尺寸大小归一化，归一化后的图像特征记作归一化后的姿态特征记作设计编码器和解码器，对图像特征和姿态特征在时间维度上进行编码：

式中，表示时序共享特征，通过编码器Co-encoder(*)提取；和/>表示图像特征和姿态特征的缩放系数，分别通过解码器Decoder_A(*)和Decoder_P(*)提取；编码器由二维卷积层、批正则层和ReLu激活函数组成，解码器由二维卷积层、批正则层和Sigmoid激活函数组成；因此，共时缩放单元的输出可表示如下：

式中，和/>分别表示缩放后的图像特征和姿态特征；

所述跨域融合单元以缩放后的图像特征和姿态特征/>为输入，采用通道池化对输入的特征维度进行归一化，归一化后的图像特征记作/>归一化后的姿态特征记作/>通过跨域交叉的方式分别求解图像和姿态特征的门控权重：

式中，和/>分别表示图像和姿态的门控权重；CGB_A(*)和CGB_P(*)表示卷积门控网络，由二维卷积层、批正则层和Sigmoid激活函数组成。因此，跨域融合单元的输出可表示如下：

式中，和/>分别表示跨域融合后的图像特征和姿态特征；CAB_A(*)和CAB_P(*)表示卷积对齐网络，由二维卷积层、批正则层和ReLu激活函数组成。

所述全局池化层可将输入的空间尺寸归一化，可得到归一化的图像特征和姿态特征/>

所述拼接方法将和/>沿着第二维度进行叠加，得到的全局特征记作

所述分类器由全连接网络层和Softmax层构成，以全局特征作为输入，输出行为类别得分；其输出维度与行为类别的数量一致并从中挑选出得分最高的类别作为识别结果。

所述采集的多人人体彩色图像序列，应包括不同交互任务、不同场景和不同类别的常见动作集，如戴眼镜、穿衣服、拿杯子等不低于20个，采集的各类别动作样本量不低于3000个；

所述训练数据集对不同时长的动作序列长度进行标准化，并行为序列中均匀采样出16帧作为样本，行为类别采用One-hot编码作为标签；

所述预训练优化采用标准交叉熵损失函数评估：

式中，p_c,n和动作类别得分的真实值和预测值，N为训练样本数量，C为动作类别数量；表观网络、姿态网络、共时缩放单元和跨域融合单元的训练顺序为：(1)以图像序列为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练图像网络的权重；(2)以姿态序列/>为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练姿态网络的权重；(3)根据第(1)和第(2)初始化图像网络和姿态网络，同时以图像序列和姿态序列为输入，以行为类别为标签，联合图像网络、姿态网络、共时缩放单元和跨域融合单元进行微调训练；

本发明还包括一种共时与跨域异步融合驱动的行为识别装置，包括：

人体彩色图像获取模块，用于获取多人人体彩色图像作为图像序列；

人体图像序列计算模块，用于采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框，采用二维人体姿态估计网络从截取图像中估计二维人体姿态，计算二维人体姿态的关键点热图作为姿态序列；

图像特征和姿态特征提取模块，用于建立表观网络，以图像序列作为输入并提取图像特征；同时，建立姿态网络，以姿态序列作为输入并提取姿态特征；

图像特征和姿态特征处理模块，用于采用共时与跨域异步融合的策略，搭建共时缩放单元和跨域融合单元，以图像特征和姿态特征作为输入，将图像特征和姿态特征进行缩放、对齐和融合；

行为类别求解模块，用于采用全局池化层将融合后的图像特征和姿态特征归一化，拼接归一化后的双流特征得到全局特征，输入到分类器中求解概率最大的行为类别；

预训练优化模块，采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集，对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。

本发明还包括一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种共时与跨域异步融合驱动的行为识别方法。

本发明的有益效果是：

本发明具有良好的稳定性和通用性，针对现有行为识别解决方案无法兼顾场景动作和独立动作的问题，通过设计共时缩放单元和跨域融合单元，分别在时间和空间维度对图像与姿态特征进行缩放并融合，增强了场景信息和人体动作的全局表征，减少了人体行为在跨场景交互中的模糊性，提高了行为识别的通用性，可以应用于服务机器人领域对人体动作意图的识别和理解

附图说明

图1是本发明的第一人称视角下多人人体彩色图像采集示意图；

图2是人体姿态拓扑及其各个关键关节的示意图；

图3是共时与跨域异步融合驱动的行为识别框架示意图；

图4是共时缩放单元与跨域融合单元的结构示意图；

图5是行为识别的流程图；

图6是本发明装置的结构示意图。

具体实施方式

本发明提出了一种共时与跨域异步融合驱动的行为识别方法，为了使本发明的目的、技术方法及方案更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权力要求定义的本发明的精髓和范围做的替代、修改、等效方法以及方案。进一步，为了使公众对于本发明有更好的了解，在下文对本发明的细节描述中，详见描述了一些特定的细节部分。

一种共时与跨域异步融合驱动的行为识别方法，具体可以包括以下步骤：

步骤S101，获取多人人体彩色图像作为图像序列；

如图1所示，所述多人人体彩色图像应尽量捕捉到人体的全身姿态，将机器人身上的彩色相机安装到距离地面1.7m的高度位置，调整拍摄角度获取优质图像。

如图2所示，所述二维人体姿态估计网络从局部图像中计算出二维人体关键点，可由相机坐标系下人体的右脚、右肩、左肘、右肘等14个关键关节的二维坐标组成，记作c_j为置信度，ξ为每个人的关节总数，第t帧彩色图像的总人数为ρ，p∈{1,ρ}为图像第p个人；

所述图像序列将T帧图像拼接为四维张量，图像序列记作

如图3所示，所述表观网络与姿态网络由二维卷积神经网络构建，均采用开源的ResNet-50作为网络结构，表观网络提取的图像特征为为图像特征的通道维度，/>和/>分别表示高度和宽度；同样的，姿态网络提取的姿态特征可记作

如图4所示，所述共时与跨域异步融合包括共时缩放单元和跨域融合单元，对于双流特征采用的异步融合策略：在时间维度上进行缩放、在空间维度上进行叠加，满足了图像特征与姿态特征在时间上共享节奏、在空间上互补特征的基本原则；

如图4所示，所述共时缩放单元以图像特征和姿态特征作为输入，采用空间池化对输入的空间尺寸大小归一化，归一化后的图像特征记作归一化后的姿态特征记作/>设计编码器和解码器，对图像特征和姿态特征在时间维度上进行编码：

式中，和/>分别表示缩放后的图像特征和姿态特征；

如图4所示，所述跨域融合单元以缩放后的图像特征和姿态特征/>为输入，采用通道池化对输入的特征维度进行归一化，归一化后的图像特征记作/>归一化后的姿态特征记作/>通过跨域交叉的方式分别求解图像和姿态特征的门控权重：

如图3所示，所述全局池化层可将输入的空间尺寸归一化，可得到归一化的图像特征和姿态特征/>

如图5所示，所述分类器由全连接网络层和Softmax层构成，以全局特征作为输入，输出行为类别得分；其输出维度与行为类别的数量一致并从中挑选出得分最高的类别作为识别结果。

所述预训练优化采用标准交叉熵损失函数评估：

式中，p_c,n和动作类别得分的真实值和预测值，N为训练样本数量，C为动作类别数量；表观网络、姿态网络、共时缩放单元和跨域融合单元的训练顺序为：(1)以图像序列为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练图像网络的权重；(2)以姿态序列/>为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练姿态网络的权重；(3)根据第(1)步和第(2)步初始化图像网络和姿态网络，同时以图像序列和姿态序列为输入，以行为类别为标签，联合图像网络、姿态网络、共时缩放单元和跨域融合单元进行微调训练。

本发明还提供了图6所示的一种基于人体姿态及其躯干运动场的行为识别装置的示意结构图。如图6所述，在硬件层面，该一种基于人体姿态及其躯干运动场的行为识别装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据采集的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种共时与跨域异步融合驱动的行为识别方法，其特征在于，包括：

步骤S101，获取多人人体彩色图像作为图像序列；

步骤S104，采用共时与跨域异步融合的策略，搭建共时缩放单元和跨域融合单元，以图像特征和姿态特征作为输入，将图像特征和姿态特征进行缩放、对齐和融合；具体包括：

式中，和/>分别表示缩放后的图像特征和姿态特征；

式中，和/>分别表示图像和姿态的门控权重；CGB_A(*)和CGB_P(*)表示卷积门控网络，由二维卷积层、批正则层和Sigmoid激活函数组成；因此，跨域融合单元的输出可表示如下：

式中，和/>分别表示跨域融合后的图像特征和姿态特征；CAB_A(*)和CAB_P(*)表示卷积对齐网络，由二维卷积层、批正则层和ReLu激活函数组成；

2.根据权利要求1所述的行为识别方法，其特征在于，所述步骤S101，包括：

所述多人人体彩色图像应尽量捕捉到人体的全身姿态，将机器人身上的彩色相机安装到适当位置，调整拍摄角度获取优质图像。

3.根据权利要求2所述的行为识别方法，其特征在于，所述的彩色相机的安装位置距离地面1.7m。

4.根据权利要求1所述的行为识别方法，其特征在于，所述步骤S102，包括：

所述目标检测网络从彩色图像中检测出“人”的类别置信度c_j及其二维人体包围框(u₁,v₁,u₂,v₂)，当人体类别置信度c_j≥0.5时，从图像中剪裁出Image[u₁:u₂,v₁:v₂]作为局部图像；

所述二维人体姿态估计网络从局部图像中计算出二维人体关键点，可由相机坐标系下人体的头部、右肩、右肘、右手、盆骨、右髋、右膝、右脚、脖子、左肩、左肘、左手、左髋、左膝、左脚14个关键关节的二维坐标组成，记作c_j为置信度，ξ为每个人的关节总数，第t帧彩色图像的总人数为ρ，p∈{1,ρ}为图像第p个人；

式中，σ＝0.5为高斯分布的标准差，为第t帧彩色图像中有关第j个关节(x_j,y_j)的热图分布；通过将每一帧图像中的每一个关节热图拼接，姿态序列记作/>H_P和W_P分别表示高度和宽度，T为采样帧数。

5.根据权利要求1所述的行为识别方法，其特征在于，所述步骤S103，包括：

所述图像序列将T帧图像拼接为四维张量，图像序列记作

所述表观网络与姿态网络由二维卷积神经网络构建，均采用开源的ResNet-50作为网络结构，表观网络提取的图像特征为为图像特征的通道维度，/>和分别表示高度和宽度；同样的，姿态网络提取的姿态特征可记作/>

6.根据权利要求1所述的行为识别方法，其特征在于，所述步骤S105，包括：

使用拼接方法将和/>沿着第二维度进行叠加，得到的全局特征记作

7.根据权利要求1所述的行为识别方法，其特征在于，所述步骤S106，包括：

所述采集的多人人体彩色图像序列，应包括不同交互任务、不同场景和不同类别的常见动作集，动作类别不低于20个，采集的各类别动作样本量不低于3000个；

所述预训练优化采用标准交叉熵损失函数评估：

式中，p_c,n和动作类别得分的真实值和预测值，N为训练样本数量，C为动作类别数量；表观网络、姿态网络、共时缩放单元和跨域融合单元的训练顺序为：(1)以图像序列为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练图像网络的权重；(2)以姿态序列/>为输入，以行为类别为标签，采用随机梯度优化方法，单独预训练姿态网络的权重；(3)根据第(1)和第(2)初始化图像网络和姿态网络，同时以图像序列和姿态序列为输入，以行为类别为标签，联合图像网络、姿态网络、共时缩放单元和跨域融合单元进行微调训练。

8.一种共时与跨域异步融合驱动的行为识别装置，其特征在于，包括：

图像特征和姿态特征处理模块，用于采用共时与跨域异步融合的策略，搭建共时缩放单元和跨域融合单元，以图像特征和姿态特征作为输入，将图像特征和姿态特征进行缩放、对齐和融合；具体包括：

式中，和/>分别表示缩放后的图像特征和姿态特征；

9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-7中任一项所述的一种共时与跨域异步融合驱动的行为识别方法。