CN114022960B

CN114022960B - 模型训练和行为识别方法、装置、电子设备以及存储介质

Info

Publication number: CN114022960B
Application number: CN202210002732.9A
Authority: CN
Inventors: 王鹏; 姚聪; 达铖
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-06-14
Anticipated expiration: 2042-01-05
Also published as: CN114022960A

Abstract

本发明实施例提供了一种模型训练和行为识别方法、装置、电子设备以及存储介质。所述模型训练方法包括：获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练。本发明实施例的方案可靠地建立了多个图像与特征图之间的对应关系，可靠地建立了各个图像的特征图与标签图像之间的对应关系，学习到了各个图像与标签图像直接的内在联系，训练后的行为识别模型能够对至少一个行为执行有效且可靠的行为识别。

Description

模型训练和行为识别方法、装置、电子设备以及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种模型训练和行为识别方法、装置、电子设备以及存储介质。

背景技术

从视频或多个关联图像中进行行为识别，能够用于诸如视频监测或者视频辅助分析的智能场景，节省了大量大力。

在现有的行为识别方案中，针对视频或诸如多个视频帧的关联图像执行目标识别，获得至少一个主体，基于每个主体在视频或多个视频帧中的位置信息，利用预先训练的神经网络执行推理，得到这个主体的行为。

但是，在诸如在线教学的应用场景中，当识别到的主体数目过多时，现有的方案针对每个主体执行行为识别，数据处理量过大。

发明内容

有鉴于此，本发明实施例提供一种模型训练和行为识别方法、装置、电子设备以及存储介质，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种模型训练方法，包括：获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络和分类网络。所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图。所述分类网络用于根据所述多个图像各自的特征图，执行行为分类处理，得到所述标签图像的行为分布特征。

根据本发明实施例的第二方面，提供了一种行为识别方法，包括：获取待识别行为的多个图像；将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据第一方面所述的模型训练方法训练得到。

根据本发明实施例的第三方面，提供了一种行为识别方法，包括：获取针对目标群体采集的视频帧序列，所述目标群体中包括多个主体；将所述视频帧序列中的多个视频帧输入到行为识别模型中，得到所述多个主体各自的行为与所述多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为。所述行为识别模型根据第一方面所述的模型训练方法训练得到。

根据本发明实施例的第四方面，提供了一种模型训练装置，包括：获取模块，获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；训练模块，基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络和分类网络，其中，所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图，其中，所述分类网络用于根据所述多个图像各自的特征图，执行行为分类处理，得到所述标签图像的行为分布特征。

根据本发明实施例的第五方面，提供了一种行为识别装置，包括：获取模块，获取待识别行为的多个图像；识别模块，将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据第一方面所述的模型训练方法训练得到。

根据本发明实施例的第六方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面、第二方面或第三方面所述的方法对应的操作。

根据本发明实施例的第七方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面、第二方面或第三方面所述的方法。

在本发明实施例的方案中，第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到多个图像各自的特征图，可靠地建立了多个图像与特征图之间的对应关系，此外，分类网络用于根据多个图像各自的特征图，执行行为分类处理，输出标签图像的行为分布特征，可靠地建立了各个图像的特征图与标签图像之间的对应关系。此外，通过对包括第一特征提取网络和分类网络的行为识别模型，学习到了各个图像与标签图像直接的内在联系，由于行为分布特征指示至少一个行为在标签图像中的位置分布，因此，训练后的行为识别模型能够对至少一个行为执行有效且可靠的行为识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明的一个实施例的模型训练方法的步骤流程图。

图1B为根据本发明的另一实施例的行为识别方法的步骤流程图。

图2A为根据本发明的另一实施例的行为识别模型的网络结构的示意图。

图2B为根据本发明的另一实施例的特征图的示意图。

图2C为根据本发明的另一实施例的特征图的示意图。

图2D为根据本发明的另一实施例的行为识别方法的步骤流程图。

图3为根据本发明的另一实施例的模型训练装置的结构框图。

图4为根据本发明的另一实施例的行为识别装置的结构框图。

图5为根据本发明的另一实施例的电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1A为根据本发明的一个实施例的模型训练方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。例如，在模型训练（training）阶段，可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备（例如，数据中心）基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地，在推理（inference）阶段，也可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备进行推理运算。

图1A的模型训练方法包括：

S110：获取训练数据，训练数据包括多个图像以及标签图像的行为分布特征，行为分布特征指示至少一个行为在标签图像中的位置分布。

应理解，多个图像可以是基于至少一个行为关联的多个图像，例如，属于拍摄了至少一个行为的视频中的多个视频帧。多个视频帧可以为视频的全部视频帧中的随机抽取的多个视频帧，也可以为全部视频帧中间隔相同视频帧数目抽取的多个视频帧。优选地，作为训练数据的多个视频帧形成视频帧序列，视频帧序列的首帧和尾帧对应于动作的起始状态和结束状态。

还应理解，文中的位置分布可以为基于像素位置的分布，也可以为基于网格位置的分别，例如，每个网格可以包括多个像素。

标签图像可以为一个图像，也可以为多个图像。优选地，标签图像为一个图像，在一个示例中，标签图像的两个维度的像素数与多个图像的两个维度的像素数目相同；在另一示例中，标签图像的两个维度的网格数与多个图像的两个维度的像素数目相同。

例如，至少一个行为包括行为类型A、B和C，且行为类型A、B和C涵盖了一个像素或网格所有可能的行为类型，例如，行为类型A表示无动作，行为类型B表示慢速移动，行为类型C表示快速移动。这时，行为分布特征指示行为类型A、B和C在标签图像的各个像素和各个网格中的分布情况。换言之，行为分布特征反映了标签图像中的一位置与一行为类型之间的相关性。

S120：基于多个图像作为输入，并且基于标签图像的行为分布特征作为输出，对行为识别模型进行训练，行为识别模型包括第一特征提取网络和分类网络。第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到多个图像各自的特征图。分类网络用于根据多个图像各自的特征图，执行行为分类处理，得到标签图像的行为分布特征。

应理解，多个图像中的各个像素可以具有RGB各个通道的通道值，且各个像素呈现出主体的静态特征，基于主体在多个图像之间的变化，体现出主体的动态特征，标签图像能够良好地反映这种动态特征，进一步地，通过将反映主体的静态特征的多个图像与反映动态特征的标签图像相关联，即，将反映动态特征的标签图像作为监督条件，能够使行为识别模型从反映主体的静态特征的多个图像中学习到深度的相关性，从而训练后的行为识别模型能够基于多个图像进行行为识别。

还应理解，为了学习到动态特征与静态特征之间的相关性，第一特征提取网络能够对多个图像进行特征识别，使得在训练过程中尽可能地学习到有效的特征。分类网络的构建有利于在训练过程中融入非线性因素，有利于相关性学习中的收敛。

还应理解，行为识别模型可以构建为诸如卷积神经网络、前馈神经网络等深度神经网络。

在另一些示例中，第一特征提取网络包括第一下采样层、多个第一特征提取层、合并层和第一上采样层。第一下采样层的输入作为第一特征提取网络的输入，第一下采样层的多个输出分别连接到多个第一特征提取层的多个输入，多个第一特征提取层的多个输出连接到合并层的输入，合并层的输出连接到第一上采样层的输入，第一上采样层的输出连接到分类网络的输入。由于第一下采样层在多个第一特征提取层之前，使得输入到多个第一特征提取层中的通道数减少，提高了特征提取的效率。此外，第一上采样层使得通道数能够增大，有利于与标签图像的通道数一致。

在另一些示例中，行为识别模型还包括第二特征提取网络，第二特征提取网络用于根据输入的多个图像的融合图像进行特征提取，得到融合图像的特征图。分类网络具体用于根据融合图像的特征图以及多个图像各自的特征图，执行行为分类处理。由于与第一特征提取网络相比，第二特征提取网络能够提取到不同的特征，因此，将第一特征提取网络与第二特征提取网络均连接到分类网络，有利于行为识别模型学习到深度的关联性，提高了行为识别模型的拟合能力。

在另一些示例中，第二特征提取网络包括第二下采样层、第二特征提取层和第二上采样层。第二下采样层的输入作为第二特征提取网络的输入，第二下采样层的输出连接到第二特征提取层的输入，第二特征提取层的输出连接到第二上采样层的输入，第二上采样层的输出连接到分类网络的输入。由于第二下采样层在第二特征提取层之前，使得输入到第二特征提取层中的通道数减少，提高了特征提取的效率。此外，第一上采样层使得通道数能够增大，有利于与标签图像的通道数一致。

在另一些示例中，分类网络包括融合层、分类层和归一化层。融合层的输入连接到第一特征提取网络的输出与第二特征提取网络的输出，融合层的输出连接到分类层的输入，分类层的输出连接到归一化层的输入，归一化层的输出作为分类网络的输出。融合层用于融合所述融合图像的特征图以及所述多个图像各自的特征图，得到融合特征图，分类层用于对融合特征图进行行为分类，得到融合特征图中的各个通道的行为分类，归一化层用于根据各个通道的行为分类，进行归一化处理，得到标签图像在单通道的行为分布特征。由于各个通道的行为分类反映了行为识别模型在各个通道学习到的行为特征，归一化层能够提取到各个行为在时域上的分布，有利于在一定时域上进行行为识别的可靠性。

在另一些示例中，行为分布特征指示至少一个行为在标签图像中的像素分布，每个行为对应于连通的像素区域。

由于在行为识别模型的训练过程中，能够基于像素进行处理，提高了训练后的行为是模型的准确性，此外，每个行为对应于连通的像素区域，可靠地将像素与各个行为特征进行了关联，有利于执行较大图像范围的行为识别的准确性。

下面将结合图1B描述和说明训练后的行为识别模型的推理过程，即，行为识别过程。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。在推理（inference）阶段，也可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备进行推理运算。

图1B的行为识别方法包括：

S180：获取待识别行为的多个图像。

S190：将多个图像输入到行为识别模型中，得到行为特征图像，行为识别模型根据模型训练方法训练得到。

由于行为分布特征指示至少一个行为在标签图像中的位置分布，因此，训练后的行为识别模型能够对至少一个行为执行有效且可靠的行为识别。

下面将结合图2A-图2C详细说明和描述根据一个示例的行为识别模型的网络结构和特征图。

图2A为根据本发明的另一实施例的模型训练方法的示意图。在本示例中，上侧的分支网络为第一特征提取网络的示例，在上侧的网络分支中，输入的图像1-6为上述多个图像的示例。在一个示例中，图像1-6可以被构建为6*w*h*3的特征图，其中，6为图像的个数；w为每个图像在宽度方向上的像素数；h为每个图像在高度方向上的像素数；3指示RGB三个通道。

进一步地，第一下采样层能够对图像1-6执行下采样处理，减小w和h中的至少一者的像素数目，例如，采用n*n卷积核执行下采样处理6*x*y*3，其中，n可以为任何的奇数，x小于n，y小于m。

分别为对下采样之后的图像执行特征提取得到特征图1-6。然后，通过合并层的处理，对特征图1-6执行合并，得到合并特征图。

然后，对合并特征图执行上采样，例如，采用n*n卷积核执行上采样处理，得到w*h*18的特征图。

另外，下侧的分支网络为第二特征提取网络的示例，在下侧的网络分支中，输入的融合图像为图像1-6的融合。在一个示例中，融合图像可以为构建为w*h*18，其中，w为融合图像在宽度方向上的像素数；h为融合图像在高度方向上的像素数；18为融合后的通道数。

进一步地，第二下采样层能够对融合图像执行下采样处理，减小w和h中的至少一者的像素数目，例如，采用m*m卷积核执行下采样处理得到a*b*18的特征图，其中，m可以为任何的奇数，a小于w，b小于h。

分别为对下采样之后的图像执行特征提取得到特征图。然后，通过合并层的处理，对特征图执行上采样，例如，采用m*m卷积核执行上采样处理，得到w*h*18的特征图。

另外，将上侧的分支网络的特征图w*h*18与下侧的分支网络的特征图w*h*18输入到融合层，得到融合特征图。然后，再将融合特征图输入到分类层，得到w*h*c的特征图，其中，c为行为特征类型的数目。

然后，w*h*c的特征图输入到诸如softmax的归一化层，针对行为特征类型的数目进行处理，得到w*h*1。

应理解，在执行行为识别模型的训练时，标签图像为w*h*1特征图。在基于行为识别模型执行行为识别时，行为特征图像为w*h*1特征图。

还应理解，上述的各个特征图的融合处理的合并处理都可以采用concat算子计算，在一个示例中，可以将各个特征图的特征张量进行拼接，得到融合特征图，也可以将各个特征图的特征张量中的对应元素相加，得到融合特征图。

下面将结合图2B详细描述行为特征图像或标签图像的示例。在图2B的示例中，各个像素的通道值指示相应的行为特征类型0、1、2和3，换言之，上述的行为分类即是基于行为特征类型进行分类。在本示例中，示例性地，w=7，h=7，但应理解，w和h可以为其他值。另外，本示例中的w和h可以对应于一个像素，也可以对应为多个像素，换言之，每个矩形格可以表示具有多个像素的区域。

在一个在线教育的场景示例中，连通的各个矩形格0表示没有发生动作的位置，各个连通的各个矩形格1表示正在发生起立的动作，连通的各个矩形格2表示正在发生坐下的动作，连通的各个矩形格3表示正在发生举手的动作。

在一个视频监测的场景示例中，连通的各个矩形格0表示没有发生动作的位置，各个连通的各个矩形格1表示正在走动的动作，连通的各个矩形格2表示正在跑动的动作，连通的各个矩形格3表示正在跳跃的动作。

下面将结合图2C说明和描述特征图在归一化处理前后的变化。图2C左侧的特征图对应于图2B的特征图，即，归一化处理之后的特征图。图2C右侧示出了归一化之前的各个特征图，右下方示出了特征图1-6的矩形格中对应的行为类型分别为3、1、2、2、2和1。换言之，对于归一化之后的每个矩阵格，归一化之前的各个矩阵格形成了向量[3；1；2；2；2；1]，其归一化的结果为11/6，近似为2，因而在左侧的特征图中相应的矩形格的值2，表示该矩形格较大概率为行为类型2。由此，通过归一化处理，提高了在多个特征图中的全局性行为识别。

图2D为根据本发明的另一实施例的行为识别方法的步骤流程图。图2D的行为识别方法用于对目标群体执行行为识别，例如，用于在线教学场景中的行为识别。

本实施例的行为识别方法包括：

S210：获取针对目标群体采集的视频帧序列，目标群体中包括多个主体。

S220：将视频帧序列中的多个视频帧输入到行为识别模型中，得到多个主体各自的行为与多个视频帧对应的位置分布。

S230：基于与多个视频帧对应的位置分布，确定多个主体的行为，行为识别模型根据模型训练方法训练得到。

应理解，可以采用诸如摄像头的图像采集设备采集视频帧序列，视频采集设备的采集区域限定了多个视频帧的边界。与多个视频帧对应的位置分布可以指示多个主体各自的行为与采集区域的位置分布。

还应理解，由于行为识别模型根据模型训练方法训练得到，因此从模型训练方法输出的特征图像指示多个主体各自的行为与多个视频帧对应的位置分布。

具体地，采集区域的像素或者基于多个像素的区域对应于一行为类型，相应地，基于各个像素或各个区域，可以得到行为的位置分布，即，各个像素或各个区域与行为类型对应的标识。

在一些示例中，行为的位置分布与主体无关，即，来自不同主体的相同的行为对应于相同的行为类型，各个像素或各个区域具有相同的行为类型标识，不包括主体的标识。

在另一些示例中，行为的位置分布可以与主体有关，来自不同主体的相同的行为对应于相同的行为类型，各个像素或各个区域除了具有相同的行为类型标识，还可以包括主体的标识。

更具体地，在线教学场景中的目标群体可以为诸如学生或被培训人员等多个主体，多个主体可以排布为阵列，或者，具有随机的位置排布。本实施例对主体的数量不作限定。

在一个具体的场景中，教师需要知道各个学生的当前行为，在学生的数目较多的情况下，难以注意到所有学生的状态。例如，教师针对问题进行提问，需要学生举手示意主动回答问题，或者，需要学生举手示意对问题的倾向性意见，利用本发明实施例的行为识别方法可以识别到举手学生的分布及位置，教师可以基于举手学生的分别及位置，选择特定学生回答问题，或者，统计倾向性意见的分布。再次参考图2B，在一个示例中，连通的各个矩形格0-2都可以表示没有发生动作的位置，连通的各个矩形格3表示正在发生举手的动作。相应地，教师可以通过行为的位置分布，在连通的各个矩形格3中选择一名学生起立回答问题，或者，基于连通的各个矩形格3占所有矩形格的比例，判定倾向性意见。

在另一个具体的场景中，教师对学生进行诸如舞蹈或体育等动作培训，在学生的数目较多的情况下，难以注意到所有学生的状态。例如，教师需要知道对于特定动作而言，学生的完成情况下，或者，学生是否注意力集中，是否按照自己的教学指令去执行动作。这时，利用本发明实施例的行为识别方法可以识别到执行特征动作的学生的分别及位置，以对培训过程进行高效地辅助。再次参考图2B，在一个示例中，连通的各个矩形格0表示没有发生动作的位置，各个连通的各个矩形格1表示正在发生符合指令的标准动作，连通的各个矩形格2表示正在发生符合指令的非标准动作，连通的各个矩形格3表示正在执行不符合指令的动作，相应地，教师可以对各个矩形格1对应的学生进行鼓励，或者，可以对各个矩形格2对应的学生的动作进行修正，或者，可以提醒各个矩形格3对应的学生的工作不正确，或者，可以询问各个矩形格0对应的学生是否未听到指令等。

应理解，上述的示例仅仅以学生作为例子进行了描述和说明，但是，也适用于其他的任何主体。

还应理解，对于在线教学场景中，采集视频帧序列的第一图像采集设备的采集区域可以为教师或培训师侧的电子设备展示的展示区域，例如，教师或培训师侧的区域。采集区域中的各个子区域可以为不同于第一图像采集设备的第二图像采集设备的采集区域，例如，学生或被培训人员侧的采集区域。对应于多个主体的多个区域在展示区域中以阵列方式排布。

另外，视频帧序列可以为一段视频中的连续多个视频帧，也可以一段视频中的非连续的多个视频帧。一段视频的采集可以由在教师或培训师侧的电子设备采集，其起始时刻和结束时刻可以由教师或培训师操作控制，例如，针对特定的教学指令，采集学生或被培训人员根据教学指令的动作响应。

更具体地，对于上述的各个像素和区域而言，属于同一子区域的像素和区域具有相同的主体标识，换言之，各个子区域中的像素和区域具有相应的主体标识。

此外，对于属于同一子区域的各个像素和区域，不具有相同行为类型的像素和区域被判定为不属于连通，具有相同行为类型的像素和区域被判定为不属于连通。对于不属于同一子区域的各个像素和区域，具有相同行为类型的像素和区域被判定为不属于连通。由此，实现了对多个主体的行为识别。再次参考图2B，例如，各个矩形格1属于一个子区域，各个矩形格0、2和3横跨多个子区域，因此，各个矩形格1对应于特定主体的行为类型，各个矩形格0、2和3分别对应于多个其他主体的行为类型。

下面将描述与上述模型训练方法和行为识别方法对应的装置。

图3为根据本发明的另一实施例的模型训练装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。例如，在模型训练（training）阶段，可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备（例如，数据中心）基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地，在推理（inference）阶段，也可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备进行推理运算。图3的模型训练装置包括：

获取模块310，获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；

训练模块320，基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络和分类网络，其中，所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图，其中，所述分类网络用于根据所述多个图像各自的特征图，执行行为分类处理，得到所述标签图像的行为分布特征。

在另一些示例中，所述第一特征提取网络包括第一下采样层、多个第一特征提取层、合并层和第一上采样层。所述第一下采样层的输入作为所述第一特征提取网络的输入，所述第一下采样层的多个输出分别连接到所述多个第一特征提取层的多个输入，所述多个第一特征提取层的多个输出连接到所述合并层的输入，所述合并层的输出连接到所述第一上采样层的输入，所述第一上采样层的输出连接到所述分类网络的输入。

在另一些示例中，行为识别模型还包括第二特征提取网络，所述第二特征提取网络用于根据输入的多个图像的融合图像进行特征提取，得到所述融合图像的特征图。所述分类网络具体用于根据所述融合图像的特征图以及所述多个图像各自的特征图，执行行为分类处理。

在另一些示例中，所述第二特征提取网络包括第二下采样层、第二特征提取层和第二上采样层。所述第二下采样层的输入作为所述第二特征提取网络的输入，所述第二下采样层的输出连接到所述第二特征提取层的输入，所述第二特征提取层的输出连接到所述第二上采样层的输入，所述第二上采样层的输出连接到所述分类网络的输入。

在另一些示例中，所述分类网络包括融合层、分类层和归一化层。所述融合层的输入连接到所述第一特征提取网络的输出与所述第二特征提取网络的输出，所述融合层的输出连接到所述分类层的输入，所述分类层的输出连接到所述归一化层的输入，所述归一化层的输出作为所述分类网络的输出。融合层用于融合所述融合图像的特征图以及所述多个图像各自的特征图，得到融合特征图，所述分类层用于对所述融合特征图进行行为分类，得到所述融合特征图中的各个通道的行为分类，所述归一化层用于根据各个通道的行为分类，进行归一化处理，得到所述标签图像在单通道的行为分布特征。

在另一些示例中，所述行为分布特征指示至少一个行为在所述标签图像中的像素分布，每个行为对应于连通的像素区域。

本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

图4为根据本发明的另一实施例的行为识别装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。在推理（inference）阶段，也可以利用配置有CPU（处理单元的示例）+GPU（加速单元的示例）架构的计算设备进行推理运算。图4的行为识别装置包括：

获取模块410，获取待识别行为的多个图像。

识别模块420，将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据模型训练方法训练得到。

参照图5，示出了根据本发明的另一实施例的电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络和分类网络，其中，所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图，其中，所述分类网络用于根据所述多个图像各自的特征图，执行行为分类处理，得到所述标签图像的行为分布特征。

或者，程序510具体可以用于使得处理器502执行以下操作：获取待识别行为的多个图像；将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据模型训练方法训练得到。

此外，程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种模型训练方法，包括：

获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；

基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络、第二特征提取网路和分类网络，

其中，所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图，所述第二特征提取网络用于根据输入的多个图像的融合图像进行特征提取，得到所述融合图像的特征图，

其中，所述分类网络包括融合层、分类层和归一化层，所述融合层用于融合所述融合图像的特征图以及所述多个图像各自的特征图，得到融合特征图，所述分类层用于对所述融合特征图进行行为分类，得到所述融合特征图中的各个通道的行为分类，所述归一化层用于根据各个通道的行为分类，进行归一化处理，得到所述标签图像在单通道的行为分布特征。

2.根据权利要求1所述的方法，其中，所述第一特征提取网络包括第一下采样层、多个第一特征提取层、合并层和第一上采样层，

其中，所述第一下采样层的输入作为所述第一特征提取网络的输入，所述第一下采样层的多个输出分别连接到所述多个第一特征提取层的多个输入，所述多个第一特征提取层的多个输出连接到所述合并层的输入，所述合并层的输出连接到所述第一上采样层的输入，所述第一上采样层的输出连接到所述分类网络的输入。

3.根据权利要求1所述的方法，其中，所述第二特征提取网络包括第二下采样层、第二特征提取层和第二上采样层，

其中，所述第二下采样层的输入作为所述第二特征提取网络的输入，所述第二下采样层的输出连接到所述第二特征提取层的输入，所述第二特征提取层的输出连接到所述第二上采样层的输入，所述第二上采样层的输出连接到所述分类网络的输入。

4.根据权利要求1所述的方法，其中，所述分类网络包括融合层、分类层和归一化层，

所述融合层的输入连接到所述第一特征提取网络的输出与所述第二特征提取网络的输出，所述融合层的输出连接到所述分类层的输入，所述分类层的输出连接到所述归一化层的输入，所述归一化层的输出作为所述分类网络的输出。

5.根据权利要求1所述的方法，其中，所述行为分布特征指示至少一个行为在所述标签图像中的像素分布，每个行为对应于连通的像素区域。

6.一种行为识别方法，包括：

获取待识别行为的多个图像；

将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据权利要求1-5中任一项所述的模型训练方法训练得到。

7.一种行为识别方法，包括：

获取针对目标群体采集的视频帧序列，所述目标群体中包括多个主体；

将所述视频帧序列中的多个视频帧输入到行为识别模型中，得到所述多个主体各自的行为与所述多个视频帧对应的位置分布；

基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述行为识别模型根据权利要求1-5中任一项所述的模型训练方法训练得到。

8.一种模型训练装置，包括：

获取模块，获取训练数据，所述训练数据包括多个图像以及标签图像的行为分布特征，所述行为分布特征指示至少一个行为在所述标签图像中的位置分布；

训练模块，基于所述多个图像作为输入，并且基于所述标签图像的行为分布特征作为输出，对行为识别模型进行训练，所述行为识别模型包括第一特征提取网络和分类网络，其中，所述第一特征提取网络用于分别根据输入的多个图像执行特征提取，得到所述多个图像各自的特征图，其中，所述行为识别模型还包括第二特征提取网络，所述第二特征提取网络用于根据输入的多个图像的融合图像进行特征提取，得到所述融合图像的特征图，其中，所述分类网络包括融合层、分类层和归一化层，所述融合层用于融合所述融合图像的特征图以及所述多个图像各自的特征图，得到融合特征图，所述分类层用于对所述融合特征图进行行为分类，得到所述融合特征图中的各个通道的行为分类，所述归一化层用于根据各个通道的行为分类，进行归一化处理，得到所述标签图像在单通道的行为分布特征。

9.一种行为识别装置，包括：

获取模块，获取待识别行为的多个图像；

识别模块，将所述多个图像输入到行为识别模型中，得到行为特征图像，所述行为识别模型根据权利要求1-5中任一项所述的模型训练方法训练得到。

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的方法对应的操作。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。