CN117475507A

CN117475507A - 行为识别方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN117475507A
Application number: CN202311151107.1A
Authority: CN
Inventors: 范晶
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-01-30

Abstract

本申请公开一种行为识别方法、模型训练方法、装置、设备及存储介质，涉及图像识别技术领域，用于提高行为识别的准确率。该方法包括：获取待识别目标行为的视频文件；从视频文件中提取出与目标行为相关的骨骼序列，并从骨骼序列中提取出所有活体的骨骼特征，骨骼特征基于活体姿态特征确定，活体姿态特征基于预设的目标行为对应的关键点权重系数序列确定；基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

Description

行为识别方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种行为识别方法、模型训练方法、装置、设备及存储介质。

背景技术

行为识别是视频理解中的一个重要任务，在人机交互、游戏娱乐、智能家居等需要检测活体行为的场景中有重要的应用。

但是，若识别出的活体行为不准确，可能导致误报警行为，给管理人员带来不便，因此，需要一种可以准确识别出目标行为的方法。

发明内容

本申请提供一种行为识别方法、模型训练方法、装置、设备及存储介质，用于提高行为识别的准确率。

为实现上述技术目的，本申请采用如下技术方案：

第一方面，本申请实施例提供了一种行为识别方法，包括：

获取模块，用于获取待识别目标行为的视频文件；

处理模块，用于从视频文件中提取出与目标行为相关的骨骼序列，并从骨骼序列中提取出所有活体的骨骼特征，骨骼特征基于活体姿态特征确定，活体姿态特征基于预设的目标行为对应的关键点权重系数序列确定；

处理模块，还用于基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

本申请提供的技术方案至少带来以下有益效果：不同行为关注的活体关键点不同，例如踢足球等活动更关注脚步动作，打篮球等活动更关注手部动作，本申请通过为目标行为预设各个活体关键点的权重系数，可以增强对目标行为的关注度，则基于目标行为对应的活体关键点权重系数序列确定出的活体姿态特征更能表征出目标行为，后续基于活体姿态特征确定出的骨骼特征也更能表征目标行为，最终可以得到更为准确的目标行为识别结果。

在一种可能的实现方式中，基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果，包括：从视频文件中提取出与目标行为相关的RGB序列，并从RGB序列中提取出RGB特征；对RGB特征和所有活体的骨骼特征进行融合，基于融合后的RGB特征和所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

在一种可能的实现方式中，从骨骼序列中提取出所有活体的骨骼特征，包括：从骨骼序列中确定帧差信息；基于帧差信息对骨骼序列以及骨骼序列中的活体进行编码；根据预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于活体姿态特征确定活体姿态时序特征，预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；基于活体姿态时序特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，基于活体姿态时序特征，确定所有活体的骨骼特征，包括：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，从骨骼序列中提取出所有活体的骨骼特征，包括：将骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征；活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

在一种可能的实现方式中，从视频文件中提取出与目标行为相关的骨骼序列，包括：若在视频文件中的图像中检测到活体，确定图像与目标行为相关；在每张与目标行为相关的图像中标识出活体关键点，得到与目标行为相关的骨骼序列。

第二方面，本申请提供一种骨骼特征提取模型训练方法，包括：

获取训练样本集，以及每种行为类别对应的关键点权重系数序列，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

基于训练样本集中多张图像中的活体关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，基于训练样本集中多张图像中的活体关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型，包括：基于训练样本集中多张图像中的活体关键点，确定帧差信息；基于帧差信息对多张图像以及多张图像中的活体进行编码；根据每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；基于活体姿态特征，确定活体姿态时序特征；基于活体姿态时序特征，得到所有活体的骨骼特征；根据所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，基于活体姿态时序特征，得到所有活体的骨骼特征，包括：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，得到所有活体的骨骼特征。

在一种可能的实现方式中，获取训练样本集，包括：获取多张图像；标识出每张图像中的活体关键点，得到训练样本集。

第三方面，本申请提供一种行为识别装置，包括：

获取模块，用于获取待识别目标行为的视频文件；

在一种可能的实现方式中，处理模块具体用于：从视频文件中提取出与目标行为相关的RGB序列，并从RGB序列中提取出RGB特征；对RGB特征和所有活体的骨骼特征进行融合，基于融合后的RGB特征和所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

在一种可能的实现方式中，处理模块具体用于：从骨骼序列中确定帧差信息；基于帧差信息对骨骼序列以及骨骼序列中的活体进行编码；根据预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于活体姿态特征确定活体姿态时序特征，预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；基于活体姿态时序特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，处理模块具体用于：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，处理模块具体用于：将骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征；活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

在一种可能的实现方式中，处理模块具体用于：若在视频文件中的图像中检测到活体，确定图像与目标行为相关；在每张与目标行为相关的图像中标识出活体关键点，得到与目标行为相关的骨骼序列。

第四方面，本申请提供一种骨骼特征提取模型训练装置，包括：

获取模块，用于获取训练样本集，以及每种行为类别对应的关键点权重系数序列，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

处理模块，用于基于训练样本集中多张图像中的活体关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，处理模块具体用于：基于训练样本集中多张图像中的活体关键点，确定帧差信息；基于帧差信息对多张图像以及多张图像中的活体进行编码；根据每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；基于活体姿态特征，确定活体姿态时序特征；基于活体姿态时序特征，得到所有活体的骨骼特征；根据所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，处理模块具体用于：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，得到所有活体的骨骼特征。

在一种可能的实现方式中，获取模块还用于，获取多张图像；处理模块具体用于，标识出每张图像中的活体关键点，得到训练样本集。

第五方面，本申请提供一种电子设备，包括：一个或多个处理器；一个或多个存储器；其中，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，电子设备执行上述第一方面所提供的任一种行为识别方法，或第二方面所提供的任一种骨骼特征提取模型的训练方法。

第六方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行上述第一方面所提供的任一种行为识别方法，或第二方面所提供的任一种骨骼特征提取模型的训练方法。

第七方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的设计方式所提供的行为识别方法，或第二方面所提供的任一种骨骼特征提取模型的训练方法。

本申请中第二方面到第七方面及其各种实现方式的具体描述，可以参考第一方面及其各种实现方式中的详细描述；并且，第二方面到第七方面及其各种实现方式的有益效果，可以参考第一方面及其各种实现方式中的有益效果分析，此处不再赘述。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种行为识别方法所适用的行为识别系统的结构示意图；

图2为本申请实施例提供的一种计算装置的硬件组成示意图；

图3为本申请实施例提供的一种行为识别方法的流程图；

图4为本申请实施例提供的一种行为识别方法的应用场景示意图；

图5为本申请实施例提供的一种行为识别方法的逻辑示意图一；

图6为本申请实施例提供的一种行为识别方法的逻辑示意图二；

图7为本申请实施例提供的一种行为识别方法的逻辑示意图三；

图8为本申请实施例提供的一种骨骼特征提取模型的训练方法的流程图；

图9为本申请实施例提供的一种行为识别装置的结构示意图；

图10为本申请实施例提供的一种骨骼特征提取模型训练装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

对此，本申请实施例提供了一种行为识别方法，通过从视频文件中提取出与目标行为相关的骨骼序列，并从骨骼序列中提取出所有活体的骨骼特征，进而基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。由于不同行为关注的活体关键点不同，例如踢足球等活动更关注脚步动作，打篮球等活动更关注手部动作，本申请通过为目标行为预设各个活体关键点的权重系数，可以增强对目标行为的关注度，则基于目标行为对应的活体关键点权重系数序列确定出的活体姿态特征更能表征出目标行为，后续基于活体姿态特征确定出的骨骼特征也更能表征目标行为，最终可以得到更为准确的目标行为识别结果。

请参考图1，其示出本申请提供的行为识别方法所适用的行为识别系统的结构示意图。如图1所示，行为识别系统1可以包括：视频采集装置10、电子设备20和提示装置30。

其中，电子设备20分别与视频采集装置10以及提示装置30建立通信连接。应理解，连接方式可以为无线连接，例如蓝牙连接、无线保真(wireless fidelity，Wi-Fi)连接等；或者，连接方式也可以为有线连接，例如光纤连接等，对此不作限定。示例性的，视频采集装置10、电子设备20或者提示装置30可以通过路由器连接至互联网，进而实现电子设备20与视频采集装置10以及提示装置30之间的通信连接。

在一些实施例中，视频采集装置10用于向电子设备20输出视频文件。例如，在需要检测视频文件的图像中是否存在用户想要检测的目标行为时，视频采集装置10可以将该视频文件发送给电子设备20，进而电子设备20对视频文件中的图像进行检测，确定其中是否存在目标行为。

在一些实施例中，电子设备20用于从视频文件中提取出骨骼序列，从骨骼序列中提取出所有活体的骨骼特征，基于提取出的所有活体的骨骼特征对目标行为进行识别。

在一些实施例中，电子设备20还用于从视频文件中提取出RGB图像序列，从RGB图像序列中提取出RGB特征，进而对RGB特征和所有活体的骨骼特征进行融合，基于融合后的RGB特征和所有活体的骨骼特征对目标行为进行识别。

在一些实施例中，电子设备20还用于训练骨骼特征提取模型、RGB特征提取模型、RGB图像序列提取模型，以及骨骼序列提取模型。

在一些实施例中，电子设备20还用于在识别出目标行为之后，生成提示信息，将提示信息发送给提示装置30，进而指示提示装置30发出提示信息，以提示用户视频文件中存在目标行为。

在一些实施例中，电子设备20可以包括处理器。处理器用于实现对视频文件中目标行为的识别过程。其中，处理器可以为神经网络处理器(neural processing unit，NPU)、图形处理器(graphics processing unit，GPU)、中央处理器(central processing unit，CPU)、通用处理器网络处理器(network processor，NP)、数字信号处理器(digital signalprocessing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合。处理器还可以是其它具有处理功能的装置，例如电路、器件或软件模块，本申请实施例对此不做任何限制。

可选的，电子设备还可以包括存储器，存储器用于存储来自于视频采集装置10的视频文件中的图像，进而处理器可以从存储器中查找视频文件中的图像，对视频文件中的图像进行行为识别。

在一些实施例中，行为识别系统1中还可以包括提示装置30。其中，提示装置30用于展示第一提示信息。示例性的，提示装置30可以是语音提示装置，则提示装置30通过朗读提示信息，向用户报告视频文件中发生的目标行为。或者，提示装置30也可以是显示装置，则提示装置30通过在显示屏上显示提示信息，向用户展示视频文件中发生的目标行为。

在一些实施例中，视频采集装置10和电子设备20可以如图1所示，是两个独立的设备，或者，视频采集装置10和电子设备20可以集成在同一个设备中。

在一些实施例中，电子设备20和提示装置30可以如图1所示，是两个独立的设备，或者，电子设备20和提示装置30可以集成在同一个设备中。

在一些实施例中，行为识别系统1中可以包括一个或多个视频采集装置10。

在一些实施例中，视频采集装置10可以是任一种能够将视频文件传输给电子设备20的装置，例如摄像机、具有视频传输功能的终端设备(如手机、平板电脑、笔记本电脑等)、数字视频光盘(Digital Video Disc，DVD)、机顶盒、卫星接收机等，本申请实施例不对视频采集装置10的具体形态进行限定。

在一些实施例中，电子设备20可以是一个单独的服务器，也可以是服务器集群，或者，电子设备20也可以是终端设备，例如，个人计算机(Personal Computer，PC)、笔记本电脑、移动设备、平板计算机、膝上型计算机等。本申请实施例不对电子设备20的具体形态进行限定。

上述电子设备20的硬件结构包括图2所示计算装置所包括的元件。下面以图2所示的计算装置为例，介绍电子设备20的硬件结构。

如图2所示，计算装置可以包括处理器401，存储器402、通信接口403、总线404。处理器401，存储器402以及通信接口403之间可以通过总线404连接。

处理器401是计算装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器401可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例，处理器401可以包括一个或多个CPU，例如图2中所示的CPU 0和CPU 1。

存储器402可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器402可以独立于处理器401存在，存储器402可以通过总线404与处理器401相连接，用于存储指令或者程序代码。处理器401调用并执行存储器402中存储的指令或程序代码时，能够实现本申请实施例提供的模型部署方法。

另一种可能的实现方式中，存储器402也可以和处理器401集成在一起。

通信接口403，用于计算装置与其他设备通过通信网络连接，该通信网络可以是以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口403可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线404，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图2中示出的结构并不构成对该计算装置的限定，除图2所示部件之外，该计算装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面将结合附图对本申请实施例的实施方式进行详细描述。

本申请实施例提供的行为识别方法可以由上述电子设备来执行。

如图3所示，本申请实施例提供了一种行为识别方法，该方法包括以下步骤：

S101、获取待识别目标行为的视频文件。

示例性的，视频文件可以是摄像机拍摄的目标地点或目标应用场景中的视频文件，还可以是手机、电脑等终端设备传输给电子设备的目标地点或目标应用场景中的视频文件。

S102、从视频文件中提取出与目标行为相关的骨骼序列，并从骨骼序列中提取出所有活体的骨骼特征。

其中，骨骼特征基于活体姿态特征确定，活体姿态特征基于预设的目标行为对应的关键点权要系数序列确定。

在一些实施例中，若在视频文件中的图像中检测到活体，则电子设备确定图像与目标行为相关；在每张与目标行为相关的图像中标识出活体关键点，得到与目标行为相关的骨骼序列。

可选的，电子设备通过活体关键点识别模型标识出图像中的活体关键点，或者，电子设备接收用户输入的活体关键点识别结果，从而在图像中标识出活体关键点，得到与目标行为相关的骨骼序列。

示例性的，若电子设备从视频文件中确定图像1、图像2、图像3中具有活体，则可以初步确定图像1、图像2和图像3为目标行为相关的图像，电子设备分别标识出图像1、图像2、图像3中的活体关键点，标识出活体关键点的图像1、图像2和图像3组成骨骼序列。

如此一来，电子设备通过将检测到活体的图像确定为与目标行为相关的图像，可以初步对视频文件进行筛选，减少提取骨骼特征的工作量，再在与目标行为相关的图像中标识出活体关键点，得到与目标行为相关的骨骼序列，方便后续过程中从骨骼序列中提取出骨骼特征进行目标行为识别。

在一些实施例中，电子设备将骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征。其中，活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

在一些实施例中，骨骼特征提取模型的具体工作逻辑可以是：电子设备从骨骼序列中确定帧差信息；基于帧差信息对骨骼序列以及骨骼序列中的活体进行编码；根据预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于活体姿态特征确定活体姿态时序特征，预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；基于活体姿态时序特征，确定所有活体的骨骼特征。

示例性的，多个活体的骨骼序列可以是Pt,k,n，Pt,k,n＝[[[P头部，P颈部，…，P左脚]1,…,[P头部，P颈部，…，P左脚]t]1,…,[[P头部，P颈部，…，P左脚]1,…,[P头部，P颈部，…，P左脚]t]n]，其中，k表示关键点的序号，每个关键点包括(x，y，score)三维信息，一共有k个关键点，n表示活体的序号，t表示每个活体关键点所在的帧号的序号，活体关键点的示意图可以如图4所示，头部对应关键点1，颈部对应关键点2，左侧肩膀对应关键点3，右侧肩膀对应关键点4，左侧肘部对应关键点5，右侧肘部对应关键点6，左侧手部对应关键点7，右侧手部对应关键点8，左侧胯部对应关键点9，右侧胯部对应关键点10，左侧膝部对应关键点11，右侧膝部对应关键点12，左侧脚部对应关键点13，右侧脚部对应的关键点的14。假设目标行为为踢足球，则目标行为更关注脚部动作，则针对目标行为设置的关键点权重系数序列中，脚部的关键点对应的权重系数最高，从脚部依次往上，关键点对应的权重系数应逐渐减小。电子设备首先确定出骨骼序列中，每个活体的帧差信息，以及多个活体之间的帧差信息，也即相邻帧的图像之间的差别信息，再对骨骼序列中的每张图像进行编码，以及对骨骼序列中每张图像上的活体姿态进行编码，对编码后的骨骼序列，使用如下公式确定活体姿态特征：

其中，f_out(x)表示活体姿态特征，P(x,h,w)表示采样函数，x表示关键点，h表示图像的高，w表示图像的宽，W(h,w)表示权重函数，α表示关键点对应的权重系数。

在一些实施例中，目标行为关注的关键点对应的权重系数大于1，目标行为关注度不高的权重系数小于1。例如，在上述示例中，目标行为为奔跑类动作，更关注下肢动作，则胯部、膝部、脚步各自对应的权重系数α应大于1，头部和上肢对应的关键点的权重系数α应小于1。

如此一来，通过为目标行为预设各个活体关键点的权重系数，可以增强对目标行为的关注度，则基于目标行为对应的活体关键点权重系数序列确定出的活体姿态特征更能表征出目标行为，后续基于活体姿态特征确定出的骨骼特征也更能表征目标行为，最终可以得到更为准确的目标行为识别结果。

在一些实施例中，如图5所示，电子设备还基于活体姿态时序特征，确定活体交互特征；再基于活体交互特征，确定所有活体的骨骼特征。

具体的，在提取出活体姿态时序特征之后，可以增设一层图卷积神经网络(graphconvolutional networks，GCN)进行活体与活体之间的交互特征学习。

如此一来，通过增加了活体交互特征的确定过程，基于活体交互特征确定骨骼特征，最后基于骨骼特征进行目标行为识别时，可以提升群体行为的识别效果。

S103、基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

在一些实施例中，电子设备从视频文件中提取出与目标行为相关的图像序列，可以是从视频文件中的所有图像中提取与目标行为相关的图像序列，也可以是按照预设间隔抽取一部分图像，再从抽取出的图像中提取与目标行为相关的图像序列。

在一些实施例中，电子设备从视频文件中提取出与目标行为相关的RGB序列，并从RGB序列中提取出RGB特征；对RGB特征和所有活体的骨骼特征进行融合，基于融合后的RGB特征和所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

示例性的，RGB特征可以是矩阵形式，骨骼特征为矩阵形式，则在得到RGB特征和骨骼特征之后，RGB特征和骨骼特征可能是不同的维度，则需要对RGB特征和骨骼特征进行特征向量对齐，再将对齐的RGB特征和骨骼特征融合在一起。其中，特征融合的具体实现可以是将RGB特征和骨骼特征对齐后的矩阵相加，得到融合后的特征矩阵，再基于融合后的特征矩阵进行目标行为识别。

如此一来，通过从视频文件中提取出与目标行为相关的RGB图像序列和骨骼序列，从RGB图像序列中提取出RGB特征，也即提取出了活体的外观信息，从骨骼序列中提取出所有活体的骨骼特征，也即提取出了活体的关键点信息，结合活体的外观信息和骨骼信息，得到目标行为的识别结果。相较于单独基于RGB特征识别出目标行为，或者单独基于骨骼特征识别出目标行为的方法，本申请提供的方法结合了RGB特征和骨骼特征，可以弥补RGB特征对拍摄条件要求较高的不足，以及骨骼特征不能提供外观信息的不足，得到更准确的行为识别结果。

在一些实施例中，如图6所示，电子设备将融合后的RGB特征和骨骼特征输入至分类模型中，得到目标行为的识别结果。

在一些实施例中，如图7所示，电子设备基于分类模型得到目标行为的识别结果之后，将目标行为的识别结果输出，以提示用户视频文件中的目标行为。

图3所示的技术方案至少带来以下有益效果：不同行为关注的活体关键点不同，例如踢足球等活动更关注脚步动作，打篮球等活动更关注手部动作，本申请通过为目标行为预设各个活体关键点的权重系数，可以增强对目标行为的关注度，则基于目标行为对应的活体关键点权重系数序列确定出的活体姿态特征更能表征出目标行为，后续基于活体姿态特征确定出的骨骼特征也更能表征目标行为，最终可以得到更为准确的目标行为识别结果。

在一些实施例中，本申请还提供一种骨骼特征提取模型的训练方法，该方法可以由上述电子设备执行，如图8所示，该方法包括以下步骤：

S201、获取训练样本集，以及每种行为类别对应的关键点权重系数序列。

其中，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

在一些实施例中，电子设备获取多张图像；标识出每张图像中的活体关键点，得到训练样本集。

可选的，电子设备通过活体关键点识别模型标识出图像中的活体关键点，或者，电子设备接收用户输入的活体关键点识别结果，从而在图像中标识出活体关键点，确定训练样本集。

具体的，活体关键点识别模型可以是YOLO-Pose关键点识别模型。

如此一来，电子设备得到训练样本集，方便后续过程中基于训练样本集对骨骼特征提取模型进行训练。

S202、基于训练样本集中多张图像中的活体关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一些实施例中，步骤S202的具体实现逻辑为：电子设备基于训练样本集中多张图像中的活体关键点，确定帧差信息；再基于帧差信息对多张图像以及多张图像中的活体进行编码；根据每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；基于活体姿态特征，确定活体姿态时序特征；基于活体姿态时序特征，得到所有活体的骨骼特征；根据所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

示例性的，在提取活体姿态特征时，可以基于图卷积网络中的以下公式：

再结合每种行为类别对应的关键点权重系数序列中关键点的权重系数α，对图卷积网络进行训练，得到可以提升目标行为关注度的骨骼特征提取模型，对目标行为的识别结果也更准确。

在一些实施例中，电子设备基于活体姿态时序特征，确定活体交互特征，进而基于活体交互特征，得到所有活体的骨骼特征。

如此一来，通过增加了活体交互特征的训练过程，训练得到的骨骼特征提取模型对群体行为的识别能力得到提高，最后基于骨骼特征进行目标行为识别时，可以提升群体行为的识别效果。

图8所示的技术方案至少带来以下有益效果：通过每种行为类别对应的关键点权重系数序列对骨骼特征提取模型进行训练，得到的骨骼特征提取模型对行为的关注度更强，通过训练完成后的骨骼特征提取模型进行骨骼特征提取时，可以得到对行为表征能力更强的骨骼特征，最后基于训练完成后的骨骼特征提取模型提取出的骨骼特征，可以得到更加准确的行为识别结果。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

如图9所示，本申请实施例还提供了一种行为识别装置，用于上述方法实施例所示的行为识别方法。该行为识别装置500包括：获取模块501和处理模块502。

其中，获取模块501，用于获取待识别目标行为的视频文件；处理模块502，用于从视频文件中提取出与目标行为相关的骨骼序列，并从骨骼序列中提取出所有活体的骨骼特征，骨骼特征基于活体姿态特征确定，活体姿态特征基于预设的目标行为对应的关键点权重系数序列确定；处理模块502，还用于基于所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

在一种可能的实现方式中，处理模块502具体用于：从视频文件中提取出与目标行为相关的RGB序列，并从RGB序列中提取出RGB特征；对RGB特征和所有活体的骨骼特征进行融合，基于融合后的RGB特征和所有活体的骨骼特征对目标行为进行识别，得到视频文件中目标行为的识别结果。

在一种可能的实现方式中，处理模块502具体用于：从骨骼序列中确定帧差信息；基于帧差信息对骨骼序列以及骨骼序列中的活体进行编码；根据预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于活体姿态特征确定活体姿态时序特征，预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；基于活体姿态时序特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，处理模块502具体用于：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，确定所有活体的骨骼特征。

在一种可能的实现方式中，处理模块502具体用于：将骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征；活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

在一种可能的实现方式中，处理模块502具体用于：若在视频文件中的图像中检测到活体，确定图像与目标行为相关；在每张与目标行为相关的图像中标识出活体关键点，得到与目标行为相关的骨骼序列。

如图10所示，本申请实施例还提供了一种骨骼特征提取模型训练装置，用于上述方法实施例所示的骨骼特征提取模型训练方法。该骨骼特征提取模型训练装置600包括：获取模块处理和处理模块602。

其中，获取模块601，用于获取训练样本集，以及每种行为类别对应的关键点权重系数序列，训练样本集包括多张图像，图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；处理模块602，用于基于训练样本集中多张图像中的活体关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，处理模块602具体用于：基于训练样本集中多张图像中的活体关键点，确定帧差信息；基于帧差信息对多张图像以及多张图像中的活体进行编码；根据每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；基于活体姿态特征，确定活体姿态时序特征；基于活体姿态时序特征，得到所有活体的骨骼特征；根据所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

在一种可能的实现方式中，处理模块602具体用于：基于活体姿态时序特征，确定活体交互特征；基于活体交互特征，得到所有活体的骨骼特征。

在一种可能的实现方式中，获取模块601还用于，获取多张图像；处理模块602具体用于，标识出每张图像中的活体关键点，得到训练样本集。

需要说明的是，图9和图10中中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，还可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请另一实施例还提供一种电子设备，如图11所示，电子设备700包括存储器701和处理器702；存储器701和处理器702耦合；存储器701用于存储计算机程序代码，计算机程序代码包括计算机指令。其中，当处理器702执行计算机指令时，使得电子设备700执行上述方法实施例所示的方法流程中电子设备执行的各个步骤。

在实际实现时，获取模块501和处理模块502可以由图11所示的处理器702调用存储器701中的计算机程序代码来实现。其具体的执行过程可参考上述行为识别方法部分的描述，这里不再赘述。

在实际实现时，获取模块601和处理模块602可以由图11所示的处理器702调用存储器701中的计算机程序代码来实现。其具体的执行过程可参考上述骨骼特征提取模型训练方法部分的描述，这里不再赘述。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述方法实施例所示的方法流程中电子设备执行的各个步骤。

在本申请另一实施例中还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述方法实施例所示的方法流程中电子设备执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

获取待识别目标行为的视频文件；

从所述视频文件中提取出与所述目标行为相关的骨骼序列，并从所述骨骼序列中提取出所有活体的骨骼特征，所述骨骼特征基于活体姿态特征确定，所述活体姿态特征基于预设的目标行为对应的关键点权重系数序列确定；

基于所述所有活体的骨骼特征对所述目标行为进行识别，得到所述视频文件中所述目标行为的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述所有活体的骨骼特征对所述目标行为进行识别，得到所述视频文件中所述目标行为的识别结果，包括：

从所述视频文件中提取出与所述目标行为相关的RGB序列，并从所述RGB序列中提取出RGB特征；

对所述RGB特征和所述所有活体的骨骼特征进行融合，基于融合后的所述RGB特征和所述所有活体的骨骼特征对所述目标行为进行识别，得到所述视频文件中所述目标行为的识别结果。

3.根据权利要求1所述的方法，其特征在于，所述从所述骨骼序列中提取出所有活体的骨骼特征，包括：

从所述骨骼序列中确定帧差信息；

基于所述帧差信息对所述骨骼序列以及所述骨骼序列中的活体进行编码；

根据所述预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于所述活体姿态特征确定活体姿态时序特征，所述预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

基于所述活体姿态时序特征，确定所有活体的骨骼特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述活体姿态时序特征，确定所有活体的骨骼特征，包括：

基于所述活体姿态时序特征，确定活体交互特征；

基于所述活体交互特征，确定所有活体的骨骼特征。

5.根据权利要求1所述的方法，其特征在于，所述从所述骨骼序列中提取出所有活体的骨骼特征，包括：

将所述骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征；

所述活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，所述训练样本集包括多张图像，所述图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述从所述视频文件中提取出与所述目标行为相关的骨骼序列，包括：

若在所述视频文件中的图像中检测到活体，确定所述图像与所述目标行为相关；

在每张与所述目标行为相关的图像中标识出活体关键点，得到与所述目标行为相关的骨骼序列。

7.一种骨骼特征提取模型训练方法，其特征在于，包括：

获取训练样本集，以及每种行为类别对应的关键点权重系数序列，所述训练样本集包括多张图像，所述图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

基于所述训练样本集中多张图像中的活体关键点，以及所述每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述训练样本集中多张图像中的活体关键点，以及所述每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型，包括：

基于所述训练样本集中多张图像中的活体关键点，确定帧差信息；

基于所述帧差信息对所述多张图像以及所述多张图像中的活体进行编码；

根据所述每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；

基于所述活体姿态特征，确定活体姿态时序特征；

基于所述活体姿态时序特征，得到所有活体的骨骼特征；

根据所述所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述活体姿态时序特征，得到所有活体的骨骼特征，包括：

基于所述活体姿态时序特征，确定活体交互特征；

基于所述活体交互特征，得到所有活体的骨骼特征。

10.根据权利要求7-9任一项所述的方法，其特征在于，所述获取训练样本集，包括：

获取多张图像；

标识出每张所述图像中的活体关键点，得到所述训练样本集。

11.一种行为识别装置，其特征在于，包括：

获取模块，用于获取待识别目标行为的视频文件；

处理模块，用于从所述视频文件中提取出与所述目标行为相关的骨骼序列，并从所述骨骼序列中提取出所有活体的骨骼特征，所述骨骼特征基于活体姿态特征确定，所述活体姿态特征基于预设的目标行为对应的关键点权重系数序列确定；

所述处理模块，还用于基于所述所有活体的骨骼特征对所述目标行为进行识别，得到所述视频文件中所述目标行为的识别结果。

12.根据权利要求11所述的装置，其特征在于，

所述处理模块具体用于：从所述视频文件中提取出与所述目标行为相关的RGB序列，并从所述RGB序列中提取出RGB特征；对所述RGB特征和所述所有活体的骨骼特征进行融合，基于融合后的所述RGB特征和所述所有活体的骨骼特征对所述目标行为进行识别，得到所述视频文件中所述目标行为的识别结果；

所述处理模块具体用于：从所述骨骼序列中确定帧差信息；基于所述帧差信息对所述骨骼序列以及所述骨骼序列中的活体进行编码；根据所述预设的目标行为对应的关键点权重系数序列，以及编码后的骨骼序列确定活体姿态特征，并基于所述活体姿态特征确定活体姿态时序特征，所述预设的目标行为对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；基于所述活体姿态时序特征，确定所有活体的骨骼特征；

所述处理模块具体用于：基于所述活体姿态时序特征，确定活体交互特征；基于所述活体交互特征，确定所有活体的骨骼特征；

所述处理模块具体用于：将所述骨骼序列输入至活体骨骼特征提取模型中，得到所有活体的骨骼特征；所述活体骨骼特征提取模型基于训练样本集中每张图像中的活体的关键点，以及每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练得到，所述训练样本集包括多张图像，所述图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

所述处理模块具体用于：若在所述视频文件中的图像中检测到活体，确定所述图像与所述目标行为相关；在每张与所述目标行为相关的图像中标识出活体关键点，得到与所述目标行为相关的骨骼序列。

13.一种骨骼特征提取模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本集，以及每种行为类别对应的关键点权重系数序列，所述训练样本集包括多张图像，所述图像中标识出每个活体的关键点，任意一种行为类别对应的关键点权重系数序列中包括与每个活体关键点对应的权重系数；

处理模块，用于基于所述训练样本集中多张图像中的活体关键点，以及所述每种行为类别对应的关键点权重系数序列，对预设的图卷积网络进行训练，得到骨骼特征提取模型。

14.根据权利要求13所述的装置，其特征在于，

所述处理模块具体用于：基于所述训练样本集中多张图像中的活体关键点，确定帧差信息；基于所述帧差信息对所述多张图像以及所述多张图像中的活体进行编码；根据所述每种行为类别对应的关键点权重系数序列，以及编码后的骨骼序列，确定活体姿态特征；基于所述活体姿态特征，确定活体姿态时序特征；基于所述活体姿态时序特征，得到所有活体的骨骼特征；根据所述所有活体的骨骼特征，以及所有活体对应的预设骨骼特征，对预设的图卷积网络进行训练，得到骨骼特征提取模型；

所述处理模块具体用于：基于所述活体姿态时序特征，确定活体交互特征；基于所述活体交互特征，得到所有活体的骨骼特征；

所述获取模块还用于，获取多张图像；所述处理模块具体用于，标识出每张所述图像中的活体关键点，得到所述训练样本集。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

其中，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述电子设备执行权利要求1至6任一项所述的行为识别方法，或者权利要求7-10任一项所述的骨骼特征提取模型的训练方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行权利要求1至6任一项所述的行为识别方法，或者权利要求7-10任一项所述的骨骼特征提取模型的训练方法。