CN113255408B

CN113255408B - 行为识别方法、装置、电子设备及存储介质

Info

Publication number: CN113255408B
Application number: CN202010089600.5A
Authority: CN
Inventors: 王丹丹
Original assignee: Lumi United Technology Co Ltd
Current assignee: Lumi United Technology Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2024-03-29
Anticipated expiration: 2040-02-11
Also published as: CN113255408A

Abstract

本发明公开了一种行为识别方法、装置、电子设备及存储介质，所述行为识别方法包括：针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，第一骨架序列包含第一数量个对应于图像帧的骨架信息，第一骨架序列通过其所包含的第一数量个骨架信息反映生物以第一速度执行动作；对第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，第二骨架序列通过其所包含的第二数量个骨架信息反映生物以第二速度执行动作；根据第一骨架序列和第二骨架序列，对第一数量个图像帧中生物执行的动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果。采用本发明解决了现有技术中行为识别的准确率不高的问题。

Description

行为识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种行为识别方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，人工智能逐渐从梦想变为现实。行为识别在人机交互、医疗诊断监护、安防监控系统等人工智能领域具有极高的应用价值。

行为识别的目的主要在于分析图像中人的动作以及多人之间的交互，目前，行为识别方法是获取动作的骨架信息，然后基于该动作的骨架信息对该动作进行识别，由此得到动作识别结果。

然而，发明人发现，由于动作被人执行时一致性难以保证，这就导致了行为识别因动作的多样性而准确性较差的问题。

发明内容

本发明各实施例提供一种行为识别方法、装置、电子设备及存储介质，以解决相关技术中存在的行为识别的准确率不高的问题。

其中，本发明所采用的技术方案为：

根据本发明的一个方面，一种行为识别方法，包括：针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作；对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作；根据所述第一骨架序列和所述第二骨架序列，对第一数量个图像帧中所述生物执行的所述动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果。

根据本发明的一个方面，一种行为识别装置，其特征在于，包括：序列获取模块，用于针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息，所述骨架信息用于表示生物执行动作时在对应图像帧中的关节点位置，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作；采样处理模块，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作；动作识别模块，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作。

在一个实施例中，所述动作识别模块，包括：位移序列计算单元，用于根据所述第一骨架序列中的相邻骨架信息，计算得到包含第一数量个位移信息的第一位移序列，以及根据所述第二骨架序列中的相邻骨架信息，计算得到包含第二数量个位移信息的第二位移序列；骨架信息更新单元，用于由所述第一骨架序列中的骨架信息和所述第一位移序列中的位移信息形成第一数量个对应于图像帧的第一骨架更新信息，以及由所述第二骨架序列中的骨架信息和所述第二位移序列中的位移信息形成第二数量个对应于图像帧的第二骨架更新信息；动作识别单元，用于根据第一数量个第一骨架更新信息和第二数量个第二骨架更新信息，对第一数量个图像帧进行关于所述生物执行所述动作的动作识别，得到第一数量个对应于图像帧的动作识别结果。

在一个实施例中，所述位移序列计算单元，包括：相邻骨架定义子单元，用于针对所述待处理图像序列中的每一个图像帧，将对应于该图像帧的骨架信息以及其前一个骨架信息作为相邻骨架信息；差值计算子单元，用于计算所述相邻骨架信息中两个骨架信息之间的差值，得到对应于该图像帧的位移信息；位移序列形成子单元，用于由第一数量个对应于图像帧的位移信息形成所述第一位移序列。

在一个实施例中，所述骨架信息更新单元，包括：信息拼接子单元，用于针对所述待处理图像序列中的每一个图像帧，对所述第一骨架序列中对应于该图像帧的骨架信息，以及所述第一位移序列中对应于该图像帧的位移信息进行拼接，得到对应于该图像帧的第一骨架更新信息。

在一个实施例中，所述动作识别单元，包括：类型预测子单元，用于将第一数量个第一骨架更新信息和第二数量个第二骨架更新信息分别输入行为识别模型，对所述待处理图像序列中每一个图像帧所包含所述生物执行的所述动作进行动作类型预测，得到该图像帧的第一预测结果和第二预测结果；平均运算子单元，用于对该图像帧的第一预测结果和第二预测结果进行平均运算，得到该图像帧的第三预测结果；识别结果定义子单元，用于将该图像帧的第三预测结果作为该图像帧的动作识别结果。

在一个实施例中，如上所述的装置，还包括：模型训练模块，用于对机器学习模型进行训练，生成所述行为识别模型；所述模型训练模块，包括：样本获取单元，用于获取训练样本集，所述训练样本集包括已进行动作类型标记的多个图像样本帧；预测结果获取单元，用于根据所述训练样本集的其中一个图像样本帧和所述机器学习模型的参数，预测得到该图像样本帧的第一预测结果、第二预测结果，并根据该图像样本帧的第一预测结果和第二预测结果进行的平均运算，得到该图像样本帧的第三预测结果；损失值计算单元，用于基于指定函数，根据该图像样本帧的第一预测结果、第二预测结果和第三预测结果，分别计算得到所述机器学习模型的第一损失值、第二损失值和第三损失值；综合损失值计算单元，用于由所述机器学习模型的第一损失值、第二损失值和第三损失值，计算得到所述机器学习模型的综合损失值；参数更新单元，用于如果所述机器学习模型的综合损失值未满足收敛条件，则通过所述机器学习模型的综合损失值进行反向传播，对所述机器学习模型的参数进行更新；模型收敛单元，用于根据所述训练样本集中的后一个图像样本帧和所述机器学习模型更新后的参数，继续对所述机器学习模型进行训练，直至所述机器学习模型的综合损失值满足所述收敛条件，由所述机器学习模型收敛得到所述行为识别模型。

在一个实施例中，如上所述的装置，还包括：归一化处理模块，用于对所述第一骨架序列和所述第二骨架序列进行归一化处理，使得所述动作识别根据归一化处理后的第一骨架序列和归一化处理后的第二骨架序列进行。

在一个实施例中，所述采样处理为下采样处理。

在一个实施例中，所述序列获取模块，包括：位置定位单元，用于针对所述待处理图像序列中的每一个图像帧，对所述生物执行所述动作时在该图像帧中的多个关节点进行位置定位，得到该图像帧的多个关节点位置；骨架信息生成单元，用于由该图像帧的多个关节点位置，生成对应于该图像帧的骨架信息；骨架序列形成单元，用于由第一数量个对应于图像帧的骨架信息形成所述第一骨架序列。

根据本发明的一个方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的行为识别方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的行为识别方法。

在上述技术方案中，通过采样处理，使得动作被描述成生物以不同速度执行，进而使得动作识别能够适应动作因速度变化而产生的多样性，以此解决现有技术中行为识别的准确率不高的问题。

具体地，针对待处理图像序列中的第一数量个图像帧，获得包含第一数量个骨架信息的第一骨架序列，并对第一骨架序列进行采样处理，获得包含第二数量个骨架信息的第二骨架序列，以根据第一骨架序列和第二骨架序列，对第一数量个图像帧中生物执行的动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果，也就是说，由于第一骨架序列通过其所包含的第一数量个骨架信息反映了生物以第一速度执行动作，而第二骨架序列则通过其所包含的第二数量个骨架信息反映了生物以第二速度执行动作，使得行为识别能够同时适应不同速度的动作，从而有利于提升行为识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的一种实施环境的示意图。

图2是根据一示例性实施例示出的一种电子设备的硬件结构图。

图3是根据一示例性实施例示出的一种行为识别方法的流程图。

图4是图3对应实施例所涉及的人体关节点的示意图。

图5是图3对应实施例中步骤310在一个实施例的流程图。

图6是图3对应实施例中步骤350在一个实施例的流程图。

图7是图6对应实施例中步骤351在一个实施例的流程图。

图8是图6对应实施例中步骤355在一个实施例的流程图。

图9是根据一示例性实施例示出的另一种行为识别方法的流程图。

图10是根据一示例性实施例示出的一种行为识别装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种行为识别方法所涉及的一种实施环境的示意图。需要说明的是，该种实施环境只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。

该种实施环境包括采集端110和服务端130。

具体地，采集端110，用于在生物执行动作过程中拍摄并采集包含第一数量个图像帧的待处理图像序列。该采集端110可以是摄像机、录像机、智能摄像机或者其他具有拍摄功能的电子设备，例如智能手机、平板电脑等，在此不构成具体限定。该采集端110可以固定部署于建筑内，也可以手持拍摄，此处也不对此加以限定。其中，生物包括但不限于人、动物。

服务端130，该服务端130可以是台式电脑、笔记本电脑、平板电脑、服务器等等电子设备，还可以是由多台服务器构成的计算机设备集群，甚至是由多台服务器构成的云计算中心。其中，服务器是为用户提供后台服务的电子设备，例如，后台服务包括但不限于行为识别服务等等。

服务端130与采集端110之间预先建立网络通信连接，并通过网络通信连接实现与采集端110之间的数据传输。传输的数据包括但不限于：待分析图像序列、动作识别结果等等。

通过采集端110与服务端130的交互，采集端110在用户执行动作过程中拍摄并采集待处理图像序列，并将该待处理图像序列上传至服务端130，以使服务端130提供行为识别服务。

对于服务端130而言，在接收到采集端110上传的待处理图像序列之后，便能够调用行为识别服务，对待处理图像序列中的第一数量个图像帧进行动作识别处理，得到第一数量个对应于图像帧的动作识别结果。

当然，根据运营的实际情况，或者，随着计算机处理能力的逐渐强大，采集端110和服务端130，还可部署于同一个电子设备，使得行为识别服务由该同一个电子设备提供，此处并非对此构成具体限定。

图2是根据一示例性实施例示出的一种电子设备的硬件结构图。该电子设备可以是图1中实施环境所示出的服务端130，例如，台式电脑、笔记本电脑、平板电脑、服务器等等，此处不构成具体限定。

需要说明的是，该种电子设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。

电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，电子设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU，Central Processing Units)270。

具体地，电源210用于为电子设备200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口，用于与外部设备交互。例如，通过该至少一有线或无线网络接口获取待处理图像序列。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如，行为识别装置可视为部署于电子设备200的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是待处理图像序列、动作识别结果等等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成行为识别方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种行为识别方法适用于电子设备，该电子设备的结构可以如图3所示。

该种行为识别方法可以由电子设备执行，也可以理解为由电子设备中运行的应用程序(即行为识别装置)执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为电子设备(譬如图1中服务端)加以说明，但是并不对此构成限定。

该种行为识别方法可以包括以下步骤：

步骤310，针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列。

首先说明的是，待处理图像序列，包含第一数量个图像帧。

该图像帧，是采集端在生物执行动作过程中对生物执行的动作进行拍摄和采集生成的。可以理解，拍摄可以是单次拍摄，还可以是连续性拍摄，那么，对于连续性拍摄而言，待处理图像序列实质是包含第一数量个图像帧的一段视频，即，图像帧对应于视频中的某个画面；而就单次拍摄来说，待处理图像序列则是包含第一数量个图像帧的多张图片，即，图像帧为一张图片。基于此，本实施例中行为识别可以是基于一段视频，还可以是基于多张图片。

其次，关于待处理图像序列中图像帧的获取，可以是采集端实时采集并上传至服务端，还可以是预先存储于服务端的一历史时间段由采集端采集并上传的。那么，后续的行为识别，既可以基于实时拍摄的图像帧，以此提高行为识别的实时性，还可以基于预先存储的图像帧，以此提高行为识别的识别效率。例如，在电子设备内存利用率较低时进行，本实施例对此并未加以限定。

在获得包含第一数量个图像帧的待处理图像序列之后，便可从中获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息。

该骨架信息，用于表示生物执行动作时在对应图像帧中的多个关节点。如图4所示，关节点包括但不限于：头关节1、肩关节2和5、肘关节3和6、腕关节4和7、膝关节9和12、踝关节10和13等等。

下面对第一骨架序列的获取过程进行详细地说明。

如图5所示，在一实施例的实现中，第一骨架序列的获取过程可以包括以下步骤：

步骤311，针对所述待处理图像序列中的每一个图像帧，对所述生物执行所述动作时在该图像帧中的多个关节点进行位置定位，得到该图像帧的多个关节点位置。

步骤313，由该图像帧的多个关节点位置，生成对应于该图像帧的骨架信息。

步骤315，由第一数量个对应于图像帧的骨架信息形成所述第一骨架序列。

应当理解，生物执行动作时在图像帧中的关节点，实质是由像素点构成的，而像素点在图像帧中具有唯一的位置，由坐标(x,y)进行表示，基于此，关节点在图像帧中的像素点位置即视为该关节点在该图像帧中的关节点位置。

本实施例中，位置定位，通过关键点模型实现。该关键点模型，实质是在图像帧中的像素点与关节点类别之间构建了数学映射关系。

具体地，将待处理图像序列中的每一个图像帧分别输入关键点模型，对该图像帧中像素点进行关节点类别预测，得到该图像帧中像素点的关节点类别。待该图像帧中所有像素点完成预测，便能够得到生物执行动作时在该图像帧中的多个关节点。

然后，根据像素点在图像帧中的位置，便能够得到该多个关节点分别在该图像帧中的关节点位置，即该图像帧的多个关节点位置。

最后，根据该图像帧多个关节点位置，得到该图像帧对应的骨架信息，进而根据待处理图像序列中每一个图像帧对应的骨架信息，形成第一骨架序列。其中，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作。

步骤330，对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列。

采样处理包括上采样处理和下采样处理，以使第二骨架序列所包含骨架信息的第二数量区别于第一骨架序列所包含骨架信息的第一数量。

举例来说，假设第一骨架序列＝{第1帧骨架信息、第2帧骨架信息、……、第9帧骨架信息}，即第一数量为9。

其中，第1帧骨架信息对应于待处理图像序列中的第1个图像帧，以此类推，第9帧骨架信息对应于待处理图像序列中的第9个图像帧。

当采样处理为2倍上采样处理，则第二数量为9×2＝18，第二骨架序列＝{第1帧骨架信息、第1帧骨架信息、第2帧骨架信息、第2帧骨架信息、……、第9帧骨架信息、第9帧骨架信息}。

当采样处理为3倍下采样处理，则第二数量为9/3＝3，第二骨架序列＝{第1帧骨架信息、第4帧骨架信息、第7帧骨架信息}。

由上可知，通过上采样处理，第二骨架序列所包含骨架信息的第二数量大于第一骨架序列所包含骨架信息的第一数量，反之，通过下采样处理，第二骨架序列所包含骨架信息的第二数量小于第一骨架序列所包含骨架信息的第一数量。

如前所述，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作，相应地，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作。该第二速度区别于第一速度。

基于不同的采样处理，第一速度与第二速度的快慢程度也将有所差别。例如，当采样处理为上采样处理时，第一速度大于第二速度，反之，当采样处理为下采样处理，第一速度小于第二速度。

步骤350，根据所述第一骨架序列和所述第二骨架序列，对第一数量个图像帧中所述生物执行的所述动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果。

本实施例中，动作识别，通过行为识别模型实现。该行为识别模型，由机器学习模型进行训练生成，实质是在由骨架序列中骨架信息反映的生物所执行动作与动作类型之间构建了数学映射关系。

那么，基于该数学映射关系，便可由第一骨架序列中的骨架信息和第二骨架序列中的骨架信息，映射得到骨架信息反映的生物所执行动作所属的动作类型，即视为动作识别结果。

通过如上所述的过程，形成了反映不同速度动作的骨架序列，使得行为识别能够同时适应不同速度的动作，增强了行为识别关于动作多样性的鲁棒性，从而有利于提升行为识别的准确率。

在一示例性实施例中，步骤330之后，如上所述的方法还可以包括以下步骤：

对所述第一骨架序列和所述第二骨架序列进行归一化处理，使得上述步骤350所涉及的动作识别，是根据归一化处理后的第一骨架序列和归一化处理后的第二骨架序列进行的。

在此，仅对第一骨架序列的归一化处理过程进行详细地说明，第二骨架序列的归一化处理过程同理于第一骨架序列的归一化处理过程，则不再重复描述。

具体而言，根据第一骨架序列所包含骨架信息中的所有关节点位置，分别计算x轴上和y轴上的最大值和最小值。

计算x轴上的最大值与最小值之间的差值，以及计算y轴上的最大值与最小值之间的差值。

从第一骨架序列所包含骨架信息中的所有关节点位置，选取任意一个关节点位置，作为基础关节点位置。

针对第一骨架序列所包含骨架信息中的每一个关节点位置，计算该关节点位置与基础关节点位置之间的差值，并根据计算得到的差值更新该关节点位置。

计算该关节点位置分别与x轴上最小值、y轴上最小值之间的差值，并对应地与x轴上最大值与最小值之间的差值、y轴上最大值与最小值之间的差值求商，将商更新为该关节点位置。

待第一骨架序列所包含骨架信息中的所有关节点位置完成归一化处理，即完成第一骨架序列的归一化处理。

以第一骨架序列所包含的第t帧骨架信息中的第i+1个关节点位置{x_t,i,y_t,i}举例说明该关节点位置的归一化处理过程。

第一步：假设xmax、xmin分别表示第一骨架序列所包含骨架信息中的所有关节点位置在x轴上的最大值和最小值，而ymax、ymin分别表示第一骨架序列所包含骨架信息中的所有关节点位置在y轴上的最大值和最小值。

那么，xmax–xmin即表示x轴上的最大值与最小值之间的差值，ymax–xmin即表示y轴上的最大值与最小值之间的差值。

第二步：以第0帧骨架信息中的第1个关节点位置＝{x_0,0,y_0,0}作为基础关节点位置。

第三步：x_t,i＝x_t,i–x_0,0、y_t,i＝y_t,i–y_0,0。

第四步：x_t,i＝(x_t,i-xmin)/(xmax–xmin)、y_t,i＝(y_t,i-xmin)/(ymax–xmin)。

在上述实施例的作用下，分别实现了第一骨架序列和第二骨架序列的归一化处理，进而有利于进一步充分地保障行为识别的准确率。

请参阅图6，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，根据所述第一骨架序列中的相邻骨架信息，计算得到包含第一数量个位移信息的第一位移序列，以及根据所述第二骨架序列中的相邻骨架信息，计算得到包含第二数量个位移信息的第二位移序列。

下面对第一位移序列的计算过程进行详细地说明，第二位移序列的计算过程同理于第一位移序列的计算过程，在此不再重复地描述。

具体而言，如图7所示，第一位移序列的计算过程可以包括以下步骤：

步骤3511，针对所述待处理图像序列中的每一个图像帧，将对应于该图像帧的骨架信息以及其前一个骨架信息作为相邻骨架信息。

步骤3513，计算所述相邻骨架信息中两个骨架信息之间的差值，得到对应于该图像帧的位移信息。

步骤3515，由第一数量个对应于图像帧的位移信息形成所述第一位移序列。

以第一骨架序列所包含的第t帧骨架信息中的第i+1个关节点位置{x_t,i,y_t,i}举例说明第一位移序列的计算过程。

第一步：第t-1帧骨架信息中的第i+1个关节点位置{x_t-1,i,y_t-1,i}与第t帧骨架信息中的第i+1个关节点位置{x_t,i,y_t,i}视为关于第i+1个关节点位置的相邻骨架信息。

第二步：实质是针对每一个关节点位置，计算相邻骨架信息中第t帧骨架信息与第t-1帧骨架信息之间的差值。

例如，dx_t,i＝x_t,i-x_t-1,i,dy_t,i＝y_t,i-y_t-1,i表示关于第i+1个关节点位置的对应于第t个图像帧的位移信息。

值得一提的是，对于第0帧骨架信息而言，由于不存在相邻骨架信息，故而，关于第i+1个关节点位置的对应于第0个图像帧的位移信息，可以表示为dx_0,i＝x_0,i-0,dy_0,i＝y_0,i-0，或者，表示为dx_0,i＝0,dy_0,i＝0，此处并未加以限定。

待关于所有关节点位置的对应于第t个图像帧的位移信息计算完毕，方可得到对应于第t个图像帧的位移信息。

待对应于待处理图像序列中所有图像帧的位移信息计算完毕，便能够进一步地得到包含第一数量个位移信息的第一位移序列。

由此，便能够分别实现第一位移序列、第二位移序列的计算过程。

步骤353，由所述第一骨架序列中的骨架信息和所述第一位移序列中的位移信息形成第一数量个对应于图像帧的第一骨架更新信息，以及由所述第二骨架序列中的骨架信息和所述第二位移序列中的位移信息形成第二数量个对应于图像帧的第二骨架更新信息。

在获得第一位移序列和第二位移序列之后，便可分别对第一骨架序列中的骨架信息、第二骨架序列中的骨架信息进行更新处理。

更新处理，可以是拼接对应于同一个图像帧的骨架信息、位移信息，也可以是累加对应于同一个图像帧的骨架信息和位移信息。

在一个实施例中，针对所述待处理图像序列中的每一个图像帧，对所述第一骨架序列中对应于该图像帧的骨架信息，以及所述第一位移序列中对应于该图像帧的位移信息进行拼接，得到对应于该图像帧的第一骨架更新信息。

同理，针对所述待处理图像序列中的每一个图像帧，对所述第二骨架序列中对应于该图像帧的骨架信息，以及所述第二位移序列中对应于该图像帧的位移信息进行拼接，得到对应于该图像帧的第二骨架更新信息。

仍以前述例子中，第一骨架序列所包含的第t帧骨架信息中的第i+1个关节点位置{x_t,i,y_t,i}对此进行说明。

假设，{x_t,i,y_t,i}表示第一骨架序列中关于第i+1个关节点位置的对应于第t个图像帧的骨架信息。

dx_t,i＝x_t,i-x_t-1,i,dy_t,i＝y_t,i-y_t-1,i，即{dx_t,i,dy_t,i}表示第一位移序列中关于第i+1个关节点位置的对应于第t个图像帧的位移信息。

那么，关于第i+1个关节点位置的对应于第t个图像帧的第一骨架更新信息，表示为(x_t,i,y_t,i,dx_t,i,dy_t,i)。

待关于所有关节点位置的对应于第t个图像帧的第一骨架信息更新完毕，方可得到第一数量个对应于第t个图像帧的第一骨架更新信息。

由此，方可实现第一数量个的第一骨架信息、第二数量个的第二骨架信息的更新处理。

在上述过程中，利用相邻骨架信息之间的差值所形成的位移信息，使得由该位移信息所反映的生物动态特征被引入至仅反映生物静态特征的骨架信息，从而使得骨架更新信息能够更好地表达生物执行的动作，进而有利于进一步地提升行为识别的准确率。

步骤355，根据第一数量个第一骨架更新信息和第二数量个第二骨架更新信息，对第一数量个图像帧进行关于所述生物执行所述动作的动作识别，得到第一数量个对应于图像帧的动作识别结果。

具体而言，如图8所示，动作识别过程可以包括以下步骤：

步骤3551，将第一数量个第一骨架更新信息和第二数量个第二骨架更新信息分别输入行为识别模型，对所述待处理图像序列中每一个图像帧所包含所述生物执行的所述动作进行动作类型预测，得到该图像帧的第一预测结果和第二预测结果。

其中，动作类型预测，实质是基于第一骨架更新信息、第二骨架更新信息，分别计算该些骨架信息反映的生物所执行动作属于不同动作类型的概率。

由此，对于每一个图像帧而言，第一预测结果用于表示第一骨架更新信息反映的生物所执行动作属于不同动作类型的概率，第二预测结果用于表示第二骨架更新信息反映的生物所执行动作属于不同动作类型的概率。

举例来说，待处理图像序列包括4个图像帧，可获得包含4个对应于图像帧的骨架信息的第一骨架序列，即第一骨架序列＝{第1帧骨架信息、第2帧骨架信息、第3帧骨架信息、第4帧骨架信息}。

通过2倍下采样处理，可获得包含2个对应于图像帧的骨架信息的第二骨架序列，即第二骨架序列＝{第1帧骨架信息、第3帧骨架信息}。

由此，第一数量＝4，第二数量＝2。

经过位移、更新等处理，可获得4个第一骨架更新信息、以及2个第二骨架更新信息。

假设动作类型包括跳跃和蹲下。

那么，就待处理图像序列中的第1个图像帧来说，将其对应的第一骨架更新信息输入行为识别模型进行动作类型预测，将分别得到该第一骨架更新信息反映的生物所执行动作属于跳跃动作类型的概率为M11，属于蹲下动作类型的概率为M21。其中，M11+M21＝1。

同理，其余第一骨架更新信息、第二骨架更新信息的动作类型预测过程不在此处重复描述。

假设，在待处理图像帧序列中，对于第1个图像帧而言，第一预测结果＝{跳跃＝M11，蹲下＝M21}，第二预测结果＝{跳跃＝N11，蹲下＝N21}。

对于第2个图像帧而言，由于下采样处理使得第二骨架序列中不存在对应的骨架信息，则不存在第二预测结果，故而，第一预测结果＝{跳跃＝M12，蹲下＝M22}。

对于第3个图像帧而言，第一预测结果＝{跳跃＝M13，蹲下＝M23}，第二预测结果＝{跳跃＝N13，蹲下＝N23}。

对于第4个图像帧而言，第一预测结果＝{跳跃＝M14，蹲下＝M24}。

步骤3553，对该图像帧的第一预测结果和第二预测结果进行平均运算，得到该图像帧的第三预测结果。

仍以前述例子进行说明，就第1个图像帧来说，第一骨架更新信息和第二骨架更新信息均是对第1帧骨架信息进行更新，那么，可以理解，无论是第一预测结果，还是第二预测结果，由第1帧骨架信息反映的生物所执行动作属于不同动作类型的概率应当基本一致，否则，必然导致动作识别结果存在误差。

因此，本实施例中，在获得图像帧的第一预测结果和第二预测结果之后，需要以此进一步获得该图像帧的第三预测结果，使得后续的动作识别结果以第三预测结果为准，避免因第一预测结果和第二预测结果差异太大而导致动作识别结果出现误差，从而进一步充分地保证行为识别的准确率。

即，第三预测结果＝(第一预测结果+第二预测结果)/2。

例如，对于第1个图像帧而言，第三预测结果＝{跳跃＝(M11+N11)/2，蹲下＝(M21+N21)/2}。

对于第2个图像帧而言，由于不存在第二预测结果，也可以理解为，第二预测结果＝{0,0}，则第三预测结果＝第一预测结果＝{跳跃＝M12，蹲下＝M22}。

对于第3个图像帧而言，第三预测结果＝{跳跃＝(M13+N13)/2，蹲下＝(M23+N23)/2}。

对于第4个图像帧而言，也不存在第二预测结果，或者，理解为第二预测结果＝{0,0}，则第三预测结果＝第一预测结果＝{跳跃＝M14，蹲下＝M24}。

步骤3555，将该图像帧的第三预测结果作为该图像帧的动作识别结果。

其中，对于每一个图像帧而言，动作识别结果，用于表示该图像帧中生物执行的动作所属的动作类型。

继续以前述例子进行说明，例如，对于第1个图像帧而言，第三预测结果＝{跳跃＝P1＝(M11+N11)/2，蹲下＝P2＝(M21+N21)/2}。

那么，如果P1>P2，则动作识别结果为跳跃，表示该第1个图像帧中生物执行的动作属于跳跃动作类型，反之，如果P1<P2，则行为识别结果为蹲下，表示该第1个图像帧中生物执行的动作属于蹲下动作类型。

在上述实施例的作用下，实现了基于不同骨架更新信息的动作识别，使得动作识别不再依赖于执行动作的一致性，从而保证了行为识别的准确率。

在一示例性实施例中，步骤3551之前，如上所述的方法还可以包括以下步骤：

对机器学习模型进行训练，生成所述行为识别模型。

其中，训练，实质是基于大量的训练样本集对机器学习模型的参数进行优化，使得机器学习模型在参数优化过程中逐步收敛为行为识别模型。

该机器学习模型包括但不限于：监督学习模型、无监督学习模型、强化学习模型。该监督学习模型进一步包括：卷积神经网络模型、循环神经网络模型、递归神经网络模型等等。

下面对机器学习模型的训练过程进行详细地说明。

如图9所示，在一实施例的实现中，机器学习模型的训练过程可以包括以下步骤：

步骤410，获取训练样本集，所述训练样本集包括已进行动作类型标记的多个图像样本帧。

其中，该图像样本帧是采集端在生物执行动作过程中拍摄并采集的。动作类型标记，是指在图像样本帧中标记生物所执行动作的动作类型。

例如，假设动作类型包括跳跃和蹲下，如果该图像样本帧是在生物执行跳跃动作过程中拍摄并采集的，则该图像样本帧中标记“跳跃”文字，或者，如果该图像样本帧是在生物执行蹲下动作过程中拍摄并采集的，则该图像样本帧中标记“蹲下”文字。

当然，在其他实施例中，标记，不局限于文字，还可以是数字、字符、图形、颜色等方式，此处并非构成具体限定。

由此，通过图像样本帧中已进行的动作类型标记，便反映出了动作类型的标记情况，以便于后续判断动作类型的预测情况是否足够好。

步骤420，根据所述训练样本集的其中一个图像样本帧和所述机器学习模型的参数，预测得到该图像样本帧的第一预测结果、第二预测结果。

首先，基于该图像样本帧，获取对应的第一骨架更新信息和第二骨架更新信息。

其次，基于机器学习模型的参数，分别将该第一更新骨架信息和第二更新骨架信息输入至机器学习模型，对该图像样本帧所包含生物执行的动作进行动作类型预测，由此得到该图像样本帧的第一预测结果、第二预测结果。

步骤430，根据该图像样本帧的第一预测结果和第二预测结果进行的平均运算，得到该图像样本帧的第三预测结果。

其中，第三预测结果＝(第一预测结果+第二预测结果)/2。

步骤440，基于指定函数，根据该图像样本帧的第一预测结果、第二预测结果和第三预测结果，分别计算得到所述机器学习模型的第一损失值、第二损失值和第三损失值。

其中，指定函数包括但不限于：期望函数、损失函数等等，该损失函数进一步包括：交叉熵函数、类内分布函数、类间分布函数、激活分类函数等。

步骤450，由所述机器学习模型的第一损失值、第二损失值和第三损失值，计算得到所述机器学习模型的综合损失值。

其中，综合损失值＝第一损失值+第二损失值+第三损失值。

该综合损失值用于描述动作类型的标记情况与动作类型的预测情况之间的差距。该综合损失值约小，则动作类型的预测情况越接近标记情况，即动作类型预测能力越强。

可以理解，此处的动作类型的预测情况，即第一预测结果、第二预测结果和第三预测结果，仅与该图像样本帧和机器学习模型的当前参数有关，如果该动作类型的预测情况足够良好，则无需更换图像样本帧，也无需更新机器学习模型的参数。

具体而言，为综合损失值设置一个损失阈值，作为综合损失值的收敛条件。该损失阈值可以根据应用场景的实际需求灵活地调整，此处不进行限定。

如果所述机器学习模型的综合损失值未满足收敛条件，表示动作类型的标记情况与动作类型的预测情况之间仍存在较大差距，则执行步骤460至步骤470，即更换图像样本帧，以及更新机器学习模型的参数。

反之，如果机器学习模型的综合损失值满足收敛条件，表示动作类型的标记情况与动作类型的预测情况之间的差距已足够小，则执行步骤480，即不再更换图像样本帧，也不再更新机器学习模型的参数，此时，机器学习模型的参数视为最优参数，具有该最优参数的机器学习模型将被视为行为识别模型。

步骤460，通过所述机器学习模型的综合损失值进行反向传播，对所述机器学习模型的参数进行更新。

步骤470，根据所述训练样本集中的后一个图像样本帧和所述机器学习模型更新后的参数，继续对所述机器学习模型进行训练，即返回执行步骤420。

步骤480，由所述机器学习模型收敛得到所述行为识别模型。

通过上述过程，行为识别模型，便具备了动作类型预测能力，不仅基于不同的预测结果，使得行为识别模型能够良好地适应动作因速度变化而产生的多样性，即能够对不同速度的动作进行动作类型预测，而且由于训练时综合考虑了多组损失值(第一、第二、第三损失值)的收敛情况，进而能够有效地提高行为识别模型预测动作类型的准确率。

下述为本发明装置实施例，可以用于执行本发明所涉及的行为识别方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的行为识别方法的方法实施例。

请参阅图10，在一示例性实施例中，一种行为识别装置900包括但不限于：序列获取模块910、采样处理模块930及动作识别模块950。

其中，序列获取模块910，用于针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息，所述骨架信息用于表示生物执行动作时在对应图像帧中的关节点位置，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作。

采样处理模块930，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作。

动作识别模块950，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作。

需要说明的是，上述实施例所提供的行为识别装置在进行行为识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即行为识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的行为识别装置与行为识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图11，在一示例性实施例中，一种电子设备1000，包括处理器1001以及存储器1002。

其中，所述存储器1002上存储有计算机可读指令。

所述计算机可读指令被所述处理器1001执行时实现上述各实施例中的行为识别方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的行为识别方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，包括：

针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息，所述第一骨架序列通过其所包含的第一数量个骨架信息反映生物以第一速度执行动作；

对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作；

根据所述第一骨架序列和所述第二骨架序列，对第一数量个图像帧中所述生物执行的所述动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一骨架序列和所述第二骨架序列，对第一数量个图像帧中所述生物执行的所述动作进行动作识别，得到第一数量个对应于图像帧的动作识别结果，包括：

根据所述第一骨架序列中的相邻骨架信息，计算得到包含第一数量个位移信息的第一位移序列，以及根据所述第二骨架序列中的相邻骨架信息，计算得到包含第二数量个位移信息的第二位移序列；

由所述第一骨架序列中的骨架信息和所述第一位移序列中的位移信息形成第一数量个对应于图像帧的第一骨架更新信息，以及由所述第二骨架序列中的骨架信息和所述第二位移序列中的位移信息形成第二数量个对应于图像帧的第二骨架更新信息；

根据第一数量个第一骨架更新信息和第二数量个第二骨架更新信息，对第一数量个图像帧进行关于所述生物执行所述动作的动作识别，得到第一数量个对应于图像帧的动作识别结果。

3.如权利要求2所述的方法，其特征在于，所述根据所述第一骨架序列中的相邻骨架信息，计算得到包含第一数量个位移信息的第一位移序列，包括：

针对所述待处理图像序列中的每一个图像帧，将对应于该图像帧的骨架信息以及其前一个骨架信息作为相邻骨架信息；

计算所述相邻骨架信息中两个骨架信息之间的差值，得到对应于该图像帧的位移信息；

由第一数量个对应于图像帧的位移信息形成所述第一位移序列。

4.如权利要求2所述的方法，其特征在于，所述由所述第一骨架序列中的骨架信息和所述第一位移序列中的位移信息形成第一数量个对应于图像帧的第一骨架更新信息，包括：

针对所述待处理图像序列中的每一个图像帧，对所述第一骨架序列中对应于该图像帧的骨架信息，以及所述第一位移序列中对应于该图像帧的位移信息进行拼接，得到对应于该图像帧的第一骨架更新信息。

5.如权利要求2所述的方法，其特征在于，所述根据第一数量个第一骨架更新信息和第二数量个第二骨架更新信息，对第一数量个图像帧进行关于所述生物执行动作的动作识别，得到第一数量个对应于图像帧的动作识别结果，包括：

将第一数量个第一骨架更新信息和第二数量个第二骨架更新信息分别输入行为识别模型，对所述待处理图像序列中每一个图像帧所包含所述生物执行的所述动作进行动作类型预测，得到该图像帧的第一预测结果和第二预测结果；

对该图像帧的第一预测结果和第二预测结果进行平均运算，得到该图像帧的第三预测结果；

将该图像帧的第三预测结果作为该图像帧的动作识别结果。

6.如权利要求5所述的方法，其特征在于，所述将第一数量个第一骨架更新信息和第二数量个第二骨架更新信息分别输入行为识别模型，对所述待处理图像序列中每一个图像帧所包含所述生物执行的所述动作进行动作类型预测，得到该图像帧的第一预测结果和第二预测结果之前，所述方法还包括：

对机器学习模型进行训练，生成所述行为识别模型；

所述对机器学习模型进行训练，生成所述行为识别模型，包括：

获取训练样本集，所述训练样本集包括已进行动作类型标记的多个图像样本帧；

根据所述训练样本集的其中一个图像样本帧和所述机器学习模型的参数，预测得到该图像样本帧的第一预测结果、第二预测结果，并根据该图像样本帧的第一预测结果和第二预测结果进行的平均运算，得到该图像样本帧的第三预测结果；

基于指定函数，根据该图像样本帧的第一预测结果、第二预测结果和第三预测结果，分别计算得到所述机器学习模型的第一损失值、第二损失值和第三损失值；

由所述机器学习模型的第一损失值、第二损失值和第三损失值，计算得到所述机器学习模型的综合损失值；

如果所述机器学习模型的综合损失值未满足收敛条件，则通过所述机器学习模型的综合损失值进行反向传播，对所述机器学习模型的参数进行更新；

根据所述训练样本集中的后一个图像样本帧和所述机器学习模型更新后的参数，继续对所述机器学习模型进行训练，直至所述机器学习模型的综合损失值满足所述收敛条件，由所述机器学习模型收敛得到所述行为识别模型。

7.如权利要求1所述的方法，其特征在于，所述对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列之后，所述方法还包括：

对所述第一骨架序列和所述第二骨架序列进行归一化处理，使得所述动作识别根据归一化处理后的第一骨架序列和归一化处理后的第二骨架序列进行。

8.如权利要求1至7任一项所述的方法，其特征在于，所述采样处理为下采样处理。

9.如权利要求1至7任一项所述的方法，其特征在于，所述针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，包括：

针对所述待处理图像序列中的每一个图像帧，对所述生物执行所述动作时在该图像帧中的多个关节点进行位置定位，得到该图像帧的多个关节点位置；

由该图像帧的多个关节点位置，生成对应于该图像帧的骨架信息；

由第一数量个对应于图像帧的骨架信息形成所述第一骨架序列。

10.一种行为识别装置，其特征在于，包括：

序列获取模块，用于针对待处理图像序列中的第一数量个图像帧，获取第一骨架序列，所述第一骨架序列包含第一数量个对应于图像帧的骨架信息，所述骨架信息用于表示生物执行动作时在对应图像帧中的关节点位置，所述第一骨架序列通过其所包含的第一数量个骨架信息反映所述生物以第一速度执行所述动作；

采样处理模块，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作；

动作识别模块，用于对所述第一骨架序列中的第一数量个骨架信息进行采样处理，得到包含第二数量个骨架信息的第二骨架序列，所述第二骨架序列通过其所包含的第二数量个骨架信息反映所述生物以第二速度执行所述动作。

11.一种电子设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至9中任一项所述的行为识别方法。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的行为识别方法。