CN115439922A

CN115439922A - 对象行为识别方法、装置、设备及介质

Info

Publication number: CN115439922A
Application number: CN202110610131.1A
Authority: CN
Inventors: 曹秋琦; 沈招益
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-12-06

Abstract

本申请提供一种对象行为识别方法、装置、设备及介质，涉及人工智能技术领域，用于提高识别对象行为的准确性，该方法包括：基于目标对象在视频片段中的图像特征，提取目标对象的行为特征，相当于获取了目标对象相对粗粒度的特征信息，基于目标对象在视频片段中的对象关键点，提取目标对象的姿态特征，相当于获得了目标对象相对细粒度的特征信息，基于行为特征和姿态特征，识别目标对象在视频片段中的行为，该方法由于结合了目标对象在视频片段中的多种粒度的特征信息，识别目标对象的行为，从而提高了目标对象的行为识别结果的准确性。

Description

对象行为识别方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种对象行为识别方法、装置、设备及介质。

背景技术

随着人工智能技术的不断发展，人工智能技术被广泛地应用于各个领域，例如，可以运用人工智能技术，识别视频中人物的行为。

目前，一种识别人物在视频中行为的方式为：检测视频中各个视频帧中的人体关键点；基于检测出的人体关键点，获得人物的姿态信息；根据该人物的姿态信息，从而识别该人物的行为。这种方式可以检测出人物在视频中运动幅度较大的行为，但无法对肢体运动幅度小的行为进行准确识别，另外当视频中出现的人物较多时，无法准确地识别各个人物的行为。可见，目前，这种方式识别行为的准确性有待提高。

发明内容

本申请实施例提供一种对象行为识别方法、装置、设备及介质，用于提高对象行为识别的准确性。

一方面，提供一种对象行为识别方法，包括：

从待识别视频中，提取视频片段，所述视频片段包括至少一个视频帧；

从所述视频片段中，提取至少一个目标对象各自的行为特征，其中，所述行为特征是基于相应的目标对象在所述视频片段中的图像特征确定的；

从所述视频片段中，提取所述至少一个目标对象各自的姿态特征，其中，所述姿态特征是基于相应目标对象在所述视频片段中的对象关键点集合确定的；

基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果。

本申请实施例提供一种对象行为识别装置，包括：

视频片段提取模块，用于从待识别视频中，提取视频片段，所述视频片段包括至少一个视频帧；

行为特征提取模块，用于从所述视频片段中，提取至少一个目标对象各自的行为特征，其中，所述行为特征是基于相应的目标对象在所述视频片段中的图像特征确定的；

姿态特征提取模块，用于从所述视频片段中，提取所述至少一个目标对象各自的姿态特征，其中，所述姿态特征是基于相应目标对象在所述视频片段中的对象关键点集合确定的；

结果确定模块，用于基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果。

在一种可能的实施例中，所述行为特征提取模块具体用于：

从所述视频片段中的各个视频帧中，提取至少一个目标对象的图像特征，获得所述视频片段对应的视频特征图；

针对所述至少一个目标对象，分别执行以下操作：

从所述视频片段中的任一视频帧中，检测至少一个目标对象中的一个目标对象在所述任一视频帧中的相对位置；

基于所述一个目标对象在所述任一视频帧中的相对位置，从所述视频特征图中，确定出所述一个目标对象的行为特征。

在一种可能的实施例中，所述行为特征提取模块具体用于：

从所述视频特征图中，确定出与所述一个目标对象的相对位置相应的特征区域；

将所述特征区域分割为多个候选单元，并针对所述多个候选单元，执行以下操作：利用插值方法，确定所述多个候选单元中一个候选单元中预设位置对应的坐标值，并对确定出的坐标值进行最大池化操作，获得池化结果；

基于所述多个候选单元各自的池化结果，获得所述一个目标对象的行为特征。

在一种可能的实施例中，所述姿态特征提取模块具体用于：

从所述视频片段中的各个视频帧中，提取所述至少一个目标对象各自的对象关键点集合；

针对所述至少一个目标对象，分别执行以下操作：基于所述至少一个目标对象中的一个目标对象的对象关键点集合，获得所述一个目标对象的姿态特征。

在一种可能的实施例中，所述姿态特征提取模块具体用于：

针对所述视频片段中的各个视频帧，分别执行以下的任一操作：

对所述各个视频帧中的一个视频帧进行对象检测，获得所述一个视频帧中至少一个目标对象各自的检测框，并从检测出的各个检测框中，分别识别出所述至少一个目标对象各自的至少一个对象关键点；

对所述一个视频帧进行对象关键点检测，获得所述一个视频帧中的至少一个对象关键点，并确定所述至少一个对象关键点所属的目标对象，以获得所述至少一个目标对象各自的至少一个对象关键点。

在一种可能的实施例中，所述姿态特征提取模块具体用于：

基于所述一个目标对象的对象关键点集合，获得第一三维向量，其中，所述第一三维向量中的第一维向量表示所述视频片段的时长，第二维向量表示所述一个目标对象的对象关键点集合中的对象关键点数量，第三维向量表示通道数；

对所述第一三维向量进行卷积操作，获得第二三维向量；

调换所述第二三维向量中的第二维向量和第三维向量的相对位置，获得第三三维向量；

对所述第三三维向量进行卷积操作，获得所述一个目标对象的姿态特征。

在一种可能的实施例中，所述结果确定模块具体用于：

针对所述至少一个目标对象，分别执行以下操作：

将所述至少一个目标对象中的一个目标对象的行为特征，输入预训练的第一行为分类网络，获得所述一个目标对象属于各个单对象行为标签的第一概率值；

将所述一个目标对象的姿态特征，输入预训练的第二行为分类网络，获得所述一个目标对象属于所述各个单对象行为标签的第二概率值；

对所述一个目标对象在同一单对象行为标签下的第一概率值和第二概率值进行加权求和，获得所述一个目标对象属于所述各个单对象行为标签各自的第三概率值；

基于获得的各个第三概率值，确定所述一个目标对象所属的单对象行为标签；

将确定出的所述至少一个目标对象各自的单对象行为标签，分别作为所述至少一个目标对象各自对应的目标行为识别结果。

在一种可能的实施例中，所述至少一个目标对象包括多个目标对象，所述结果确定模块具体用于：

组合所述至少一个目标对象各自的行为特征，并将组合后的行为特征，输入预训练的第三行为分类网络，获得所述至少一个目标对象对应的属于各个多对象行为标签的第四概率值；

组合所述至少一个目标对象各自的姿态特征，并将组合后的姿态特征，输入预训练的第四行为分类网络，获得所述至少一个目标对象对应的属于所述各个多对象行为标签的第五概率值；

对所述至少一个目标对象在同一多对象行为标签下的第四概率值和第五概率值进行加权求和，获得所述一个目标对象属于所述各个多对象行为标签各自的第六概率值；

基于获得的各个第六概率值，确定所述至少一个目标对象所属的多对象行为标签，并将确定出的多对象行为标签作为所述至少一个目标对象的目标行为识别结果。

在一种可能的实施例中，所述结果确定模块具体用于：

针对所述至少一个目标对象，分别执行以下操作：将所述至少一个目标对象中的一个目标对象的行为特征，与所述一个目标对象的姿态特征进行融合，获得所述一个目标对象的融合特征；

基于所述至少一个目标对象各自的融合特征，获得所述至少一个目标对象在所述视频片段中的目标行为识别结果。

在一种可能的实施例中，所述结果确定模块具体用于执行如下的至少一种：

将所述至少一个目标对象各自的融合特征，分别输入预训练的第五行为分类网络，获得所述至少一个目标对象各自在所述视频片段中的单对象行为识别结果；

所述至少一个目标对象包括多个目标对象，组合所述至少一个目标对象各自的融合特征，并将组合后的融合特征输入预训练的第六行为分类网络，获得所述至少一个目标对象在所述视频片段中的多对象行为识别结果。

在一种可能的实施例中，所述视频片段包括多个，所述装置还包括音视频获得模块，所述音视频获得模块具体用于：

所述基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果之后，从多个视频片段中，筛选出满足预设行为条件的目标视频片段；

基于预设目标对象在所述目标视频片段中的对象关键点集合，确定所述预设目标对象的目标部位在所述目标视频片段中的运动幅度信息，其中，所述预设目标对象为所述至少一个目标对象中的一个；

从预存的多个背景音乐中，匹配出音乐节奏信息与所述运动幅度信息匹配的目标背景音乐；

合并所述目标视频片段与所述目标背景音乐，获得目标音视频。

本申请实施例提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如前文论述任一的对象行为识别方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机设备上运行时，使得计算机设备执行如前文论述任一的对象行为识别方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

在本申请实施例中，可以基于目标对象在视频片段中的图像特征，确定目标对象的行为特征，并基于目标对象在视频片段中的人体关键点集合，确定目标对象的姿态特征，基于目标对象在视频片段中的行为特征和姿态特征，从而确定目标对象对应的目标行为识别结果，行为特征相当于描述了目标对象在视频片段中整体图像特征，相当于目标对象的粗粒度特征，姿态特征相当于描述了目标对象在视频片段中的关键部位的特征，相当于目标对象的细粒度特征，由于结合了目标对象不同粒度的特征进行行为识别，因此可以更准确地获得目标对象在视频片段中的行为识别结果。且，由于融合了目标对象的行为特征，相当于关注了目标对象在视频片段中整体运动特征，这样可以避免对象关键点识别不准确而导致的行为识别不准确的情况，使得该对象行为识别方法在各类场景下均可以准确识别目标对象的行为。

附图说明

图1为本申请实施例提供的对象行为识别方法的应用场景示意图；

图2为本申请实施例提供的对象行为识别方法的流程示意图一；

图3为本申请实施例提供的一种对象行为识别的过程示例图；

图4为本申请实施例提供的一种提取视频片段的过程示例图，

图5为本申请实施例提供的提取目标对象的行为特征的方法流程图；

图6为本申请实施例提供的提取视频特征图的过程示例图；

图7为本申请实施例提供的确定目标对象的行为特征的过程示例图；

图8为本申请实施例提供的调换第二二维向量中第二维向量和第三维向量的过程示意图；

图9为本申请实施例提供的一种合成目标音视频的过程示例图；

图10为本申请实施例提供的对象行为识别方法流程示意图二；

图11为本申请实施例提供的对象行为识别的过程示例图；

图12为本申请实施例提供的服务器与终端之间的交互示意图；

图13为本申请实施例提供的终端的界面变化示例图；

图14为本申请实施例提供的对象行为识别装置的结构示意图；

图15为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

1、目标对象：本申请是指从图像中识别出的对象，目标对象可以是运行性目标对象或非运动性目标对象。运行性目标对象和非运动性目标对象属于一对相对概念，运动性目标对象是指自身可以移动的目标对象，例如，行人、车辆、动物等。非运动性目标对象是指自身不可移动的目标对象，例如，排球。目标对象可以分别属于多个大类，例如：目标对象为人物和动物，目标对象又可以属于一个大类下的多个小类，例如：目标对象包括人物下的人物A和人物B。

2、行为特征和图像特征：行为特征用于描述目标对象在连续的视频片段中的行为变化，本申请中的行为特征，可以根据视频片段中目标对象的图像特征确定的。目标对象的图像特征用于描述目标对象在图像中对应的目标区域中呈现的图像特征，包括图像的颜色特征、轮廓特征或形状特征等一种或多种。

3、姿态特征和对象关键点：用于描述目标对象在视频片段中的姿态变化，本申请中的姿态特征，可以是根据视频片段中目标对象的对象关键点集合确定的。对象关键点用于表示目标对象的关键部位的位置，例如，目标对象为人体时，对象关键点具体为人体关键点，人体关键点是指对于人体核心部位以点的位置标示，核心部位包括头，左肩膀，右肩膀，左手肘，右手肘等17个关键点位信息。

4、目标行为识别结果：用于描述目标对象在视频片段中的行为判断结果，目标行为识别结果可以为单对象行为识别结果、或多对象行为识别结果中的一种或两种。单对象行为识别结果用于描述一个目标对象的行为，多对象行为识别结果用于描述多个目标对象的行为。例如，可以以行为识别标签表示该目标行为识别结果。行为识别标签可以按照行为涉及的目标对象的数量分别划分为：单人行为识别标签和多人行为识别标签，单人行为识别标签是指单个人进行的行为所属类型，多人行为识别结果是指多个人进行的行为所属类型，单人行为识别标签和多人行为识别标签可以包含相同的行为类型。单人行为识别标签例如，奔跑、行走、跳舞等。多人行为识别标签例如，跳舞、拥抱和握手等。

5、Top-down：一种检测对象关键点的方法，其检测思路为：先对图像中的目标对象进行检测，检测出各个目标对象之后，根据单一目标对象出现的位置信息，基于该位置信息，从而检测该目标对象的对象关键点。

6、Bottom-up关键点检测：一种检测对象关键点的方法，其检测思路为：对图片内所有的对象关键点进行检测，再确定对象关键点对应的目标对象。

7、ROI Align：一个图像上各个目标对象的大小不同，因此在该图像对应的特征图上采样各个目标对象时，采样出的不同目标对象的特征长度是不同的，因此ROI Align可以对特征图进行插值处理等，以保证从特征图中采样出的各个目标对象各自的特征长度相同。

8、最大池化(Max-pooling)：选取图像区域的最大值，作为该区域池化后的值。

9、卡点视频：音视频的一种，卡点视频中的视频画面与音乐节奏相匹配，从而可以增强视频需要表达的情感，例如，人物肢体运动到最高点，音乐节奏也处于最高点。

10、人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

11、计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

12、机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

13、云技术(Cloud technology)：基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

14、云计算(cloud computing)：是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

需要说明的是，本申请实施例中的“多个”表示两个或两个以上，“至少一个”表示一个或一个以上。

目前，是基于人物关键点识别人物行为，一般只能对强肢体相关的动作进行识别，无法识别一些与场景相关的动作，例如：打沙滩排球、打排球，弹钢琴或弹电子琴等。另外，当视频帧中的人物较多，或者视频帧中人物遮挡现象严重时，可能使得确定出的人体关键点的准确性较差，从而导致行为识别的准确性低。

有鉴于此，本申请实施例提供一种对象行为识别方法、装置、设备及介质，下面对本申请实施例涉及的对象行为识别方法进行介绍。

在该对象行为识别方法中，根据目标对象在视频片段中的图像特征，提取出目标对象在视频片段中的行为特征，相当于提取了目标对象相对粗粒度的特征；可以根据目标对象在视频片段中的对象关键点集合，提取出目标对象在视频片段中的姿态特征，相当于提取了目标对象相对细粒度的特征，结合行为特征和姿态特征，对目标对象在视频片段中的行为进行识别，以获得目标对象的行为识别结果，该对象行为识别方法中由于结合目标对象在不同粒度级别上的特征，对目标对象的行为进行识别，即基于目标对象更为全面的特征进行行为识别，可以提高识别出的行为识别结果的准确度。

下面对本申请实施例的对象行为识别方法的应用场景进行介绍。

请参照图1，为本申请实施例提供的应用场景示意图，该应用场景示意图包括：终端110、运行在终端110中的软件程序111、服务器120和数据库130。

服务器120用于为软件程序111提供相应的服务，软件程序111泛指各类视频类应用，软件程序111例如，预装在终端110中的软件应用、网页版的软件程序或者预装在第三方应用中的子程序(如小程序)等，本申请不对此进行限制。

例如，用户可以通过终端110中的软件程序111，向服务器120请求推荐相应的视频，服务器120基于该请求，从数据库130存储的视频中，获取相应的视频，并从该视频中提取视频片段，对视频片段进行行为识别，获得目标对象的目标行为识别结果。其中，涉及的对象行为识别过程将在下文中介绍。

进一步地，服务器120可以根据该目标行为识别结果，选择为该用户推荐的视频片段，服务器120也可以基于各个视频片段的目标行为识别结果，选择相应的视频片段，合成音视频，以推荐给用户。

另外，服务器120可以对数据库130进行读写操作，例如，服务器120可以从数据库130中获取待识别视频，或者背景音乐等。数据库130可以设置在服务器120中，也可以设置在与服务器120相对独立的设备中，例如，数据库130使用单独的服务器集群实现，该服务器集群相当于组成了一个存储系统。

在一种可能的应用场景中，上述的服务器120可以应用于各类具体应用场景，例如，服务器120应用到应用至视频推荐场景中。服务器120还可以应用到虚拟现实中、增强现实、无人驾驶中、智能家具、智能办公、智能穿戴、智能交通，智慧城市、无人机、机器人中等各类涉及应用场景中，本申请不对服务器120的具体使用场景进行限制。

在一种可能的应用场景中，服务器120可以通过部署在各个地方的多个服务器实现，这多个服务器可以实现负载均衡，还可以降低各个地区相应的通信时延。多个服务器以通过区块链实现数据的共享，多个服务器相当于组成了数据共享系统。例如终端110位于地点a，与服务器之间进行通信连接，终端110位于地点b，与其他服务器之间通信连接。

对于数据共享系统中的每个服务器，均具有与该服务器对应的节点标识，数据共享系统中的每个服务器均可以存储有数据共享系统中其他服务器的节点标识，以便后续根据其他服务器的节点标识，将生成的区块广播至数据共享系统中的其他服务器。每个服务器中可维护一个如下表所示的节点标识列表，将服务器名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网络之间互联的协议(Internet Protocol，IP)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

服务器名称	节点标识
		节点1	119.115.151.174
节点2	118.116.189.145
		…	…
节点N	119.124.789.258

前文中的终端110为用户使用的电子设备，该电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏设备、智能电视、智能车载设备或智能穿戴设备等具有一定计算能力并且运行有即时通信类软件及网站或者社交类软件及网站的计算机设备。前文中的服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120具体可以采用云技术实现。

在另一种可能的应用场景中，在该场景示意中，本申请实施例涉及的对象行为识别方法可以由终端执行。

例如，终端可以根据用户输入获得视频片段，或从预存的视频中截取视频片段，并对视频片段中的目标对象进行行为识别。

或者例如，终端中可以安装有小工具，由该小工具对视频片段中的目标对象进行行为识别，小工具获取视频片段的方式可以参照终端获取视频片段的方式，此处不再赘述。

需要说明的是，该小工具与前文中的软件程序111有所不同，该小工具可以在终端中运行，不需要服务器的辅助，以实现相应的功能。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的对象行为识别方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

基于图1论述的应用场景，本申请实施例中涉及的对象行为识别方法可以由服务器执行、终端执行、或者也可以由服务器和终端协同执行。下面以图1中服务器执行对象行为识别方法为例，结合图2所示的对象行为识别方法的流程示意图，对本申请实施例涉及的对象行为识别方法进行介绍。

S21，从待识别视频中，提取视频片段，视频片段包括至少一个视频帧。

服务器可以从数据库或网络资源中，获取相应的视频，获取的每个视频均可以分别视为待识别视频。或者，服务器可以将用户之前观看过的视频，作为待识别视频。或者，服务器可以将与用户之前观看过的视频相似度大于或等于相似度阈值的视频，作为待识别视频，视频相似度可以是计算视频的视频特征之间的相似度得到的，或者可以计算视频的标签之间的相似度得到的。待识别视频的类型例如，电视剧、电影、综艺视频或短视频等，本申请不对此进行限制。

服务器可以对待识别视频进行划分，从而获得视频片段。视频片段实际为待识别视频中的一部分，可以包括待识别视频中的至少一个视频帧。为了保证后续能够更好地识别目标对象的行为，该视频片段可以包括待识别视频中连续的多个视频帧，这样便于服务器后续捕捉目标对象在视频片段中的连续行为，提高目标对象识别的准确性。另外，服务器在对待识别视频进行划分时，可以划分出一个或多个视频片段。当视频片段有多个时，相邻两个视频片段可以存在重叠的部分，服务器可以针对多个视频片段分别进行下文中的行为识别。

例如，请参照图3，为一种对象行为识别的过程示例图，服务器获得如图3中a所示的待识别视频300，该待识别视频300包括图3中a所示的视频帧1、视频帧2、视频帧3、视频帧4和视频帧5，服务器可以从该待识别视频300中提取出图3中b所示的视频片段，该视频片段包括待识别视频中的视频帧1和视频帧2。

S22，从视频片段中，提取至少一个目标对象各自的行为特征，其中，行为特征是基于相应的目标对象在视频片段中的图像特征确定的。

服务器可以从视频片段中的各个视频帧，分别提取出至少一个目标对象各自的图像特征，并根据至少一个目标对象各自的图像特征，获得至少一个目标对象各自的行为特征，例如，对一个目标对象的图像特征进行卷积池化操作，以获得该目标对象的行为特征。

需要说明的是，如果至少一个目标对象包括一个目标对象，那么至少一个目标对象各自的行为特征即为该目标对象的行为特征，例如，至少一个目标对象包括人物A，那么至少一个目标对象各自的行为特征即为人物A的行为特征；如果至少一个目标对象包括至少两个目标对象，那么至少一个目标对象各自的行为特征即表示至少两个目标对象中每个目标对象的行为特征，例如，至少一个目标对象包括人物A和人物C，那么至少一个目标对象各自的行为特征即为人物A的行为特征，以及人物C的行为特征。

作为一种实施例，至少一个目标对象为多个目标对象时，至少一个目标对象可以包括同个大类下多个小类，例如：至少一个目标对象包括人物A、人物B和人物C。至少一个目标对象也可以包括不同大类，例如，至少一个目标对象包括：动物和人物。至少一个目标对象也可以包括不同大类下各自的小类，例如，至少一个目标对象包括：人物A、猫和排球等。

例如，继续沿用图3的例子，服务器可以检测视频片段中各个目标对象，获得如图3中c所示的示例图，该图3中c包括视频帧1中目标对象的图像区域310、以及视频帧2中目标对象的图像区域320，服务器可以基于目标对象在视频片段中各个视频帧中的图像区域，从而提取得到该目标对象的行为特征。

S23，从视频片段中，提取至少一个目标对象各自的姿态特征，其中，姿态特征是基于相应对象在视频片段中的对象关键点集合确定的。

同理，服务器可以从视频片段中，分别提取目标对象在每个视频帧的各个对象关键点，组合该目标对象在各个视频帧的对象关键点，从而获得该目标对象对应的对象关键点集合，以此类推，服务器可以获得至少一个目标对象各自的对象关键点集合。

服务器可以对一个目标对象的对象关键点集合，进行卷积操作和池化操作中的一种或两种，从而获得该目标对象的姿态特征，服务器也可以通过将目标对象的对象关键点集合，与预存的各个姿态各自关联的对象关键点集合进行匹配，从而确定该目标对象相应的姿态特征，以此类推，服务器可以确定至少一个目标对象各自的姿态特征。

需要说明的是，如果至少一个目标对象包括一个目标对象，那么至少一个目标对象各自的姿态特征即为该目标对象的姿态特征，例如，至少一个目标对象包括人物A，那么至少一个目标对象各自的姿态特征即为人物A的姿态特征；如果至少一个目标对象包括至少两个目标对象，那么至少一个目标对象各自的姿态特征即表示至少两个目标对象中每个目标对象的姿态特征，例如，至少一个目标对象包括动物D和动物F，那么至少一个目标对象各自的姿态特征即为动物D的姿态特征，以及动物F的姿态特征。

例如，继续参照图3的例子，服务器可以检测目标对象在每个视频帧中的各个对象关键点，获得如图3中d所示的示例图，该示例图包括：目标对象在视频帧1中的各个对象关键点330，以及目标对象在视频帧2中各个对象关键点340。服务器可以根据该目标对象在视频帧1中的各个对象关键点330和在视频帧2中的各个对象关键点340，从而获得该目标对象的姿态特征。

需要说明的是，S22和S23的步骤顺序可以是任意的，本申请不对此进行限制。

S24，基于至少一个目标对象各自的行为特征和姿态特征，确定至少一个目标对象在视频片段中的目标行为识别结果。

服务器在获得至少一个目标对象各自的行为特征和姿态特征之后，服务器可以基于一个目标对象的行为特征和姿态特征，确定该目标对象的单对象行为识别结果。单对象行为识别结果的含义可以参照前文论述的内容，此处不再赘述。服务器也可以基于至少一个目标对象的行为特征和姿态特征，从而确定这至少一个目标对象的多对象行为识别结果。多对象行为识别结果的含义可以参照前文论述的内容，此处不再赘述。服务器也可以确定单个目标对象的单对象行为识别结果，以及确定至少一个目标对象的多对象行为识别结果。

例如，继续沿用图3的例子，服务器可以根据该目标对象的行为特征和姿态特征，从而确定该目标对象在视频片段中的行为识别结果为：行走。

在本申请实施例中，服务器可以根据目标对象在视频片段中的图像特征，提取目标对象在视频片段中的行为特征，相当于提取了目标对象在视频片段中的整体运动特征，服务器根据目标对象在视频片段中的对象关键点集合，提取目标对象在视频片段中的姿态特征，相当于提取了目标对象在视频片段中的部位位置点，服务器结合行为特征和姿态特征，从而识别目标对象在视频片段中的行为，由于结合了目标对象在视频片段中整体运动特征和部位位置点，进行行为识别，因此可以更准确地识别出目标对象的行为。在准确地识别目标对象在视频片段的行为类型之后，相当于更准确地确定了视频片段的标签，以便于后续根据标签，对视频片段进行剪辑处理，丰富视频素材。

作为一种实施例，S21的实现方式如下：

实现方式一：

从待识别视频中，随机提取预设时长的视频片段。

实现方式二：

对待识别视频进行解码处理，获得多个视频帧；

沿时间窗口从多个视频帧中，提取出视频片段。

服务器可以对待识别视频进行解码处理，获得多个视频帧，这多个视频帧又可以称为视频帧序列。服务器可以从视频帧序列中随机采样至少一个视频帧作为视频片段。服务器也可以将时间窗口，按照预设步长，沿依次排列的视频帧序列进行滑动，时间窗口每滑动一次对应获得一个视频帧子序列，视频帧子序列即可以视为一个视频片段。其中，时间窗口的长度可以以时长表示，也可以以帧数表示，时间窗口的长度可以小于或等于视频的总帧数，预设步长小于待识别视频的总帧数。

作为一种实施例，预设步长可以小于时间窗口的长度。由于预设步长小于时间窗口的长度，这样，时间窗口相邻两次的滑动，可以提取具有重叠的视频帧的视频片段，使得提取出的多个视频片段具有一定的冗余，有利于后续更为完整且准确地识别某个目标对象在各个视频片段中的行为。

例如，请参照图4，为本申请实施例提供的一种提取视频片段的过程示例图，服务器对待识别视频进行解码，获得图4中所示的多个视频帧410，具体如图4中从视频帧1到视频帧16的多个视频帧。时间窗口420的长度为6个视频帧，预设步长s为2个视频帧，服务器将时间窗口420沿多个视频帧410，按照预设步长s进行滑动，具体例如，服务器根据时间窗口420从多个视频帧410中划分出第一视频片段，具体包括视频帧1至视频帧6的各个视频帧，服务器将时间窗口420沿待识别视频的时间轴滑动两个视频帧，获得第二视频片段，具体包括视频帧3至视频帧8的各个视频帧。

服务器在获得视频片段之后，可以执行S22，下面结合图5所示的提取至少一个目标对象的行为特征的方法流程图，对S22的实现方式进行示例介绍。

S51，从视频片段中的各个视频帧中，提取至少一个目标对象的图像特征，获得视频片段对应的视频特征图。

服务器可以对各个视频帧进行特征提取，获得视频片段的视频特征图。特征提取例如：卷积操作、池化操作中的一种或多种。该视频特征图相当于融合了视频片段中各个视频帧的图像信息。

服务器可以通过预训练的特征提取网络，提取视频片段的视频特征图。预训练的特征提取网络可以基于样本视频片段的样本视频特征图进行训练得到的。在训练特征提取网络时，会侧重训练特征提取网络学习目标对象的图像特征的能力，因此，将视频片段输入预训练的特征提取网络时，该特征提取网络可以重点关注视频片段中目标对象的图像特征，从而提取目标对象在视频片段中的视频特征图。例如，服务器将视频片段中的各个视频帧的颜色信息，输入预训练的特征提取网络，从颜色信息中提取出视频片段的视频特征图。颜色信息例如，红绿蓝(Red Green Blue，RGB)信息。

请参照图6，为本申请实施例提供的提取视频特征图的过程示例图，视频片段包括如图6中a所示的视频帧610，服务器获取该视频帧中各个像素点对应的RGB信息，视频帧中的各个像素点具体如图6中b所示，服务器可以侧重从RGB信息中，提取图6中b所示的目标对象所在的图像区域620中的图像特征，从而获得图6中c所示的视频特征图630。图6中是以一个视频片段包括一个视频帧进行示例介绍，实际不限制视频片段包含的视频帧的数量。

S52，从视频片段中的任一视频帧中，分别检测至少一个目标对象各自在该任一视频帧中的相对位置。

服务器可以将视频片段中随机选择的一个视频帧，服务器也可以选择出视频片段中包含目标对象最多的一个视频帧，将选择出的视频帧作为任一视频帧，并对任一视频帧进行目标对象检测，从而获得至少一个目标对象各自在任一视频帧中的相对位置。相对位置例如，以目标对象在任一视频帧中的检测框表示。

需要说明的是，如果至少一个目标对象包括一个目标对象，那么至少一个目标对象各自在任一视频帧中的相对位置即为该目标对象在任一视频帧中的相对位置；如果至少一个目标对象包括至少两个目标对象，那么至少一个目标对象各自在任一视频帧中的相对位置即为至少两个目标对象中每个目标对象在任一视频帧中的相对位置。

例如，继续沿用图6的例子，服务器可以对视频帧610进行对象检测，从而获得如图6中d的检测结果，该检测结果包括各个目标对象在该视频帧中的检测框，具体包括人物A在视频帧中的第一检测框641、人物B在视频帧中的第二检测框642、以及人物C在视频帧中的第三检测框643。

S53，基于至少一个目标对象各自在任一视频帧中的相对位置，从视频特征图中，确定出至少一个目标对象各自的行为特征。

无论采用何种特征提取方式，视频片段中的视频帧的尺寸与视频特征图的尺寸存在一定的对应关系，因此服务器在确定目标对象在视频帧中的相对位置之后，可以从视频特征图中，确定出与该相对位置匹配的特征区域，确定出的特征区域即为该目标对象在视频特征图中的特征区域。服务器可以根据该目标对象相应的特征区域，获得该目标对象的行为特征。以此类推，服务器可以获得至少一个目标对象各自的行为特征。

例如，继续沿用图6的例子，服务器检测出视频帧中至少一个目标对象各自的检测框之后，可以根据各个检测框，确定各个目标对象在视频特征图630中的特征区域，具体包括图6中f所示的人物A、人物B和人物C各自的特征区域，分别如A，B，C各自所在的矩形框。

在本申请实施例中，服务器可以提取视频片段整体的图像特征，以获得视频特征图，根据各个目标对象在一个视频帧中的相对位置，从视频特征图中确定各个目标对象相应的行为特征，一方面，提取出的行为特征实际融合视频片段中各个视频帧的图像信息，即可以获得更为全面且准确的目标对象的行为特征，另一方面，无需基于视频片段，分别对各个目标对象进行特征提取处理，便可以一次性获得各个目标对象的行为特征，可以提高获得各个目标对象的行为特征的效率。

在S53中，基于目标对象在视频帧中的相对位置，从视频特征图确定目标对象相应的特征区域时，可能对应确定出小数类型的特征区域，如果直接对小数类型的特征区域进行量化操作，以获得整数类型的特征区域，会导致目标对象实际对应的行为特征，与量化出的特征区域存在较大偏差，从而会降低出的目标对象的行为特征的准确性，因此在本申请实施例中，服务器可以利用ROI align，基于目标对象在视频帧中的相对位置，从视频特征图中确定目标对象相应的行为特征。

具体来说，服务器在确定出与目标对象的预设位置相应的特征区域之后，将特征区域分割为多个候选单元。并利用插值方法，确定候选单元中预设位置上的坐标值。对候选单元中的坐标值进行最大池化操作，获得池化结果，以此类推，获得各个候选单元各自的池化结果，并组合各个候选单元的池化结果，获得组合后的池化结果。根据组合后的池化结果，获得该目标对象的行为特征，例如，可以将组合后的池化结果，作为该目标对象的行为特征。其中插值方法例如，采用双线性内插的方法。每个候选单元中的预设位置可以设置为一个或多个。

例如，请参照图7，为本申请实施例提供的确定目标对象的行为特征的过程示例图，从视频特征图710中，确定目标对象相应的特征区域720，服务器可以将特征区域720划分为4个候选单元，确定每个候选单元中预设位置上的坐标值，例如，服务器确定第一个候选单元中的各个坐标值，具体如图7中的S1、S2、S3和S4表示的4个坐标值。服务器对第一个候选单元中的各个坐标值(S1、S2、S3和S4对应的4个坐标值)进行最大池化操作，并将4个候选单元各自的池化结果进行组合，从而获得如图7所示的行为特征730。

在本申请实施例中，利用插值方法，得到目标对象的整数类型的特征区域，这样可以避免对小数类型的特征区域直接进行量化操作而导致的偏差，即提高了确定出的目标对象的特征区域，从而提高了目标对象的行为特征的准确性，且是将从视频特征图中，提取出的特征区域处理为固定尺寸的特征区域，以便于获得各个目标对象各自的尺寸相同的行为特征。

服务器除了需要获取目标对象的行为特征，还需要获取目标对象的姿态特征，下面对S23中提取目标对象的姿态特征的方式进行示例介绍。

S1.1，从视频片段中的各个视频帧中，提取至少一个目标对象各自的对象关键点集合。

S1.1中检测对象关键点集合的方式有多种，下面进行示例介绍：

方式一：服务器可以采用Top-down，从视频帧中，提取目标对象的各个对象关键点。

服务器可以对视频帧进行对象检测，获得视频帧中目标对象的检测框，并从获得的检测框中，识别出该目标对象对应的各个对象关键点。

在该方式一中，是从检测框中提取对象关键点，这样提取对象关键点的方式更为直观，且相对精度更高。

方式二：服务器可以采用Bottom-up，从视频帧中提取目标对象的各个对象关键点。

对视频帧进行对象关键点检测，获得视频帧中的至少一个对象关键点，并确定至少一个对象关键点所属的目标对象，从而获得至少一个目标对象各自的至少一个对象关键点。

在该方式二中，服务器可以一次性提取出视频帧中的各个对象关键点，再确定对象关键点所属的目标对象，这样确定目标对象相应的对象关键点的效率更高且实时性更好。

S1.2，基于至少一个目标对象各自的对象关键点集合，获得至少一个目标对象各自的姿态特征。

服务器可以提取目标对象在每个视频帧中的各个对象关键点，对象关键点实际可以理解为目标对象的关键部位在视频帧中的坐标位置，组合目标对象在各个视频帧中的各个对象关键点，从而获得该目标对象的对象关键点集合。服务器可以根据该目标对象的对象关键点集合，从而获得目标对象的姿态特征，例如，服务器可以对目标对象的对象关键点集合进行多次卷积操作，从而获得该目标对象的姿态特征，服务器也可以对目标对象的对象关键点集合依次进行多次卷积操作、最大池化操作，从而获得该目标对象的姿态特征。以此类推，服务器可以获得每个目标对象对应的姿态特征。

目标对象的关键点集合实际包含了三个维度上的信息，一个维度为视频片段中视频帧的时序，另外两个维度为目标对象的对象关键点在视频帧中的位置信息。在对目标对象的对象关键点集合进行卷积操作时，由于卷积核作用域有限，因此获得的姿态特征实际可能只学习到相邻两个维度信息之间的局部共性特征，即没有学习到三个维度信息之间的全局共性特征，因此在本申请实施例中，将对象关键点集合转化为三维向量，再对三维向量进行卷积操作，在卷积操作的过程中，可以调换三维向量中第二维和第三维向量之间的位置，这样使得卷积操作可以学习到三维向量中任意两维向量之间的相关性，相当于学习了目标对象的对象关键点集合中的全局共性特征，从而可以获得更为准确的姿态特征。

具体来说，服务器可以将目标对象的对象关键点集合，转换为一个三维向量，为了便于描述，这里称为第一三维向量，第一三维向量中的第一维用于表示视频片段的时长，第二维用于表示目标对象的对象关键点集合中的对象关键点数量，第三维用于表示通道数量。

服务器可以对第一三维向量进行一次或多次卷积操作，获得第二二维向量，对第一三维向量进行一次或多次卷积操作的过程中，相当于学习了第一维向量和第二维向量之间的相关性，第二维向量和第三维向量之间的相关性。服务器调换第二三维向量中的第二维向量和第三维向量的相对位置，从而获得第三三维向量。服务器对第三三维向量进行一次或多次卷积操作，这样相当于学习了第一维向量和原来的第三维向量之间的相关性，原来的第二维向量和原来的第三维向量之间的相关性，从而融合了更为全面的信息，可以获得目标对象更为准确的姿态特征。以此类推，服务器可以获得至少一个目标对象中各个目标对象的姿态特征。

例如，请参照图8，为本申请实施例提供的一种调换第二二维向量中第二维向量和第三维向量的过程示意图，在该过程示意图中，服务器获得如图8中a所示的第二三维向量，该第二三维向量可以表示为：(T，对象关键点个数，通道数)，其中T表示视频片段的时长，服务器将第二三维向量中的第二维和第三维的位置调换，从而获得如图8中b所示的第三三维向量，该第三三维向量可以表示为：(T，通道数，对象关键点个数)。

在获得至少一个目标对象各自的行为特征和姿态特征之后，服务器可以执行S24，即基于至少一个目标对象各自的行为特征和姿态特征，确定至少一个目标对象的目标行为识别结果。

由于视频片段包含一个或多个目标对象，因此服务器在识别目标对象的目标行为识别结果时，可以识别单对象行为识别结果或多对象行为识别结果中的一种或两种，下面对服务器确定单对象行为识别结果和多对象行为识别结果的方式分别进行介绍：

一、确定单对象行为识别结果的方式。

示例一。

S2.1，将单个目标对象的行为特征，输入预训练的第一行为分类网络，获得该目标对象属于各个单对象行为标签的第一概率值；

S2.2，服务器将该目标对象的姿态特征，输入预训练的第二行为分类网络，获得该目标对象属于各个单对象行为标签的第二概率值；

S2.3，基于各个第一概率值和各个第二概率值，获得该目标对象属于各个单对象行为标签的第三概率值；

S2.4，基于获得的各个第三概率值，确定该目标对象所属的单对象行为标签。该目标对象所属的单对象行为标签即为该目标对象所属的目标行为识别结果。

其中，预训练的第一行为分类网络和第二行为分类网络是指基于相应的训练数据进行训练后的分类网络，服务器可以从其他设备获取预训练的预训练的第一行为分类网络和第二行为分类网络，也可以是自身训练的，本申请不对此进行限制。例如，预训练的第一行为分类网络可以基于多个第一训练数据进行训练得到，每个第一训练数据包括样本对象的样本行为特征，以及样本对象所属的单对象行为标签；预训练的第二行为分类网络可以基于多个第二训练数据进行训练得到，每个第二训练数据包括样本对象的样本行为特征，以及样本对象所属的单对象行为标签。需要说明的是，第一行为分类网络能够进行分类的单对象行为标签，与第二行为分类网络能够进行分类的单对象行为标签是相同的。

在具体实施时，服务器可以通过第一行为分类网络，对目标对象的行为特征进行分类，从而获得目标对象属于各个单对象行为标签的第一概率值。例如，服务器获得的人物A属于各个单对象行为标签的第一概率值具体如下表2所示。

表2

单对象行为标签	第一概率值
		行走	0.3
奔跑	0.4
		跳舞	0.3

从上表2可以看出，基于人物A的姿态特征，确定人物A在视频片段中属于行走、奔跑和跳舞的第一概率值分别为：0.3、0.4和0.3。

同理，服务器可以对目标对象的姿态特征进行分类，从而获得目标对象属于各个单对象行为标签的第二概率值，例如，服务器获得的目标对象属于各个单对象行为标签的第一概率值具体如下表3所示。

表3

单对象行为标签	第二概率值
		行走	0.1
奔跑	0.6
		跳舞	0.3

从上表3可以看出，基于人物A的姿态特征，确定人物A在视频片段中属于行走、奔跑和跳舞的第二概率值分别为：0.1、0.6和0.3。

服务器在获得各个第一概率值和第二概率值之后，可以对属于同个单对象行为标签下的第一概率值和第二概率值进行加权求和，从而获得目标对象属于该单对象行为标签的第三概率值，可以将第三概率值最大的单对象行为标签确定为该目标对象所属的单对象行为标签。在对同个单对象行为标签下的第一概率值和第二概率值进行加权求和时，第一概率值和第二概率值各自的加权权重可以是相同的，例如，均为0.5。

继续沿用表2和表3所示的例子，服务器确定人物A属于各个单对象行为标签的第三概率值示例如下表4所示。

表4

单对象行为标签	第三概率值
		行走	(0.1+0.3)*0.5＝0.2
奔跑	(0.6+0.4)*0.5＝0.5
		跳舞	(0.3+0.3)*0.5＝0.3

从上述表4可以看出，该人物A分别属于行走、奔跑和跳舞的第三概率值分别为：0.2、0.5和0.3，服务器确定人物A属于奔跑的第三概率值最大，因此可以确定人物A在视频片段中的单对象行为标签为奔跑。

同理，当至少一个目标对象存在多个时，服务器可以按照上述过程，分别确定出每个目标对象对应的目标行为识别结果。

在上述方式中，本申请实施例提供了一种确定目标对象的目标行为识别结果的方案。且，在服务器确定目标对象所属的行为识别结果时，是结合了基于目标对象所属的姿态特征确定出的行为识别结果，以及基于目标对象所属的行为特征确定出的行为识别结果，相当于综合了目标对象的行为特征与姿态特征，因此可以准确地确定目标对象的目标行为识别结果。且，由于可以灵活地从目标对象可能的行为识别结果中，确定出目标对象的目标行为识别结果，提高了确定目标行为识别结果的灵活性。

示例二。

S3.1，服务器将目标对象的行为特征与姿态特征进行融合，获得该目标对象的融合特征；

S3.2，服务器将该目标对象的融合特征，输入预训练的第五行为分类网络，获得该目标对象在视频片段中的单对象行为识别结果。

其中，服务器获取预训练的第五行为分类网络的方式可以参照前文论述的内容，此处不再赘述，第五行为分类网络例如，是基于多个第三训练数据进行训练得到的，每个第三训练数据包括样本对象的样本融合特征，以及样本对象所属的单对象行为标签。

在具体实施时，服务器可以对一个目标对象的行为特征和姿态特征进行融合，从而获得融合特征，该融合特征相当于描述了目标对象在行为和姿态多方面的特征，融合的方式例如，行为特征与姿态特征进行加权求和，也可以是行为特征与姿态特征进行组合，本申请不对融合的方式进行具体限制。服务器可以通过预训练的第五行为分类网络，对该融合特征进行分类，从而获得该目标对象在视频片段对应的单对象行为识别结果。

该方式提供了一种确定目标对象的目标行为识别结果的方法，该方式中服务器可以先对目标对象在各个方面的特征进行融合，再根据融合后的特征，确定该目标对象的目标行为识别结果，由于融合了目标对象的姿态特征和行为特征，因此可以更准确地识别出目标对象的目标行为识别结果。

二、确定多对象行为识别结果的方式示例如下。

第一种。

S4.1，服务器组合多个目标对象各自的行为特征，并将组合后的行为特征，输入预训练的第三行为分类网络，获得多个目标对象对应的属于各个多对象行为标签的第四概率值；

S4.2，服务器组合多个目标对象各自的姿态特征，并将组合后的姿态特征，输入预训练的第四行为分类网络，获得多个目标对象对应的属于各个多对象行为标签的第五概率值；

S4.3，服务器对多个目标对象在同一多对象行为标签下的第四概率值和第五概率值进行加权求和，获得多个目标对象属于各个多对象行为标签各自的第六概率值；

S4.4，服务器基于获得的各个第六概率值，确定多个目标对象所属的多对象行为标签。

在具体实施时，预训练的第三行为分类网络和预训练的第四行为分类网络的获取方式可以参照前文获取预训练的第一行为分类网络的方式，此处不再赘述。第三行为分类网络例如，可以通过多个第三训练数据训练获得，每个第三训练数据包括组合样本行为特征和组合样本行为特征对应的多对象行为标签，组合行为特征为视频片段中多个样本对象的样本行为特征组合后的结果，组合样本行为特征对应的多对象行为标签为多个样本对象所属的多对象行为标签。样本行为特征的获取方式可以参照前文论述的行为特征的获取方式，此处不再赘述。

同理，第四行为分类网络例如，可以通过多个第四训练数据训练获得，每个第四训练数据包括组合样本姿态特征和组合样本姿态特征对应的多对象行为标签，组合姿态特征为视频片段中多个样本对象的样本姿态特征组合后的结果，组合样本姿态特征对应的多对象行为标签为多个样本对象所属的多对象行为标签。样本姿态特征的获取方式可以参照前文论述的姿态特征的获取方式，此处不再赘述

服务器在获得至少一个目标对象各自的行为特征之后，可以将至少一个目标对象各自的行为特征进行组合，组合例如，将服务器以每个目标对象的行为特征为矩阵的行，以此类推，在组合至少一个目标对象的行为特征之后，获得各个目标对象对应的行为特征矩阵。服务器通过第三行为分类网络，根据组合后的行为特征，输出多个目标对象属于各个多对象行为标签的第四概率值。例如，服务器获得的多个目标对象属于各个多对象行为标签各自的第四概率值具体如下表5所示。

表5

多对象行为标签	第四概率值
		跳舞	0.3
拥抱	0.2
		合唱	0.5

从上述表5可以看出，多个目标对象属于跳舞、拥抱和合唱的第四概率分别为：0.3、0.2和0.5。

同理，服务器可以将至少一个目标对象各自的姿态特征进行组合，获得组合后的姿态特征，组合的方式可以参照前文论述的内容，此处不再赘述，服务器在获得组合后的姿态特征，服务器将组合后的姿态特征输入第四行为分类网络中，从而获得至少一个目标对象属于各个多对象行为标签的第五概率值，例如，服务器获得的多个目标对象属于各个多对象行为标签各自的第五概率值具体如下表6所示。

表6

多对象行为标签	第四概率值
		跳舞	0.2
拥抱	0.7
		合唱	0.1

从上表6可以看出，多个目标对象属于跳舞、拥抱和合唱的第五概率值分别为：0.2、0.7和0.1。

服务器在获得各个第四概率值和各个第五概率值之后，可以对同个多对象行为标签下的第四概率值和第五概率值进行加权求和，从而获得在该多对象行为标签下的第六概率值，以此类推，服务器可以获得多个目标对象属于各个多对象行为标签的第七概率值，服务器可以将多个目标对象对应第七概率值最大的多对象行为标签确定为多个目标对象的目标行为识别结果。

例如，沿用表5和6所示的例子，服务器可以对同一多对象行为标签下的第四概率值和第五概率值进行加权求和，从而获得如下表7所示的各个第六概率值。

表7

多对象行为标签	第四概率值
		跳舞	(0.3+0.2)*0.5＝0.25
拥抱	(0.5+0.7)*0.5＝0.6
		合唱	(0.2+0.1)*0.5＝0.15

从上述表7可以看出，多目标对象属于跳舞、拥抱和合唱的第六概率值分别为：0.25、0.6和0.15。

第二种。

S5.1，服务器将多个目标对象中各个目标对象的行为特征，与相应的目标对象的姿态特征进行融合，获得多个目标对象各自的融合特征；

S5.2，服务器组合多个目标对象各自的融合特征，并将组合后的融合特征输入预训练的第六行为分类网络，获得多个目标对象在视频片段中的多对象行为识别结果。

服务器可以将一个目标对象的行为特征和该目标对象的姿态特征进融合，融合方式可以参照前文论述的内容，此处不再赘述，以此类推，服务器可以获得多个目标对象各自的融合特征。服务器在获得多个目标对象各自的融合特征之后，可以组合多个目标对象各自的融合特征，组合方式可以参照前文论述的内容，此处不再赘述，从而获得组合后的融合特征，服务器将组合后的融合特征输入预训练的第六行为分类网络，从而获得多个目标对象属于各个多对象行为标签的第八概率值，服务器基于各个第八概率值，从而将第八概率值最大的多对象行为标签确定为多个目标对象所属的目标行为识别结果。

服务器可以从待识别视频中提取出多个视频片段，并对每个视频片段执行上述过程，从而确定出至少一个目标对象在每个视频片段对应的目标行为识别结果，服务器可以从这多个视频片段中，筛选出满足预设行为条件的视频片段作为目标视频片段。预设行为条件可以是根据需求灵活设置，例如，具有预设行为的视频片段，预设行为例如，合唱等，又例如，预设目标对象具有预设行为的视频片段，预设目标对象为至少一个目标对象中的任意一个或多个目标对象。

服务器可以将目标视频片段推送给用户，或者对各个目标视频片段进行剪辑，为用户推送剪辑结果。为了获得提高目标视频片段的播放效果，服务器也可以为目标视频片段匹配相应的目标背景音乐，从而获得目标音视频。

一种获得目标音视频的方式为：

服务器可以为一个目标视频片段匹配相应的第一目标背景音乐，合成该视频片段和第一目标背景音乐，从而获得第一目标音视频。

示例性的，服务器可以根据预设目标对象在目标视频片段中的对象关键点集合，确定预设目标对象的目标部位对应的第一运动幅度信息，第一运动幅度信息用于表示目标部位在视频片段中的运动幅度，例如，第一运动幅度信息包括目标部位在相邻两帧之间的运动幅度值，服务器可以从预存的多个背景音乐中，匹配出音乐节奏信息与第一运动幅度信息匹配的第一目标背景音乐，服务器合成该目标视频片段与第一目标背景音乐，从而获得第一目标音视频，该第一目标音视频可以视为卡点视频。该方式可以适用于对单个视频片段进行处理，以合成富有节奏感的第一目标音视频。

例如，请参照图9，为本申请实施例提供的一种合成目标音视频的过程示例图，服务器确定出的目标视频片段具体包括如图9中a所示的第一个视频帧和图9中b所示的第二个视频帧，服务器可以根据预设目标对象910的手掌在第一个视频帧中的对象关键点s1，以及该预设目标对象910的手掌在第二视频帧中的对象关键点s2，从而确定该预设目标对象的第一运动幅度信息920，具体如图9中c的s1与s2之间的直线，另外图9中a所示的第一个视频帧与图9中b所示的第二个视频帧之间的时间间隔可以表示为t1。服务器可以根据该第一运动幅度信息920，筛选出第一目标背景音乐，该目标背景音乐的音乐节奏信息可以具体如图9中d所示，可以看出该第一目标背景音乐的音乐节奏信息与该第一运动幅度信息920相匹配，且第一目标背景音乐的时长，以及图9中a所示的第一个视频帧与图9中b所示的第二个视频帧之间的时间间隔均为t1，因此服务器可以直接合成该目标视频片段和第一目标背景音乐，从而获得第一目标音视频。

一种获得目标音视频的方式为：

服务器可以从各个目标视频片段中，筛选出具有预设目标对象的各个目标视频帧，基于预设目标对象，在筛选出的各个目标视频帧各自的对象关键点集合，确定该预设目标对象的第二运动幅度信息，并匹配与该第二运动幅度信息相应的第二目标背景音乐，从而获得第二目标音视频。

具体实施时，服务器可能筛选出多个目标视频片段，而每个目标视频片段可能均包含预设目标对象，因此在本申请实施例中，服务器可以从多个目标视频片段中筛选出具有该预设目标对象的各个目标视频帧，相当于获得了该预设目标对象更为完整的活动轨迹，确定预设目标对象的目标部位在各个目标视频帧的第二运动幅度信息，第二运动幅度信息的含义可以参照前文论述的内容，此处不再赘述，服务器可以从预存的多个背景音乐中，匹配出音乐节奏信息与该第二运动幅度信息匹配的第二目标背景音乐，服务器合成各个目标视频帧与第二目标背景音乐，从而获得第二目标音视频，该第二目标音视频可以视为卡点视频。该方式可以获得预设目标对象更为完整的音视频。

本申请实施例中涉及的对象行为识别方法可以由服务器执行、终端执行、或者也可以由服务器和终端协同执行。下面以终端执行对象行为识别方法为例，以目标对象为人物为例，结合图10的对象行为识别方法流程图，对本申请实施例中的对象行为识别方法进行具体介绍：

S101，对待识别视频进行解码，获得多个视频帧。

终端对待识别视频进行解码的方式，可以参照前文论述的内容，此处不再赘述。待识别视频例如可以是终端中相册中的视频，或者可以是用户输入至终端中的视频，或者可以是用户之前在终端中观看过的视频等。

S102，将多个视频帧按照时间窗口进行划分，获得视频片段。

时间窗口含义、获取视频片段的方式可以参照前文论述的内容，此处不再赘述。

S103，基于视频片段的RGB信息，提取视频片段中至少一个人物各自的行为特征。

至少一个人物各自的行为特征的含义可以参照前文至少一个目标对象各自的行为特征的含义，此处不再赘述。基于RGB信息，提取行为特征的方式可以参照前文论述的内容，此处不再赘述。获取行为特征的其它方式可以参照前文论述的内容，此处不再赘述。

S104，基于视频片段的人体关键点，提取视频片段中的至少一个人物各自的姿态特征。

至少一个人物各自的姿态特征的含义可以参照前文至少一个目标对象各自的姿态特征的含义，此处不再赘述。终端确定姿态特征的方式可以参照前文论述的内容，此处不再赘述。

S105，基于至少一个人物各自的行为特征，以及至少一个人物各自的姿态特征，获得至少一个人物在视频片段中的目标行为识别结果。

终端确定目标行为识别结果的方式可以参照前文论述的内容，此处不再赘述。

S106，从待识别视频中的多个视频片段中，确定出符合预设行为条件的目标视频片段。

预设行为条件的含义可以参照前文论述的内容，此处不再赘述。

S107，根据目标视频片段中预设目标对象的人体关键点集合，确定预设目标对象的目标部位，在目标视频片段中的运动幅度信息。

运动幅度信息的含义、确定运动幅度信息的方式可以参照前文论述的内容，此处不再赘述。

S108，从多个背景音乐中，匹配出音乐节奏信息与运动幅度信息匹配的目标背景音乐。

确定目标背景音乐的方式可以参照前文论述的内容，此处不再赘述。

S109，合成目标背景音乐和运动幅度信息，获得目标音视频。

合成目标音视频的方式可以参照前文论述的内容，此处不再赘述。

作为一个实施例，S106～S109为可选的部分。

例如，请参照图11，为对象行为识别的过程示例图，终端获得图11中a所示的待识别视频，对待识别视频进行解码操作，获得如图11中b所示的多个视频帧，对多个视频帧进行划分，从而获得如图11中c1所示的第一视频片段，以及如图11中c2所示的第二视频片段。

终端对第一视频片段和第二视频片段分别进行对象行为识别，确定第一视频片段中各个人物的目标行为属于合唱，第二视频片段中各个人物的目标行为属于舞蹈。

终端基于各个视频片段对应的目标行为，确定第一视频片段和第二视频片段均满足预设行为条件的目标视频片段，终端可以分别从两个目标视频片段中筛选出预设人物的两个视频帧，具体如图11中d1和d2所示的两个视频帧，并根据这两个视频帧筛选背景音乐，进而基于这两个视频帧，以及筛选出的目标背景音乐，从而获得目标音视频，具体如图11中的e所示。

在图10所示的实施例中，终端可以结合人物在视频片段中的行为特征和姿态特征，识别人物的行为，由于结合了人物多方面的特征，因此可以更准确地获得人物的行为。且，终端在识别出视频片段中人物的行为之后，可以基于行为识别结果，灵活地进行视频合成，以获得更富有节奏感的音视频，提高了更为丰富的视频素材。

本申请实施例中涉及的对象行为识别方法可以由服务器执行、终端执行、或者也可以由服务器和终端协同执行。下面基于图1所示的应用场景，结合图12所示的服务器与终端之间的交互示意图，对终端和服务器协同执行对象行为识别方法为例，对本申请实施例涉及的对象行为识别方法进行介绍：

S121，终端响应于视频获取操作，生成视频获取请求。

视频获取操作用于获取视频，例如，用户对视频获取控件进行的点击操作，或者用户在视频播放界面进行的滑动操作等。终端确定用户需要获取视频时，可以生成视频获取请求，该视频获取请求用于请求获取相应的视频。

S122，终端将视频获取请求发送给服务器。

S123，服务器从待识别视频中，提取视频片段，视频片段包括至少一个视频帧。

提取视频片段的方式可以参照前文论述的内容，此处不再赘述。

S124，服务器从视频片段中，提取至少一个目标对象各自的行为特征，其中，行为特征是基于相应的目标对象在视频片段中的图像特征确定的。

提取行为特征的方式可以参照前文论述的内容，此处不再赘述。

S125，服务器从视频片段中，提取至少一个目标对象各自的姿态特征，其中，姿态特征是基于相应目标对象在视频片段中的对象关键点集合确定的。

提取姿态特征的方式可以参照前文论述的内容，此处不再赘述。

S126，服务器基于至少一个目标对象各自的行为特征和姿态特征，确定至少一个目标对象在视频片段中的目标行为识别结果。

确定目标行为识别结果的方式可以参照前文论述的内容，此处不再赘述。

S127，服务器基于各个视频片段的目标行为识别结果，筛选出满足预设行为的目标视频片段。

筛选目标视频片段的方式可以参照前文论述的内容，此处不再赘述。

S128，服务器基于目标视频片段，合成目标音视频。

S129，服务器将目标音视频发送给终端。

S130，终端播放目标音视频。

作为一种实施例，图12中的S121和S127-S130为可选的部分。

例如，请参照图13，为终端的界面变化示例图，终端显示如图13中a所示的界面，该界面包括卡点视频1、卡点视频2和卡点视频3，当用户在图13中a所示的界面中沿虚线箭头所指方向，进行滑动操作，相当于进行了视频获取操作，终端根据该视频获取操作，生成视频获取请求，并将视频获取请求发送给服务器，服务器在获得视频获取请求之后，可以生成相应的卡点视频4，并将卡点视频4反馈给终端，终端显示如图13中b所示的界面，该界面包括卡点视频2、卡点视频3、以及卡点视频4。

在图12所示的实施例中，服务器可以根据终端的实时需求，为终端合成相应的音视频，以满足用户的个性化音视频观看需求。且，服务器可以基于目标对象的行为特征和姿态特征，识别目标对象的行为，可以准确地识别目标对象的行为，有利于为用户提供更为准确且更符合需求的目标视频片段。

基于同一发明构思，本申请实施例提供一种对象行为识别装置，该装置可以实现前文服务器或终端的功能，请参照图14，为对象行为识别装置的结构示意图，该装置包括：

视频片段提取模块1401，用于从待识别视频中，提取视频片段，视频片段包括至少一个视频帧；

行为特征提取模块1402，用于从视频片段中，提取至少一个目标对象各自的行为特征，其中，行为特征是基于相应的目标对象在视频片段中的图像特征确定的；

姿态特征提取模块1403，用于从视频片段中，提取至少一个目标对象各自的姿态特征，其中，姿态特征是基于相应目标对象在视频片段中的对象关键点集合确定的；

结果确定模块1404，用于基于至少一个目标对象各自的行为特征和姿态特征，确定至少一个目标对象在视频片段中的目标行为识别结果。

在一种可能的实施例中，行为特征提取模块1402具体用于：

从视频片段中的各个视频帧中，提取至少一个目标对象的图像特征，获得视频片段对应的视频特征图；

针对至少一个目标对象，分别执行以下操作：

从视频片段中的任一视频帧中，检测至少一个目标对象中的一个目标对象在任一视频帧中的相对位置；

基于一个目标对象在任一视频帧中的相对位置，从视频特征图中，确定出一个目标对象的行为特征。

在一种可能的实施例中，行为特征提取模块1402具体用于：

从视频特征图中，确定出与一个目标对象的相对位置相应的特征区域；

将特征区域分割为多个候选单元，并针对多个候选单元，执行以下操作：利用插值方法，确定多个候选单元中一个候选单元中预设位置对应的坐标值，并对确定出的坐标值进行最大池化操作，获得池化结果；

基于多个候选单元各自的池化结果，获得一个目标对象的行为特征。

在一种可能的实施例中，姿态特征提取模块1403具体用于：

从视频片段中的各个视频帧中，提取至少一个目标对象各自的对象关键点集合；

针对至少一个目标对象，分别执行以下操作：基于至少一个目标对象中的一个目标对象的对象关键点集合，获得一个目标对象的姿态特征。

在一种可能的实施例中，姿态特征提取模块1403具体用于：

针对视频片段中的各个视频帧，分别执行以下的任一操作：

对各个视频帧中的一个视频帧进行对象检测，获得一个视频帧中至少一个目标对象各自的检测框，并从检测出的各个检测框中，分别识别出至少一个目标对象各自的至少一个对象关键点；

对一个视频帧进行对象关键点检测，获得一个视频帧中的至少一个对象关键点，并确定至少一个对象关键点所属的目标对象，以获得至少一个目标对象各自的至少一个对象关键点。

在一种可能的实施例中，姿态特征提取模块1403具体用于：

基于一个目标对象的对象关键点集合，获得第一三维向量，其中，第一三维向量中的第一维向量表示视频片段的时长，第二维向量表示一个目标对象的对象关键点集合中的对象关键点数量，第三维向量表示通道数；

对第一三维向量进行卷积操作，获得第二三维向量；

调换第二三维向量中的第二维向量和第三维向量的相对位置，获得第三三维向量；

对第三三维向量进行卷积操作，获得一个目标对象的姿态特征。

在一种可能的实施例中，结果确定模块1404具体用于：

针对至少一个目标对象，分别执行以下操作：

将至少一个目标对象中的一个目标对象的行为特征，输入预训练的第一行为分类网络，获得一个目标对象属于各个单对象行为标签的第一概率值；

将一个目标对象的姿态特征，输入预训练的第二行为分类网络，获得一个目标对象属于各个单对象行为标签的第二概率值；

对一个目标对象在同一单对象行为标签下的第一概率值和第二概率值进行加权求和，获得一个目标对象属于各个单对象行为标签各自的第三概率值；

基于获得的各个第三概率值，确定一个目标对象所属的单对象行为标签；

将确定出的至少一个目标对象各自的单对象行为标签，分别作为至少一个目标对象各自对应的目标行为识别结果。

在一种可能的实施例中，至少一个目标对象包括多个目标对象，结果确定模块1404具体用于：

组合至少一个目标对象各自的行为特征，并将组合后的行为特征，输入预训练的第三行为分类网络，获得至少一个目标对象对应的属于各个多对象行为标签的第四概率值；

组合至少一个目标对象各自的姿态特征，并将组合后的姿态特征，输入预训练的第四行为分类网络，获得至少一个目标对象对应的属于各个多对象行为标签的第五概率值；

对至少一个目标对象在同一多对象行为标签下的第四概率值和第五概率值进行加权求和，获得一个目标对象属于各个多对象行为标签各自的第六概率值；

基于获得的各个第六概率值，确定至少一个目标对象所属的多对象行为标签，并将确定出的多对象行为标签作为至少一个目标对象的目标行为识别结果。

在一种可能的实施例中，结果确定模块1404具体用于：

针对至少一个目标对象，分别执行以下操作：将至少一个目标对象中的一个目标对象的行为特征，与一个目标对象的姿态特征进行融合，获得一个目标对象的融合特征；

基于至少一个目标对象各自的融合特征，获得至少一个目标对象在视频片段中的目标行为识别结果。

在一种可能的实施例中，结果确定模块1404具体用于执行如下的至少一种：

将至少一个目标对象各自的融合特征，分别输入预训练的第五行为分类网络，获得至少一个目标对象各自在视频片段中的单对象行为识别结果；

至少一个目标对象包括多个目标对象，组合至少一个目标对象各自的融合特征，并将组合后的融合特征输入预训练的第六行为分类网络，获得至少一个目标对象在视频片段中的多对象行为识别结果。

在一种可能的实施例中，视频片段包括多个，装置还包括音视频获得模块1405，音视频获得模块1405具体用于：

基于至少一个目标对象各自的行为特征和姿态特征，确定至少一个目标对象在视频片段中的目标行为识别结果之后，从多个视频片段中，筛选出满足预设行为条件的目标视频片段；

基于预设目标对象在目标视频片段中的对象关键点集合，确定预设目标对象的目标部位在目标视频片段中的运动幅度信息，其中，预设目标对象为至少一个目标对象中的一个；

从预存的多个背景音乐中，匹配出音乐节奏信息与运动幅度信息匹配的目标背景音乐；

合并目标视频片段与目标背景音乐，获得目标音视频。

作为一种实施例，音视频获得模块1405为可选的模块。

应当说明的是，图14所示的装置还可以实现前文论述的任一的对象行为识别方法，此处不再赘述。

在图14所示的实施例中，该对象行为识别装置可以结合目标对象的行为特征和姿态特征，可以更为准确地确定该目标对象的行为，为后续编辑视频提供更为准确的视频片段分类。

基于同一发明构思，本申请实施例提供一种计算机设备，该计算机设备可以实现前文服务器或终端的功能，请参照图15，该计算机设备包括处理器1501和存储器1502。

处理器1501可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1502和处理器1501之间的具体连接介质。本申请实施例在图15中以存储器1502和处理器1501之间通过总线1503连接，总线1503在图15中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1503可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1502可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1502也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1502可以是上述存储器的组合。

处理器1501，用于调用存储器1502中存储的计算机程序时执行如前文论述的对象行为识别方法，还可以用于实现前文图14所示的装置的功能。

基于同一发明构思，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机设备上运行时，使得计算机设备执行前文论述的任一的对象行为识别方法。其中，该计算机设备可以是图15所示的计算机设备。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

基于同一发明构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的对象行为识别方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种对象行为识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述从所述视频片段中，提取至少一个目标对象各自的行为特征，包括：

针对所述至少一个目标对象，分别执行以下操作：

3.如权利要求2所述的方法，其特征在于，所述基于所述一个目标对象在所述任一视频帧中的相对位置，从所述视频特征图中，确定出所述一个目标对象的行为特征，包括：

4.如权利要求1所述的方法，其特征在于，所述从所述视频片段中，提取所述至少一个目标对象各自的姿态特征，包括：

5.如权利要求4所述的方法，其特征在于，所述从所述视频片段中的各个视频帧中，提取所述至少一个目标对象各自的对象关键点集合，包括：

6.如权利要求4所述的方法，其特征在于，所述基于所述至少一个目标对象中的一个目标对象的对象关键点集合，获得所述一个目标对象的姿态特征，包括：

对所述第一三维向量进行卷积操作，获得第二三维向量；

7.如权利要求1所述的方法，其特征在于，所述基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果，包括：

针对所述至少一个目标对象，分别执行以下操作：

8.如权利要求1所述的方法，其特征在于，所述至少一个目标对象包括多个目标对象；所述基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果，包括：

9.如权利要求1所述的方法，其特征在于，所述基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果，包括：

10.如权利要求9所述的方法，其特征在于，所述基于所述至少一个目标对象各自的融合特征，获得所述至少一个目标对象在所述视频片段中的目标行为识别结果，包括如下的至少一种：

11.如权利要求1～10任一项所述的方法，其特征在于，所述视频片段包括多个；所述基于所述至少一个目标对象各自的行为特征和姿态特征，确定所述至少一个目标对象在所述视频片段中的目标行为识别结果之后，所述方法还包括：

从多个视频片段中，筛选出满足预设行为条件的目标视频片段；

12.一种对象行为识别装置，其特征在于，包括：

行为特征提取模块，用于从所述视频片段中，提取至少一个目标对象各自的行为特征，其中，所述行为特征是基于相应的目标对象，在所述视频片段中的图像特征确定的；

姿态特征提取模块，用于从所述视频片段中，提取所述至少一个目标对象各自的姿态特征，其中，所述姿态特征是基于相应目标对象，在所述视频片段中的对象关键点集合确定的；

13.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1～11任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机设备上运行时，使得计算机设备执行如权利要求1～11任一项所述的方法。