CN113591758A

CN113591758A - 一种人体行为识别模型训练方法、装置及计算机设备

Info

Publication number: CN113591758A
Application number: CN202110905571.XA
Authority: CN
Inventors: 张国梁; 杜泽旭; 甘津瑞; 卢卫疆; 吴鹏
Original assignee: State Grid Corp of China SGCC; Global Energy Interconnection Research Institute; Zaozhuang Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Global Energy Interconnection Research Institute; Zaozhuang Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-02

Abstract

本发明公开了一种人体行为识别模型训练方法、装置及计算机设备，其中，该方法包括：获取检测数据集；根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器；根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道；根据目标对象和交互对象的时空管道生成交互语义特征向量；根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。通过实施本发明，克服现有技术中基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练的问题，提高了人体行为准确率。

Description

一种人体行为识别模型训练方法、装置及计算机设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种人体行为识别模型训练方法、装置及计算机设备。

背景技术

随着技术的发展，当前较为流行的人体行为识别模型通常能够在部分公开数据集上取得较为理想的分类性能。然而，对于真实的人体行为识别场景，由于特征提取器采集的图像特征与行为类别标签之间存在着语义鸿沟，算法仍然难以具备鲁棒性的仿生视觉关联及泛化能力，即现有基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练，导致人体行为准确率较低，进而限制了技术的推广应用。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练，导致人体行为准确率较低的缺陷，从而提供一种人体行为识别模型训练方法、装置及计算机设备。

根据第一方面，本发明公开了一种人体行为识别模型训练方法，包括如下步骤：获取检测数据集；根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；根据所述交互行为样本子集和所述非交互行为样本子集对预设检测算法进行训练，得到对象检测器；根据所述对象检测器对所述检测数据集的检测结果构建目标对象和交互对象的时空管道；根据所述目标对象和交互对象的时空管道生成交互语义特征向量；根据所述交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。

可选地，所述根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集，包括：从所述检测数据集筛选与所述预设行为类别标签相关的对象类别标签；将所述预设行为类别标签投影到语义向量空间；根据所述语义向量空间计算所述预设行为类别标签的词向量和所述对象类别标签的词向量的相似度；根据所述相似度确定对象文本标签集合；确定所述预设行为类别标签的第一预设数量的对象文本标签与所述检测数据集中的对象文本标签集的交集，得到所有行为类别的交互对象文本标签集；根据目标行为类别标签的第二预设数量的对象文本标签与所述所有行为类别的交互对象文本标签集确定交互行为和/或非交互行为；根据获取到的对象类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集。

可选地，所述根据所述目标对象和交互对象的时空管道生成交互语义特征向量，包括：根据预设规则对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道；根据所述目标时空管道、目标对象和交互对象的相对位置、相对尺寸和相互交叠率进行编码整合，生成所述交互语义特征向量。

可选地，所述根据预设规则对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道，包括：根据所述检测结果确定包含目标对象的交互对象的视频帧的数量与全部视频帧的数量的比值；当所述比值大于第一预设值时，确定所述检测数据集包含所述交互对象；根据所述交互对象的判断结果对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道。

可选地，所述方法还包括：提取所述交互行为样本子集的交互语义特征；根据信息熵理论对所述交互语义特征在矢量空间内的类内聚集度和类间分离度进行评估，得到信息增益向量；将所述信息增益向量作为决策增益向量进行行为识别。

可选地，所述方法还包括：获取测试数据集；将所述测试数据集输入到对象检测器中交互行为矩阵和非交互行为矩阵；将所述决策增益向量和交互行为样本输出评分矩阵进行融合后对所述交互行为矩阵和非交互行为矩阵进行级联，生成分类决策矩阵；对所述分类决策矩阵进行转换，得到人体行为识别结果。

可选地，所述预设检测算法至少包括：YOLO-V4算法、Scaled-YOLO算法和Poly-YOLO算法。

根据第二方面，本发明还公开了一种人体行为识别模型训练装置，包括：检测数据集获取模块，用于获取检测数据集；筛选模块，用于根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；第一训练模块，用于根据所述交互行为样本子集和所述非交互行为样本子集对预设检测算法进行训练，得到对象检测器；构建模块，用于根据所述对象检测器对所述检测数据集的检测结果构建目标对象和交互对象的时空管道；生成模块，用于根据所述目标对象和交互对象的时空管道生成交互语义特征向量；第二训练模块，用于根据所述交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。

根据第三方面，本发明还公开了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的人体行为识别模型训练方法的步骤。

根据第四方面，本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的人体行为识别模型训练方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的人体行为识别模型训练方法及装置，通过获取检测数据集；根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器；根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道；根据目标对象和交互对象的时空管道生成交互语义特征向量；根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。本发明通过发掘与目标对象交互的对象的语义特征，克服现有技术中基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练的问题，提高了人体行为准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中人体行为识别模型训练方法的一个具体示例的流程图；

图2为本发明实施例中词向量嵌入图的一个具体示例图；

图3为本发明实施例中人体行为识别模型训练装置的一个具体示例的原理框图；

图4为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种人体行为识别模型训练方法，如图1所示，包括如下步骤：

S11：获取检测数据集。

示例性地，该检测数据集可以包括：Image Net数据集和COCO数据集等，其可以直接从搜索引擎搜索获得；该检测数据集也可以是用户根据人体识别的具体需求拍摄得到的，本发明实施例对该检测数据集以及检测数据集的获取方法均不作限定，本领域技术人员可以根据实际情况确定。

S12：根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集。

示例性地，该预设行为类别标签可以包括：打棒球、踢足球等，该预设行为类别标签可以是本领域技术人员可以实际应用场景设置的。在本发明实施例中，交互行为样本子集可以为与目标行为相关的对象组成的样本集，而非交互行为样本集可以为与目标行为没有关系的对象组成的样本子集。

根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集具体可以为：

首先，从检测数据集筛选与预设行为类别标签相关的对象类别标签。

示例性地，对象类别标签可以为与预设类别标签交互的对象，例如，当预设行为标签为打棒球时，该对象类别标签可以为棒球、棒球棒等。

其次，将预设行为类别标签投影到语义向量空间。在本发明实施例中，可以采用Word2Vec工具将行为类别标签投影到语义向量空间。词向量空间嵌入结果如图2所示。

再次，根据语义向量空间计算预设行为类别标签的词向量和对象类别标签的词向量的相似度。

示例性地，该相似度可以为余弦相似度，也可以为欧式距离相似度。本发明实施例对该相似度不作具体限定，本领域技术人员可以根据实际情况确定。

再次，根据相似度确定对象文本标签集合。

示例性地，在本发明实施例中，根据相似度确定对象文本标签集合可以为先根据相似度的大小进行排序，然后选择前50个作为对象文本标签集合。本发明实施例对该对象文本标签集合中的对象文本标签数量不作具体限定，本领域技术人员可以根据实际情况确定。

再次，确定预设行为类别标签的第一预设数量的对象文本标签与检测数据集中的对象文本标签集的交集，得到所有行为类别的交互对象文本标签集。

示例性地，该第一预设数量可以为50个。本发明实施例对该第一预设数量不作具体限定，本领域技术人员可以根据实际情况确定。例如，设子集P为全部行为类别的前50个对象文本标签所构成的集合，子集Q为所选目标检测数据集中的对象文本标签集合，则通过计算P和Q的交集得到关于全部行为类别的交互对象文本标签集合S。

再次，根据目标行为类别标签的第二预设数量的对象文本标签与所有行为类别的交互对象文本标签集确定交互行为和/或非交互行为。

示例性地，该第二预设数量也可以为50个。本发明实施例对该第二预设数量不作具体限定，本领域技术人员可以根据实际情况确定。

根据目标行为类别标签的第二预设数量的对象文本标签与所有行为类别的交互对象文本标签集确定交互行为和/或非交互行为可以为判断特定(某一类)行为类别的前50个对象文本标签与集合S是否有交集，若无交集则认定该行为是非交互行为；若有交集则初步认定该行为是交互行为。

再次，根据获取到的对象类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集。

本发明实施例通过Word2Vec工具提出了一种人员行为交互对象文本数据标签数据集构建方法，可以快速确定交互数据集和非交互数据集。

S13：根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器。

示例性地，上述预设检测算法至少包括：YOLO-V4算法、Scaled-YOLO算法和Poly-YOLO算法等。本发明实施例对该预设检测算法不作具体限定，本领域技术人员可以根据实际情况确定。根据交互行为样本子集和非交互行为样本子集对预设检测算法进行有监督训练，得到对象检测器。

S14：根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道。

示例性地，该时空管道可以为每一帧图像中同一个交互对象连接起来的，例如，每一帧的棒球棒连起来。具体方法可以为根据检测框中心点的欧式距离的大小(两帧中欧式距离越小的检测框具备越高的关联优先级)将目标检测实例随着视频帧脚标连接起来。

S15：根据目标对象和交互对象的时空管道生成交互语义特征向量。

示例性地，根据目标对象和交互对象的时空管道生成交互语义特征向量具体可以为：首先，根据预设规则对目标对象和交互对象的时空管道进行优化，得到目标时空管道。其次，根据目标时空管道、目标对象和交互对象的相对位置、相对尺寸和相互交叠率进行编码整合，生成交互语义特征向量。

具体地，预设规则可以为假阳性去除规则和假阴性去除规则。在本发明实施例中，假阳性指的是前帧没有目标对象，第四帧也没有，但是检测出来了，假阴性指的是前3帧有目标对象，而第四帧也有，但是没有检测出来。

根据预设规则对目标对象和交互对象的时空管道进行优化，得到目标时空管道可以为根据预设规则去除假阳性和假阴性的情况，具体地，对于假阴性结果，首先，根据检测结果确定包含目标对象的交互对象的视频帧的数量与全部视频帧的数量的比值。其次，当比值大于第一预设值(例如，0.9)时，确定检测数据集包含交互对象。再次，根据交互对象的判断结果对目标对象和交互对象的时空管道进行优化，得到目标时空管道，即被认定为非包含关系的交互对象检测结果将被移除；被认定为包含关系的交互对象在其假阴性检测帧中将根据空间位置关系，通过线性插值的方式进行补充。对于假阳性结果，根据人员和对象的时空位置关系及外观一致性，定义相应的状态转移方程、指标函数和最优值函数，并基于动态规划算法对假阳性检测结果进行删减。

在本发明实施例中，假阳性优化过程在假阴性优化之后。

S16：根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。

示例性地，该预设神经网络模型可以为3D卷积神经网络模型。根据交互语义特征向量输入到预设神经网络模型进行有监督训练，得到人体行为识别模型。

本发明提供的人体行为识别模型训练方法，通过获取检测数据集；根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器；根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道；根据目标对象和交互对象的时空管道生成交互语义特征向量；根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。本发明通过发掘与目标对象交互的对象的语义特征，克服现有技术中基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练的问题，提高了人体行为准确率。

作为本发明实施例一个可选实施方式，该人体行为识别模型训练方法还包括：

首先，提取交互行为样本子集的交互语义特征。其次，根据信息熵理论对交互语义特征在矢量空间内的类内聚集度和类间分离度进行评估，得到信息增益向量。再次，将信息增益向量作为决策增益向量进行行为识别。

本发明实施例通过将交互语义特征转换为行为分类过程中的辅助决策增益，提升模型对于相近模式人体行为的识别性能。

首先，获取测试数据集。

示例性地，该测试数据集可以为一些公开的数据集，例如，Image Net数据集和COCO数据集等，其可以直接从搜索引擎搜索获得；该测试数据集也可以是用户根据人体识别的具体需求拍摄得到的，本发明实施例对该测试数据集以及测试数据集的获取方法均不作限定，本领域技术人员可以根据实际情况确定。只要保证测试数据集与检测数据集不一样即可。

其次，将测试数据集输入到对象检测器中交互行为矩阵和非交互行为矩阵。

再次，将决策增益向量和交互行为样本输出评分矩阵进行融合后对交互行为矩阵和非交互行为矩阵进行级联，生成分类决策矩阵。具体地，将决策增益向量和交互行为样本输出评分矩阵进行融合后对交互行为矩阵和非交互行为矩阵进行级联可以为简单的连接，得到分类决策矩阵。

再次，对分类决策矩阵进行转换，得到人体行为识别结果。

本发明实施例还公开了一种人体行为识别模型训练装置，如图3所示，包括：

检测数据集获取模块21，用于获取检测数据集；具体实现方式见上述实施例中步骤S11的相关描述，在此不再赘述。

筛选模块22，用于根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；具体实现方式见上述实施例中步骤S12的相关描述，在此不再赘述。

第一训练模块23，用于根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器；具体实现方式见上述实施例中步骤S13的相关描述，在此不再赘述。

构建模块24，用于根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道；具体实现方式见上述实施例中步骤S14的相关描述，在此不再赘述。

生成模块25，用于根据目标对象和交互对象的时空管道生成交互语义特征向量；具体实现方式见上述实施例中步骤S15的相关描述，在此不再赘述。

第二训练模块26，用于根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。具体实现方式见上述实施例中步骤S16的相关描述，在此不再赘述。

本发明提供的人体行为识别模型训练装置，通过获取检测数据集；根据预设行为类别标签对检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；根据交互行为样本子集和非交互行为样本子集对预设检测算法进行训练，得到对象检测器；根据对象检测器对检测数据集的检测结果构建目标对象和交互对象的时空管道；根据目标对象和交互对象的时空管道生成交互语义特征向量；根据交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。本发明通过发掘与目标对象交互的对象的语义特征，克服现有技术中基于深度学习的人体行为识别模型训练方法缺乏对重要语义线索的凝练的问题，提高了人体行为准确率。

本发明实施例还提供了一种计算机设备，如图4所示，该计算机设备可以包括处理器31和存储器32，其中处理器31和存储器32可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的人体行为识别模型训练方法对应的程序指令/模块(例如，图3所示的检测数据集获取模块21、筛选模块22、第一训练模块23、构建模块24、生成模块25和第二训练模块26)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的人体行为识别模型训练方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器32中，当被所述处理器31执行时，执行如图1所示实施例中的人体行为识别模型训练方法。

上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种人体行为识别模型训练方法，其特征在于，包括如下步骤：

获取检测数据集；

根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；

根据所述交互行为样本子集和所述非交互行为样本子集对预设检测算法进行训练，得到对象检测器；

根据所述对象检测器对所述检测数据集的检测结果构建目标对象和交互对象的时空管道；

根据所述目标对象和交互对象的时空管道生成交互语义特征向量；

根据所述交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。

2.根据权利要求1所述的方法，其特征在于，所述根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集，包括：

从所述检测数据集筛选与所述预设行为类别标签相关的对象类别标签；

将所述预设行为类别标签投影到语义向量空间；

根据所述语义向量空间计算所述预设行为类别标签的词向量和所述对象类别标签的词向量的相似度；

根据所述相似度确定对象文本标签集合；

确定所述预设行为类别标签的第一预设数量的对象文本标签与所述检测数据集中的对象文本标签集的交集，得到所有行为类别的交互对象文本标签集；

根据目标行为类别标签的第二预设数量的对象文本标签与所述所有行为类别的交互对象文本标签集确定交互行为和/或非交互行为；

根据获取到的对象类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标对象和交互对象的时空管道生成交互语义特征向量，包括：

根据预设规则对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道；

根据所述目标时空管道、目标对象和交互对象的相对位置、相对尺寸和相互交叠率进行编码整合，生成所述交互语义特征向量。

4.根据权利要求3所述的方法，其特征在于，所述根据预设规则对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道，包括：

根据所述检测结果确定包含目标对象的交互对象的视频帧的数量与全部视频帧的数量的比值；

当所述比值大于第一预设值时，确定所述检测数据集包含所述交互对象；

根据所述交互对象的判断结果对所述目标对象和交互对象的时空管道进行优化，得到目标时空管道。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述交互行为样本子集的交互语义特征；

根据信息熵理论对所述交互语义特征在矢量空间内的类内聚集度和类间分离度进行评估，得到信息增益向量；

将所述信息增益向量作为决策增益向量进行行为识别。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取测试数据集；

将所述测试数据集输入到对象检测器中交互行为矩阵和非交互行为矩阵；

将所述决策增益向量和交互行为样本输出评分矩阵进行融合后对所述交互行为矩阵和非交互行为矩阵进行级联，生成分类决策矩阵；

对所述分类决策矩阵进行转换，得到人体行为识别结果。

7.根据权利要求1所述的方法，其特征在于，所述预设检测算法至少包括：YOLO-V4算法、Scaled-YOLO算法和Poly-YOLO算法。

8.一种人体行为识别模型训练装置，其特征在于，包括：

检测数据集获取模块，用于获取检测数据集；

筛选模块，用于根据预设行为类别标签对所述检测数据集进行筛选，得到交互行为样本子集和非交互行为样本子集；

第一训练模块，用于根据所述交互行为样本子集和所述非交互行为样本子集对预设检测算法进行训练，得到对象检测器；

构建模块，用于根据所述对象检测器对所述检测数据集的检测结果构建目标对象和交互对象的时空管道；

生成模块，用于根据所述目标对象和交互对象的时空管道生成交互语义特征向量；

第二训练模块，用于根据所述交互语义特征向量输入到预设神经网络模型进行训练，得到人体行为识别模型。

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任一所述的人体行为识别模型训练方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的人体行为识别模型训练方法的步骤。