CN116071825A

CN116071825A - 一种动作行为识别方法、系统、电子设备及存储介质

Info

Publication number: CN116071825A
Application number: CN202310073328.5A
Authority: CN
Inventors: 肖冠正
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-05-05
Anticipated expiration: 2043-01-31
Also published as: CN116071825B

Abstract

本发明公开了一种动作行为识别方法、系统、电子设备及存储介质，其中动作行为识别方法包括对目标视频进行拆帧处理，得到视频帧集合；对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合；从所述热力图像矩阵集合中获取动作起始矩阵和动作终止矩阵，对所述动作起始矩阵和所述动作终止矩阵进行差值计算处理，得到差值矩阵；将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果。本发明实施例通过对热力图像组合进行识别提高了动作行为识别的准确性，可广泛应用于人工智能技术领域。

Description

一种动作行为识别方法、系统、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其是一种动作行为识别方法、系统、电子设备及存储介质。

背景技术

随着科学技术的不断发展，动作行为识别在各个场景中被广泛应用，比如在监控视频中识别人物执行的动作，或者在电影视频中识别演员执行的动作等。相关技术中，对动作识别的方法一般会采取的是：训练肢体关键点识别模型，再通过模型识别图像中肢体的关键点，计算关键点的相对位置以及多帧之间的相对位置变化，判断目标对象是否完成了预设动作。但是，由于该方法依赖于关键点的标记质量以及单个状态的识别结果，导致动作识别的准确性不高。

综合上述，相关技术中存在的技术问题亟需得到解决。

发明内容

有鉴于此，本发明实施例提供一种动作行为识别方法、系统、电子设备及存储介质，以提高动作识别的准确性。

一方面，本发明提供了一种动作行为识别方法，包括：

对目标视频进行拆帧处理，得到视频帧集合；

对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合；

从所述热力图像矩阵集合中获取动作起始矩阵和动作终止矩阵，对所述动作起始矩阵和所述动作终止矩阵进行差值计算处理，得到差值矩阵；

将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果。

可选地，所述对目标视频进行拆帧处理，得到视频帧集合，包括：

获取录制视频或实时视频流作为目标视频；

对所述目标视频中包含目标对象的视频帧进行提取处理，得到视频帧集合。

可选地，所述对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合，包括对视频帧图像进行转换处理，得到热力图像矩阵的步骤，包括：

根据热力图转换公式对所述视频帧图像进行计算，得到转换增量；

根据所述转换增量对所述视频帧图像的像素值进行叠加处理，得到热力图像矩阵；

所述热力图转换公式如下式所示：

其中，Y_xy表示转换增量，(x，y)表示待转换的视频帧图像的坐标值，x₁、x₂分别表示待转换的视频帧图像的前一帧视频图像与后一帧视频图像的关键点的横坐标，y₁、y₂分别表示待转换的视频帧图像的前一帧视频图像与后一帧视频图像的关键点的横坐标关键点的纵坐标，p(p_x，p_y)表示待转换的视频帧图像的前一帧视频图像与后一帧视频图像的关键点的插值坐标，σ_p表示与待转换的视频帧图像的宽度和高度相关的标准差。

可选地，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果，包括：

对所述差值矩阵进行正负值区分处理，得到动作行为方向；

通过所述动作行为识别模型对所述差值矩阵进行特征提取处理，得到动作变化特征；

根据所述动作行为方向和所述动作变化特征进行识别判断处理，得到动作行为识别结果。

可选地，所述动作行为识别模型采用卷积神经网络搭建。

可选地，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果之前，还包括预先训练所述动作行为识别模型，具体包括：

获取训练图像集；

将所述训练图像集输入所述动作行为识别模型，得到模型预测结果；

根据所述模型预测结果和所述训练图像集的类别计算得到训练误差；

根据所述训练误差对所述动作行为识别模型的参数进行更新。

可选地，所述获取训练图像集，包括：

收集不同类别动作的图像，得到分组图像集；

对所述分组图像集进行热力图转换处理，得到热力图像集合；

根据不同分组对所述热力图像集合进行差值计算，得到训练图像集。

另一方面，本发明实施例还提供了一种动作行为识别系统，包括：

第一模块，用于对目标视频进行拆帧处理，得到视频帧集合；

第二模块，用于对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合；

第三模块，用于从所述热力图像矩阵集合中获取动作起始矩阵和动作终止矩阵，对所述动作起始矩阵和所述动作终止矩阵进行差值计算处理，得到差值矩阵；

第四模块，用于将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果。

另一方面，本发明实施例还公开了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

另一方面，本发明实施例还公开了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

另一方面，本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明实施例通过将视频帧图像转换为热力图矩阵，减少了对图像关键点计算的成本，并且使用热力图降低了画面的干扰；另外，本发明实施例将差值矩阵输入动作行为识别模型进行动作识别处理得到动作行为识别结果，让动作行为识别模型的特征提取聚焦在状态变化产生的特征上，提高了特征提取的效果和抗干扰能力，从而提高动作识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作行为识别方法的流程图；

图2是本申请实施例提供的一种屈臂抬手训练集示例图；

图3是本申请实施例提供的一种直臂抬手训练集示例图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

热力图，是一种以特殊高亮的形式显示人们感兴趣或关注部分的图像。

卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈神经网络，其神经元可对感受野内的单元进行响应。CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。

参照图1，本发明实施例提供一种动作行为识别方法，包括：

S101、对目标视频进行拆帧处理，得到视频帧集合；

S102、对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合；

S103、从所述热力图像矩阵集合中获取动作起始矩阵和动作终止矩阵，对所述动作起始矩阵和所述动作终止矩阵进行差值计算处理，得到差值矩阵；

S104、将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果。

在本发明实施例中，首先对目标视频进行拆帧，获取包含目标对象的视频帧集合，如目标对象可以为人体中的手臂、大腿等执行动作的部位，目标视频为包含目标对象的已录制视频或实时视频流，通过对目标视频中的每一帧进行拆分，提取包含目标对象的多帧图像得到视频帧集合。然后对视频集合中的每一帧图像进行热力图转换，将转换得到的热力图映射到矩阵中，得到热力图像矩阵集合。再从热力图像矩阵集合中获取动作起始矩阵和动作终止矩阵，其中动作起始矩阵为执行一个动作的起始图像的矩阵值，动作终止矩阵为执行一个动作的结束图像的矩阵值，如目标对象执行抬手动作行为时，手臂从下垂状态转换为抬起状态，将下垂状态作为动作起始图像，将抬起到最高点作为动作结束图像。通过对动作起始矩阵和动作终止矩阵进行差值计算得到差值矩阵，将差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果。本发明实施例转换了传统方法中的计算关键点变化从而实现动作识别的思路，而是通过热力图相减的方式，选择动作起止阶段的图片作为组合，让动作行为识别模型的特征提取聚焦在因为状态变化而产生的特征上，从而实现动态动作的识别，使特征提取效果更好，抗干扰能力强，提高了动作行为识别的准确性。

进一步作为优选的实施方式，上述步骤S101中，所述对目标视频进行拆帧处理，得到视频帧集合，包括：

获取录制视频或实时视频流作为目标视频；

在本发明实施例中，可以将已经录制完成的视频或实时视频流作为目标视频，当将实时视频流作为目标视频时，能够应用于实时动作识别应用场景中，如监测场景中，对监测对象的行为进行实时识别，得到动作行为识别结果。本发明实施例还对目标视频中包含目标对象的视频帧进行提取处理，减少空白背景或其他目标的干扰，提高动作行为识别的准确性。

进一步作为优选的实施方式，所述对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合，包括对视频帧图像进行转换处理，得到热力图像矩阵的步骤，包括：

所述热力图转换公式如下式所示：

在本发明实施例中，需要对视频帧集合中的每一帧图像进行热力图转换处理，从而得到热力图像矩阵集合，具体通过对视频帧图像进行转换处理得到热力图像矩阵，视频帧图像为视频帧集合中的任意一帧图像。本发明实施例根据热力图转换公式对视频帧图像进行计算得到转换增量，再将转换增量叠加到视频帧图像的像素值中，得到转换后的热力图像矩阵。

本发明实施例的热力图转换公式如下式所示：

本发明实施例通过对热力图进行处理，能够减少对关键点进行标记、识别的计算成本；同时，应用热力图可以降低画面干扰，此外，直接通过数学公式直接转换，转换效率高，速度快。

进一步作为优选的实施方式，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果，包括：

对所述差值矩阵进行正负值区分处理，得到动作行为方向；

在本发明实施例中，通过差值矩阵输入动作行为识别模型进行动作识别处理得到动作行为识别结果，差值矩阵为动作起始图像与动作结束图像的热力图矩阵进行差值计算得到的矩阵。本发明实施例将差值矩阵输入已训练的动作行为识别模型中进行识别计算，如果识别结果的概率大于预设值，则判断目标对象做出了对应类型的动作。另外，本发明实施例对差值矩阵进行正负值区分处理能够得到动作行为方向，如直臂抬手为例，如果动作要求是“直臂抬手”，识别到的目标对象的动作图像的热力图矩阵为正，则完成了直臂抬手的过程，如果是负，则目标对象的手臂是从直臂抬手到手臂下垂的过程。在该实施例中，将直臂抬手图像和手臂下垂图像进行相减，得到热力图矩阵的差值，按时间顺序进行运算，从前一张减去后一张。例如坐标为(x,y)的点，前一张图的颜色值为(30，255，255)，后一张图片该店的颜色值为(40，255，0)，得到的差值为(-10，0，255)，如果动作行为方向掉转，则差值为(10，0，-255)，是两个不同数值，反应了不同顺序的动作。本发明实施例通过动作行为识别模型对差值矩阵进行特征提取处理得到动作变化特征，能够使动作行为识别模型的特征提取聚焦在状态变化特征上，提高特征提取效果。本发明实施例再根据动作行为方向和动作变化特征进行识别判断处理得到最终的动作行为识别结果。

进一步作为优选的实施方式，所述动作行为识别模型采用卷积神经网络搭建。

在本发明实施例中，动作行为识别模型采用卷积神经网络搭建，通过动作行为识别模型对差值矩阵进行分析，提取动作变化特征，从而识别判断得到动作行为识别结果。

进一步作为优选的实施方式，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果之前，还包括预先训练所述动作行为识别模型，具体包括：

获取训练图像集；

在本发明实施例中，可以将训练数据集输入到初始化后的动作行为识别模型中进行训练。具体地，将训练数据集中的数据输入到初始化后的动作行为识别模型后，可以得到模型输出的识别结果，即动作行为预测结果，可以根据动作行为预测结果和前述的标签来评估识别模型预测的准确性，从而对模型的参数进行更新。对于动作行为识别模型来说，模型预测结果的准确性可以通过损失函数(Loss Function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本申请实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的动作行为识别模型。具体地迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。

进一步作为优选的实施方式，所述获取训练图像集，包括：

收集不同类别动作的图像，得到分组图像集；

参照图2和图3，图2是本申请实施例提供的一种屈臂抬手训练集示例图，图3是本申请实施例提供的一种直臂抬手训练集示例图。在本发明实施例中，收集整理两类型动作的图片，分别转换为热力图，用每一组的结束状态热力图减去开始状态热力图，得到的热力图图片作为一个训练集图片。

与图1的方法相对应，本发明实施例还提供了一种电子设备，包括处理器以及存储器；所述存储器用于存储程序；所述处理器执行所述程序实现如前面所述的方法。

与图1的方法相对应，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

相关技术中，动态行为识别一般采取训练肢体关键点识别模型，再通过模型识别图像中肢体的关键点，计算关键点的相对位置以及多帧之间的相对位置变化，判断目标对象是否完成了预设动作的方法。但是该方法依赖于关键点的标记质量以及单个状态的识别结果，对动作行为识别结果的准确性不高。

综上所述，本发明实施例具有以下优点：

首先，本发明实施例的动作的训练样本制作成本更低。与传统方法相比，实现逻辑不依赖于关键点的标记质量以及单个状态的识别结果，仅需要通过选择动作起止阶段的图片作为组合即可。

另外，本发明实施例应用热力图可以降低画面干扰，并且直接通过数学公式直接转换的转换效率更高，速度更快。

此外，本发明实施例通过热力图相减的方式，让动作行为识别模型的特征提取聚焦在因为状态变化产生的特征上，特征提取效果更好，抗干扰能力强。

再者，本发明实施例的识别具备方向性，能通过本申请实施例得出目标对象的动作方向，例如手是从上往下放，还是从下往上抬。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种动作行为识别方法，其特征在于，所述方法包括：

对目标视频进行拆帧处理，得到视频帧集合；

2.根据权利要求1所述的方法，其特征在于，所述对目标视频进行拆帧处理，得到视频帧集合，包括：

获取录制视频或实时视频流作为目标视频；

3.根据权利要求1所述的方法，其特征在于，所述对所述视频帧集合中的每一帧图像进行转换处理，得到热力图像矩阵集合，包括对视频帧图像进行转换处理，得到热力图像矩阵的步骤，包括：

所述热力图转换公式如下式所示：

4.根据权利要求1所述的方法，其特征在于，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果，包括：

对所述差值矩阵进行正负值区分处理，得到动作行为方向；

5.根据权利要求1所述的方法，其特征在于，所述动作行为识别模型采用卷积神经网络搭建。

6.根据权利要求1所述的方法，其特征在于，所述将所述差值矩阵输入动作行为识别模型进行动作识别处理，得到动作行为识别结果之前，还包括预先训练所述动作行为识别模型，具体包括：

获取训练图像集；

7.根据权利要求6所述的方法，其特征在于，所述获取训练图像集，包括：

收集不同类别动作的图像，得到分组图像集；

8.一种动作行为识别系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器用于存储程序；

所述处理器执行所述程序实现权利要求1至7中任一项所述的动作行为识别方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的动作行为识别方法。