CN113901889A

CN113901889A - 一种基于时间和空间建立行为识别热度图的方法

Info

Publication number: CN113901889A
Application number: CN202111094654.1A
Authority: CN
Inventors: 张哲为; 张磊; 赵亁
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-01-07
Anticipated expiration: 2041-09-17
Also published as: CN113901889B

Abstract

本发明公开了一种基于时间和空间建立行为识别热度图的方法，构建增加一个输出分支的网络，该分支主要是用于热度图的生成，并保证分支之前的行为识别网络主结构里的时间维度不进行降采样操作；数据采集包括动作开始之前的和动作结束之后的各种类型的冗余动作，打标签要对动作开始和动作结束的视频序列打上一个数值为1的置信度得分；数据预处理，生成行为动作在时空维度上的真实热度图，在标注好的视频序列中随机取连续的N帧，并且在这N帧视频中必须包含动作开始或动作结束标志的至少一种，新建一个特征向量，再经过动作开始和结束对应位置索引的预处理操作，得到一个只包含0和1的特征向量，这个特征向量就是真实热度图；对输出分支进行训练。

Description

一种基于时间和空间建立行为识别热度图的方法

技术领域

本发明涉及图像分析技术领域，尤其涉及一种基于时间和空间建立行为识别热度图的方法。

背景技术

行为识别在技术上属于AI图像领域的范畴，通过这种技术，可以对人特定的肢体动作进行分析，从而推断出具体的动作行为。当前主流的行为识别方法是通过深度学习来进行的，大概分为以下三种：第一种，对视频行为的每一帧用2D卷积神经网络进行特征提取，之后用循环神经网络LSTM结构将所有帧的特征进行汇总并输出一个特征向量，最后用全连接加softmax进行行为分类；第二种，在视频行为中取固定数量的帧进行前后拼接，形成一个四维向量，送入3D卷积神经网络进行特征提取，最后依次用全局池化、全连接和softmax分类器进行计算，得到具体的行为类别分数；第三种，检测视频中每一帧的人体关键点信息，依次进行拼接得到人体骨骼序列数据，利用图卷积(需要将骨骼关键点转成图结构)或者3D卷积网络进行行为分析。

在行为识别的任务中，首先要对行为动作进行定义，包括：行为动作开始的标志、中间重点过程、动作结束的标志。保证行为识别的准确率，选取的视频时间序列最好在开始和结束之内，尽量减少动作开始之前和结束之后这些无效且冗余的行为视频帧，且保证动作的完整性。纵观所有行为识别的实现方案，识别之前只是对整体的行为动作做一个粗糙的检测，速度较慢的同时误检率也较高，缺少对关键开始动作和结束动作的识别。这就造成在实际应用中出现的各种问题：每个人的动作持续长短是不一样的，假设取26帧连续动作进行识别，动作快的人26帧里大多数都是无效动作，而动作慢的人26帧里并没有包含完整的动作，损耗计算资源的同时影响行为识别的精度。

发明内容

在人体关键点的任务中，采取了一种通过神经网络建立热度图的方式，可以极大提升关键点的检测精度。对这个方法进行借鉴，可以在时间和空间的维度上建立一种热度图来辅助进行动作识别，建立方式主要是通过对开始动作和结束动作时间序列上的置信度特征来实现。

这种方法通过构建的热度图信息能得到识别行为的开始和结束具体的时间节点，从而可以在动作范围内选取关键的连续帧进行行为识别分类，减少了过多的冗余动作，达到稳步提升行为识别准确率的效果。同时热度图的构建是基于原网络的前半部分特征，不需要经过网络的所有运算，因此降低了计算量，节省了计算资源，加快推理速度。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于时间和空间建立行为识别热度图的方法，包括如下步骤：

步骤1，构建行为识别网络，额外增加一个输出分支，该分支主要是用于热度图的生成，并保证分支之前的行为识别网络主结构里的时间维度不进行降采样操作；

步骤2，数据采集和标注，数据采集包括动作开始之前的和动作结束之后的各种类型的冗余动作，打标签的时候，不仅要对标准的一套动作打上一个行为标签，还要对动作开始和动作结束的视频序列打上一个数值为1的置信度得分，作为整体行为的2个关键点；

步骤3，数据预处理，生成行为动作在时空维度上的真实热度图，在标注好的视频序列中随机取连续的N帧，并且在这N帧视频中必须包含动作开始或动作结束标志的至少一种，新建一个尺寸为N*2、初始值为0的特征向量，再经过动作开始和结束对应位置索引的预处理操作，得到一个只包含0和1的特征向量，这个特征向量就是真实热度图；

步骤4，对输出分支进行训练，输入数据是连续的视频序列，输出的是热度图信息，拿输出的热度图跟数据预处理产生的真实热度图进行MSE计算，作为损失值进行训练，在整个过程中，只有热度图输出分支涉及的网络结构参数进行训练，主干网络结构的参数固定不变，具体公式如下：

其中，x代表输入的一组视频队列，l代表这组视频队列对应的数据标签，F表示主干网络进行的特征提取，G_heatmap表示热度图输出分支，G_target表示通过数据标签生成真实的热度图。

更进一步地，所述步骤1进一步包括：所述三层结构流程顺序：通过第一层串联的三个3D卷积操作对基于主干网络的特征进行进一步特征提取，且不改变原有的特征尺寸，将结果送入第二层卷积结构，得到的特征图尺寸为2*N*1*1，所述N代表输入网络的连续视频帧数，也是动作行为在时间上的维度数，最后将其送入第三层结构，得到N*2热度图。

更进一步地，所述步骤1进一步包括：所述输出分支进一步包括三个尺寸相同(kernel尺寸为(1,3,3)，stride为(1,1,1)，padding为(0,1,1)，输出通道数和输入特征通道数相同)的3D卷积网络，且每个卷积后面都跟一个批归一化和激活操作；一个跟输入特征高宽尺寸一样，时间尺寸为1的3D卷积网络；最后跟一个特征压缩和维度交换操作

更进一步地，所述关键点进一步包括：在所述关键点前后的视频中，人为进行比较，标记出跟开始动作或结束动作相似的连续视频序列。

更进一步地，训练好热度图的输出分支之后，再对视频进行行为识别时，可先通过这个分支对输入的视频序列进行热度图生成，判断输入队列中是否包含动作开始和动作结束的视频帧，如果都包含记录下开始帧和结束帧出现的位置；如果只包含开始帧，记录下开始帧的位置后再选取下一批连续视频序列，直到热度图中出现结束帧时，记录下结束帧的位置。在开始和结束之间进行关键点动作帧的提取并输入到整体的行为网络中进行动作识别。

更进一步地，所述步骤3进一步包括：所述特征向量包括两个通道，第一个通道记录动作开始的得分，第二个通道记录动作结束的得分，假设所述N帧视频中位于s索引上的视频帧代表动作开始，那么特征向量在[s,0]维度上值为1，且跟开始动作相似的连续帧序列在对应的特征向量上的取值呈0.99～0.5递减趋势；假设这N帧视频中位于e索引上的视频帧代表动作结束，那么特征向量在[e,1]维度上值为1，相似连续帧序列对应的取值也是呈递减趋势，以这种预处理方式可以给每个随机选取的视频序列建立一个对应的时空维度上的行为热度图。

本发明进一步公开了一种视频识别的方法，其中包括上述的一种行为识别热度图，其特征在于，包括如下步骤：

步骤101，抽取连续视频帧；

步骤102，生成上述中的所述行为识别热度图；

步骤103，判断是否已录开始帧位置，若否，则判断是否包含开始动作，若是，则判断是否包含结束动作；

步骤104，从开始帧和结束帧之间选择N个连续动作视频；

步骤105，通过行为网络进行识别，以此在开始和结束之间进行关键点动作帧的提取并输入到整体的行为网络中进行动作识别；

步骤106，将开始帧数和结束帧位置重置再返回步骤101，对整个输入视频进行不间断的行为识别，就是对以上步骤进行循环。

更进一步地，所述若否，则判断是否包含开始动作进一步包括：当判断不包含开始动作时返回步骤101重新抽取连续视频帧，若判断包含开始动作时，则记录下开始帧的位置并继续判断是否包含结束动作。

本发明还提供了一种系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本申请通过构建的热度图信息能得到识别行为的开始和结束具体的时间节点，从而可以在动作范围内选取关键的连续帧进行行为识别分类，减少了过多的冗余动作，达到稳步提升行为识别准确率的效果。同时热度图的构建是基于原网络的前半部分特征，不需要经过网络的所有运算，因此降低了计算量，节省了计算资源，加快推理速度。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明视频识别的逻辑流程示意图。

具体实施方式

实施例一

本实施例第一方面提出了一种新的热度图建立方式：基于时间和空间的行为识别热度图。主流的行为识别网络构成主要包括两种：3D卷积和图卷积，不论是哪一种网络结构，都是以串联单任务为主，行为检测任务和行为识别任务分属两个不同的网络模型。与原有行为识别网络结构不同的是，我们在其主结构第二层以后，额外增加一个输出分支，该分支主要是用于热度图的生成。建立分支需要明确一点，保证分支之前的行为识别网络主结构里的时间维度不要进行降采样操作。该分支包括三层结构：三个尺寸相同(kernel尺寸为(1,3,3)，stride为(1,1,1)，padding为(0,1,1)，输出通道数和输入特征通道数相同)的3D卷积网络，且每个卷积后面都跟一个批归一化和激活操作；一个跟输入特征高宽尺寸一样，时间尺寸为1的3D卷积网络；最后跟一个特征压缩和维度交换操作。以上共同构成了一个简单的热度图生成过程。该分支卷积个数不多且与主干关联的结构较少，实时性极强。

这三层结构流程顺序：通过第一层串联的三个3D卷积操作对基于主干网络的特征进行进一步特征提取，且不改变原有的特征尺寸，将结果送入第二层卷积结构，得到的特征图尺寸为2*N*1*1(N代表输入网络的连续视频帧数，也是动作行为在时间上的维度数)，最后将其送入第三层结构，得到N*2热度图。

为了让热度图更好地建立，本发明第二方面提出了一种新的数据采集标注方案和数据预处理方式：

数据采集和标注，标准的行为识别数据采集只包括从动作的开始到动作的结束，并给这一套动作打上一个行为标签。与之不同的是，新的采集方案更注重其它多余动作的收集，包括动作开始之前的和动作结束之后的各种类型的冗余动作，打标签的时候，不仅要对标准的一套动作打上一个行为标签，还要对动作开始和动作结束的视频序列打上一个数值为1的置信度得分，作为整体行为的2个“关键点”。在“关键点”前后的视频中，人为进行比较，标记出跟开始动作或结束动作相似的连续视频序列。数据预处理，这一步的重点是生成行为动作在时空维度上的真实热度图。在标注好的视频序列中随机取连续的N帧，并且在这N帧视频中必须包含动作开始或动作结束标志的至少一种。新建一个尺寸为N*2、初始值为0的特征向量，这个特征向量就是热度图。它有两个通道，第一个通道记录动作开始的得分，第二个通道记录动作结束的得分。假设这N帧视频中位于s索引上的视频帧代表动作开始，那么特征向量在[s,0]维度上值为1，且跟开始动作相似的连续帧序列在对应的特征向量上的取值呈0.99～0.5递减趋势；类似的，假设这N帧视频中位于e索引上的视频帧代表动作结束，那么特征向量在[e,1]维度上值为1，相似连续帧序列对应的取值也是呈递减趋势。以这种预处理方式可以给每个随机选取的视频序列建立一个对应的时空维度上的行为热度图。

行为识别网络有了新的输出分支和数据预处理方式之后，就可以对这个分支进行专门的训练，过程如下：输入数据是连续的视频序列，输出的是热度图信息，拿输出的热度图跟数据预处理产生的真实热度图进行MSE计算，作为损失值进行训练。在整个过程中，只有热度图输出分支涉及的网络结构参数进行训练，主干网络结构的参数固定不变。具体公式如下：

训练好热度图的输出分支之后，再对视频进行行为识别时，可先通过这个分支对输入的视频序列进行热度图生成，判断输入队列中是否包含动作开始和动作结束的视频帧，如果都包含记录下开始帧和结束帧出现的位置；如果只包含开始帧，记录下开始帧的位置后再选取下一批连续视频序列，直到热度图中出现结束帧时，记录下结束帧的位置。在开始和结束之间进行关键点动作帧的提取并输入到整体的行为网络中进行动作识别。对整个输入视频进行不间断的行为识别，就是对以上步骤进行循环。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于时间和空间建立行为识别热度图的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于时间和空间建立行为识别热度图的方法，其特征在于，所述步骤1进一步包括：所述三层结构流程顺序：通过第一层串联的三个3D卷积操作对基于主干网络的特征进行进一步特征提取，且不改变原有的特征尺寸，将结果送入第二层卷积结构，得到的特征图尺寸为2*N*1*1，所述N代表输入网络的连续视频帧数，也是动作行为在时间上的维度数，最后将其送入第三层结构，得到N*2热度图。

3.如权利要求1所述的一种基于时间和空间建立行为识别热度图的方法，其特征在于，所述步骤1进一步包括：所述输出分支进一步包括三个尺寸相同(kernel尺寸为(1,3,3)，stride为(1,1,1)，padding为(0,1,1)，输出通道数和输入特征通道数相同)的3D卷积网络，且每个卷积后面都跟一个批归一化和激活操作；一个跟输入特征高宽尺寸一样，时间尺寸为1的3D卷积网络；最后跟一个特征压缩和维度交换操作。

4.如权利要求1所述的一种基于时间和空间建立行为识别热度图的方法，其特征在于，所述关键点进一步包括：在所述关键点前后的视频中，人为进行比较，标记出跟开始动作或结束动作相似的连续视频序列。

5.如权利要求2所述的一种基于时间和空间建立行为识别热度图的方法，其特征在于，训练好热度图的输出分支之后，再对视频进行行为识别时，可先通过这个分支对输入的视频序列进行热度图生成，判断输入队列中是否包含动作开始和动作结束的视频帧，如果都包含记录下开始帧和结束帧出现的位置；如果只包含开始帧，记录下开始帧的位置后再选取下一批连续视频序列，直到热度图中出现结束帧时，记录下结束帧的位置。在开始和结束之间进行关键点动作帧的提取并输入到整体的行为网络中进行动作识别。

6.如权利要求1所述的一种基于时间和空间建立行为识别热度图的方法，其特征在于，所述步骤3进一步包括：所述特征向量包括两个通道，第一个通道记录动作开始的得分，第二个通道记录动作结束的得分，假设所述N帧视频中位于s索引上的视频帧代表动作开始，那么特征向量在[s,0]维度上值为1，且跟开始动作相似的连续帧序列在对应的特征向量上的取值呈0.99～0.5递减趋势；假设这N帧视频中位于e索引上的视频帧代表动作结束，那么特征向量在[e,1]维度上值为1，相似连续帧序列对应的取值也是呈递减趋势，以这种预处理方式可以给每个随机选取的视频序列建立一个对应的时空维度上的行为热度图。

7.一种视频识别的方法，其中包括如权利要求1-6所述的一种行为识别热度图，其特征在于，包括如下步骤：

步骤101，抽取连续视频帧；

步骤102，生成权利要求1-6中任一项中的所述行为识别热度图；

步骤104，从开始帧和结束帧之间选择N个连续动作视频；

8.如权利要求7所述的一种视频识别方法，其特征在于，所述若否，则判断是否包含开始动作进一步包括：当判断不包含开始动作时返回步骤101重新抽取连续视频帧，若判断包含开始动作时，则记录下开始帧的位置并继续判断是否包含结束动作。

9.一种系统，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一所述方法的步骤。