CN116758479B

CN116758479B - 一种基于编码深度学习的智能体活动识别方法及系统

Info

Publication number: CN116758479B
Application number: CN202310766605.0A
Authority: CN
Inventors: 林云松; 张雷
Original assignee: Huikun Huapeng Hainan Technology Co ltd
Current assignee: Huikun Huapeng Hainan Technology Co ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-02-02
Anticipated expiration: 2043-06-27
Also published as: CN116758479A

Abstract

本发明公开了一种基于编码深度学习的智能体活动识别方法及系统，所述方法包括以下步骤：获取传感器数据，其中，所述传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；基于NorImage编码方法，将所述传感器数据编码成单帧图片，其中，所述单帧图片为三通道RGB图像；基于SDVE数据编码方法，将所述单帧图片编码成视频数据；基于3DCNN深度学习网络，实现所述视频数据的分类，完成智能体活动识别。本发明实验结果证明了所提出SDVE惯性数据编码方法和3DCNN深度学习框架用于人类活动识别的有效性。

Description

一种基于编码深度学习的智能体活动识别方法及系统

技术领域

本发明属于人类活动识别技术领域，具体涉及一种基于编码深度学习的智能体活动识别方法及系统。

背景技术

当前人类活动识别领域主要存在着以下几个关键问题：

(1)现有研究对于人类活动识别的方法局限于基于特征的机器学习以及直接1D/2D深度学习方法，前者通过对原始数据进行特征提取，丢失了大量隐含信息，而后者未能很好地学习数据的时序特性。

(2)现有编码深度学习方法中的编码方法很大程度上受限于传感器的种类，会对数据产生较大程度的变形，且多属于2D图片编码，导致丢失传感器数据中的时序特征。

(3)在行人航位推算中，现有的步伐探测算法很好地排除伪波峰、人体小幅度活动的干扰等等因素，导致步态识别与计步算法的精度不够高，也不具有鲁棒性。

(4)现有研究未能从很好地将人类活动识别和行人航位推算两个研究领域结合起来，形成一个针对特定应用的系统，并进行详细的系统分析、子模块功能定义、数据传输逻辑。

发明内容

针对现有技术的不足，本发明提供了一种基于编码深度学习的智能体活动识别方法及系统，提出了NorImage编码方法用以将传感数据编码成单帧图片，并在此基础上扩展传感器种类提出了一种传感器数据到视频的SDVE(Sensor Data to Video Encoding)编码方法，此外还搭建了一个简易的3DCNN深度学习网络Simple_C3D用以在编码后的视频数据上实现分类任务。

为实现上述目的，本发明提供了如下方案：

一种基于编码深度学习的智能体活动识别方法，包括以下步骤：

获取传感器数据，其中，所述传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；

基于NorImage编码方法，将所述传感器数据编码成单帧图片，其中，所述单帧图片为三通道RGB图像；

基于SDVE数据编码方法，将所述单帧图片编码成视频数据；

基于3DCNN深度学习网络，实现所述视频数据的分类，完成智能体活动识别。

优选的，基于NorImage编码方法，将所述传感器数据编码成单帧图片的方法包括：

给定一个传感器数据样本集D＝{S¹,S²,...,Sⁱ,...,S^m}，其中，Sⁱ代表第i个传感器的数据集合，有其中，/>代表载体坐标系下第j个轴上的传感器Sⁱ数值序列，有/>其中，/>表示传感器Sⁱ第j轴的第k个度数，将Sⁱ展开，

将传感器Sⁱ的所有轴上的所有数据进行标准化：其中，mean和std分别代表样本中传感器Sⁱ全部数据的均值和方差；

将标准化之后的每个传感器数值分割为三部分：

将分割好的数值映射到0～255的区间内，其中，r_i ^j代表分割完成后的时间窗口内的数据流：

将完成映射的传感器数据编码成为三通道RGB图像数据Iⁱ＝{Rⁱ,Gⁱ,Bⁱ}，

优选的，基于SDVE数据编码方法，将所述单帧图片编码成视频数据的方法包括：

S1：获取原始传感器数据流D、标签数据流FL和编码参数，其中，所述编码参数包括：视频帧率fps和数据维度k；

S2：根据所述编码参数，计算出编码成单个视频所需的传感器数据流长度l以及编码完成的视频个数m；

S3：循环读取长为l的传感器数据流片段和对应的标签列表，从中截取长度为k的k维传感器数据片段，使用NorImage或扩展Iss2Image算法将所述k维传感器数据片段编码成单帧图片；

S4：将fps张单帧图片进行堆叠得到视频数据，取标签列表的非0众数作为所述视频数据的行为标签值；

S5：循环所述S1、所述S2、所述S3和所述S4，获得编码后的视频流数据和对应标签数据。

优选的，所述3DCNN深度学习网络的结构包括：6个3D卷积层、4个最大池化层、3个全连接层以及一个SoftMax输出层；所有卷积层的3D卷积核大小均为(3×3×3)，步幅stride为默认值1，padding为(1，1，1)；除了第一层3D池化层的池化核大小为(1×2×2)之外，其余均设置为(2×2×2)，三个全连接层的输出单元个数分别为256、128和最终的分类数量。

本发明还提供了一种基于编码深度学习的智能体活动识别系统，包括：获取模块、第一编码模块、第二编码模块和分类模块；

所述获取模块用于获取传感器数据，其中，所述传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；

所述第一编码模块用于基于NorImage编码方法，将所述传感器数据编码成单帧图片，其中，所述单帧图片为三通道RGB图像；

所述第二编码模块用于基于SDVE数据编码方法，将所述单帧图片编码成视频数据；

所述分类模块用于基于3DCNN深度学习网络，实现所述视频数据的分类，完成智能体活动识别。

优选的，所述第一编码模块包括：设定单元、标准化单元、分割单元、映射单元和第一编码单元；

所述设定单元用于给定一个传感器数据样本集D＝{S¹,S²,...,Sⁱ,...,S^m}，其中，Sⁱ代表第i个传感器的数据集合，有其中，/>代表载体坐标系下第j个轴上的传感器Sⁱ数值序列，有/>其中，/>表示传感器Sⁱ第j轴的第k个度数，将Sⁱ展开，/>

所述标准化单元用于将传感器Sⁱ的所有轴上的所有数据进行标准化：其中，mean和std分别代表样本中传感器Sⁱ全部数据的均值和方差；

所述分割单元用于将标准化之后的每个传感器数值分割为三部分：

所述映射单元用于将分割好的数值映射到0～255的区间内，其中，r_i ^j代表分割完成后的时间窗口内的数据流：

所述第一编码单元用于将完成映射的传感器数据编码成为三通道RGB图像数据Iⁱ＝{Rⁱ,Gⁱ,Bⁱ}，

优选的，所述第二编码模块包括：获取单元、计算单元、第二编码单元、堆叠单元和循环单元；

所述获取单元用于获取原始传感器数据流D、标签数据流FL和编码参数，其中，所述编码参数包括：视频帧率fps和数据维度k；

所述计算单元用于根据所述编码参数，计算出编码成单个视频所需的传感器数据流长度l以及编码完成的视频个数m；

所述第二编码单元用于循环读取长为l的传感器数据流片段和对应的标签列表，从中截取长度为k的k维传感器数据片段，使用NorImage或扩展Iss2Image算法将所述k维传感器数据片段编码成单帧图片；

所述堆叠单元用于将fps张单帧图片进行堆叠得到视频数据，取标签列表的非0众数作为所述视频数据的行为标签值；

所述循环单元用于循环所述获取单元、所述计算单元、所述第二编码单元和所述堆叠单元，获得编码后的视频流数据和对应标签数据。

与现有技术相比，本发明的有益效果为：

本发明公开了一种基于编码深度学习的智能体活动识别方法及系统，所述方法包括以下步骤：获取传感器数据，其中，传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；基于NorImage编码方法，将传感器数据编码成单帧图片，其中，单帧图片为三通道RGB图像；基于SDVE数据编码方法，将所述单帧图片编码成视频数据；基于3DCNN深度学习网络，实现视频数据的分类，完成智能体活动识别。本发明实验结果证明了所提出SDVE惯性数据编码方法和3DCNN深度学习框架用于人类活动识别的有效性。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于编码深度学习的智能体活动识别方法流程示意图；

图2是本发明的NorImage编码算法示意图；

图3是本发明的MARG传感器信号图；

图4是本发明的INVE惯性编码示意图；

图5是本发明的Simple_C3D框架图；

图6是本发明的预处理后的样本标签分布情况示意图；

图7是本发明的训练过程中模型损失函数值与准确率变化示意图；

图8是本发明的测试集样本标签分布情况示意图；

图9是本发明的交通模式分类混淆矩阵示意图；

图10是本发明的Fine Label分类混淆矩阵示意图；

图11是本发明的数据预处理流程示意图；

图12是本发明的不同人类活动的样本比例示意图；

图13是本发明的多步态分类混淆矩阵图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供了一种基于编码深度学习的智能体活动识别方法，包括以下步骤：

获取传感器数据，其中，传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；

基于NorImage编码方法，将传感器数据编码成单帧图片，其中，单帧图片为三通道RGB图像；

基于SDVE数据编码方法，将单帧图片编码成视频数据；

基于3DCNN深度学习网络，实现视频数据的分类，完成智能体活动识别。

在本实施例中，图像编码算法是整个SDVE(Sensor Data to Video Encoding)传感器数据编码算法的基础，以PyTorch框架为例，无论是使用深度学习方法做图像分类还是视频分类，都需要将图像或视频格式的数据转换为张量。一张RGB图像转换为3通道的二维张量，而视频是由多帧组成的，所以转换为张量后比图像多了一个维度。因此，将传感器信号编码成视频的方法需要先进行图像编码。

本发明参考了Iss2Image和Mul2Image两种先进的信号到图像的编码方法，并在此基础之上设计了NorImage编码算法，其较Iss2Image减少了通道之间的数据不平衡，且比Mul2Image有着更好的泛用性，能够应用于各种不同的传感器类型组合，NorImage编码算法的具体说明如下：

给定一个传感器数据样本集D＝{S¹,S²,...,Sⁱ,...,S^m}，其中Sⁱ代表第i个传感器的数据集合，有其中/>代表载体坐标系下第j个轴上的传感器Sⁱ数值序列，有/>其中/>表示传感器Sⁱ第j轴的第k个度数，将Sⁱ展开如下：

本发明所提出的NorImage编码算法是对各个传感器单独进行编码，下面以传感器Sⁱ为例说明算法的具体流程。

步骤1：将传感器Sⁱ的所有轴上的所有数据进行规范化。

其中，mean和std分别代表样本中传感器Sⁱ全部数据的均值和方差。

步骤2：将标准化之后的每个传感器数值按照下列方式分割为三部分，以为例：

步骤3：将分割好的数值映射到0～255的区间内，其中r_i ^j代表分割完成后的时间窗口内的数据流：

经过以上三个步骤的处理最终可以将原始的传感器数据编码成为三通道RGB图像数据Iⁱ＝{Rⁱ,Gⁱ,Bⁱ}，如下：

NorImage编码算法流程也可以用以下的图2表示，先对窗口内的多传感器数据流按照传感器的种类利用公式(2)分别进行规范化，接着对规范化好的数据按照式(3)、(4)进行数值切割与映射。其中将规范化之后的数据映射到(0，255)区间内即可将原始传感器数据片段编码成为灰度图像，将切割后的数值转换为三通道颜色强度即可得到RGB彩色图像。

在本实施例中，本发明采用NorImage方法将单轴、单维信号编码成图片(单帧视频)，与前两种方法不同的是，这种方法使用了更多的传感器数据，包括了加速度、磁场、角速度、重力、线性加速度和方向，也就是说本文的编码操作是在所有传感器数据上进行的。

在人类日常的活动中，步行、跑步和骑自行车的传感器信号具有周期性的特点，以在室内上楼梯时的信号为例(图3)。

因为这三种方式中步行时间最长，周期窗口大小可以根据步行频率设定。以SHL数据集为例，考虑到传感器信号的特征维度为19维，所以视频单帧的宽度和高度都设为19，在采样频率为100hz时，单帧视频包含0.19s的原始传感器数据。参照Kang等人的陈述，行走动作的持续时间在0.5到1.6秒之间。因此，时间窗口应该包含一个长于1.6秒的数据序列。如图4所示。

此外，参考香农采样定律，采样频率应该大于最大步行频率的两倍。本发明选取频率下限，将单个视频片段的长度需要超过3.2s，由于单个视频帧的持续时间被设定为0.19s，本发明的视频帧率被设定为20fps。本发明中单个视频片段的最终持续时间为3.8s，这比大多数情况下的一个步骤要长得多。此外，在对传感器数据进行编码的同时也需要对标签数据进行同步编码。原始标签数据与传感器数据的采样率同为100Hz，在将长度为fps*k*k的传感器数据编码打包成视频时，也需要在长为fps*k*k的标签数据中选择一个最能代表该区间内人类活动模式的标签。本发明对于行为标签的编码如下面的算法1所示，只取区间中的有效标签并将标签值减一，避免无效数据对模型产生过多的干扰。综上可将SDVE数据编码算法总结如下：

首先将原始传感器数据流D和标签数据流FL同时输入到算法之中，并设置两个编码参数：视频帧率fps和数据维度k(数据维度k等于原始传感器数据的维度)，并据此计算出编码成单个视频的所需的传感器数据流长度l以及可编码完成的视频个数m；接着循环读取长为l的传感器数据流片段和对应的标签列表，从中截取长度为k的k维传感器数据片段，使用NorImage或扩展Iss2Image算法将其编码成单帧图片，再将fps张单帧图片进行堆叠即可从而得到视频数据，取标签列表的非0众数作为该视频的行为标签值；循环以上步骤即可获得编码后的视频流数据和对应标签数据，完成样本集的构建。

在本实施例中，近年来，深度学习，尤其是卷积神经网络(CNN)，在计算机视觉领域展现了其强大的功能。深度学习方法允许系统将原始数据直接送入网络，并自动进行参数学习更新以完成分类任务。相比之下，传统的机器学习方法依赖于复杂的特征工程，而这需要一定程度的专家知识。而3D卷积神经网络很早之前就被应用到了人类识别领域之中，但其识别对象基本都是视频录像而不是编码后的智能手机惯性数据。而Du等人研究表明，C3D可以同时挖掘外观和运动信息，并在各种视频分析任务中优于二维卷积。因此，基于PyTorch框架，本发明设计了一个轻量级的3DCNN架构来对编码为视频的传感器信号序列进行分类，如图5所示。

本发明提出的Simple_C3D网络框架有6个3D卷积层、4个最大池化层、3个全连接层以及一个SoftMax输出层。所有卷积层的3D卷积核大小均为(3×3×3)，步幅stride为默认值1，padding为(1，1，1)。除了第一层3D池化层的池化核大小为(1×2×2)之外，其余均设置为(2×2×2)，三个全连接层的输出单元个数分别为256、128和最终的分类数量。

本发明所选的交叉熵损失函数(cross-entropy loss function)是深度学习领域中常见的损失函数，常用于多分类任务，其通过比较预测值和真实值的概率分布来衡量模型预测结果和真实标签之间的差异，值越小代表模型预测越准确。交叉熵损失函数的优点在于，它能够帮助模型更好地适应分类问题中的不平衡数据，因为它能够惩罚模型对少数类别的错误分类。此外，它的梯度计算比较简单，也有利于模型的优化，多分类交叉熵损失函数的公式可以如下表示：

其中，M代表类别数量，c代表当前类别标签值，取值从1到M；N代表样本个数，i代表当前样本编号。y_ic为取值为0或1的符号函数，若样本i的真实类别非c就取0，等于c则取1；p_ic为模型对样本i属于类别c的预测概率。

本发明基于PyTorch框架，可以通过调用其中的torch.nn.CrossEntropyLoss()模块来实现交叉熵损失函数，该模块由nn.NLLLoss()和nn.LogSoftmax()两个部分组成，前者计算负对数似然损失，后者将模型输出通过softmax函数转换为概率分布之后再取对数。由于交叉熵损失函数自带了softmax层，因此在本发明Simple_C3D模型的实际搭建时可以在输出模块省略这一层。

实施例二

获取模块用于获取传感器数据，其中，传感器数据为加速度、磁场、角速度、重力、线性加速度和方向；

第一编码模块用于基于NorImage编码方法，将传感器数据编码成单帧图片，其中，单帧图片为三通道RGB图像；

第二编码模块用于基于SDVE数据编码方法，将单帧图片编码成视频数据；

分类模块用于基于3DCNN深度学习网络，实现视频数据的分类，完成智能体活动识别。

在本实施例中，第一编码模块包括：设定单元、标准化单元、分割单元、映射单元和第一编码单元；

设定单元用于给定一个传感器数据样本集D＝{S¹,S²,...,Sⁱ,...,S^m}，其中，Sⁱ代表第i个传感器的数据集合，有其中，/>代表载体坐标系下第j个轴上的传感器Sⁱ数值序列，有/>其中，/>表示传感器Sⁱ第j轴的第k个度数，将Sⁱ展开，/>

标准化单元用于将传感器Sⁱ的所有轴上的所有数据进行标准化：其中，mean和std分别代表样本中传感器Sⁱ全部数据的均值和方差；

分割单元用于将标准化之后的每个传感器数值分割为三部分：

映射单元用于将分割好的数值映射到0～255的区间内，其中，r_i ^j代表分割完成后的时间窗口内的数据流：

第一编码单元用于将完成映射的传感器数据编码成为三通道RGB图像数据Iⁱ＝{Rⁱ,Gⁱ,Bⁱ}，

在本实施例中，第二编码模块包括：获取单元、计算单元、第二编码单元、堆叠单元和循环单元；

获取单元用于获取原始传感器数据流D、标签数据流FL和编码参数，其中，编码参数包括：视频帧率fps和数据维度k；

计算单元用于根据编码参数，计算出编码成单个视频所需的传感器数据流长度l以及编码完成的视频个数m；

第二编码单元用于循环读取长为l的传感器数据流片段和对应的标签列表，从中截取长度为k的k维传感器数据片段，使用NorImage或扩展Iss2Image算法将k维传感器数据片段编码成单帧图片；

堆叠单元用于将fps张单帧图片进行堆叠得到视频数据，取标签列表的非0众数作为视频数据的行为标签值；

循环单元用于循环获取单元、计算单元、第二编码单元和堆叠单元，获得编码后的视频流数据和对应标签数据。

在本实施例中，3DCNN深度学习网络的结构包括：6个3D卷积层、4个最大池化层、3个全连接层以及一个SoftMax输出层；所有卷积层的3D卷积核大小均为(3×3×3)，步幅stride为默认值1，padding为(1，1，1)；除了第一层3D池化层的池化核大小为(1×2×2)之外，其余均设置为(2×2×2)，三个全连接层的输出单元个数分别为256、128和最终的分类数量。

实施例三

本发明在居民出行模式识别的应用

在本实施例中，SHL数据集的建立主要是为了帮助研究如何从手机传感器中识别用户的运动模式和交通方式，现已被广泛用于人类活动识别领域中。它由3名参与者历时7个月收集，包括了现实生活中的8种交通方式，使用到了智能手机中的各种传感器，如运动传感器(惯性传感器)、GPS传感器和温度传感器。本发明使用了SHL数据集的两个子集，分别是“SHL Preview”(SHL_P)，和“SHL Complete User 1–Hips phone”(SHL_H)。

SHL_H数据集包含了部分2018年SHL挑战赛的原始数据，这个版本收集了用户1跨越了7个月共计391小时的传感器数据，其手机安装位置为裤子前袋。SHL_P数据集包含所有三个用户(每个用户包含3个采集日期，以及躯干、背包、手、裤子前袋四种手机放置位置)的约59小时的已标注传感器数据。

每个数据集中的运动传感器数据和行为标签被选作本发明的支持数据。其中，使用到的运动传感器数据包括加速度、磁场、角速度、重力、线性加速度以及方向信息。

表1

如表1：SHL数据集标签含义所示，SHL数据集的行为标签则有两个版本，其中Coarse Label只包含不同的交通模式，如：静止、步行、跑步、自行车、汽车、巴士、火车、地铁，分别用0到7的整数表示；另一个被称为Fine Label，其提供了更多与人类活动相关的信息，它通过结合了交通模式标签Coarse Label和其他信息如：“站立/坐着”、“室内/室外”、“司机/乘客”等交叉创造了18个标签。由于Fine Label包含更多的信息且能够向下兼容Coarse Label，因此本发明选择Fine Label作为标签数据。

在本实施例中，所选择的传感器数据经过预处理程序，如去空、插值和传感器时间同步等，最终得到1维的标签数据、19维的传感器信号数据和1维的GPS数据(可见卫星数量)。由于GPS信息来源自人工信源，而本发明重点研究自主性较强的传感器信号数据，因此GPS数据不被纳入到本发明的研究范围之中。

为了使用到尽可能多的样本来进行训练，本发明选择了SHL_H数据集，剔除一部分不符合要求的数据，同时经过一系列数据预处理操作之后，采用SDVE惯性数据编码方法将原始数据编码成多维数组形式的视频数据，最终总共获得3万多个惯性视频样本，样本标签值分布情况如图6所示，Fine Label的标签9、12、16、17以及Coarse Label标签7对应的人类活动没有数据，即样本总集不包含：“汽车：乘客”、“巴士：站立：上层”、“地铁：站立”、“地铁：坐下”这几种人类活动。

将所得样本总集按照9:1的比例划分为训练集和测试集，对训练集采用十折交叉验证的方法各自训练50个epoch，从而选取合适的优化器、batchsize、初始学习率，并使用余弦退火学习率调度器CosineAnnealingLR来自适应调整学习率，以便使模型拥有更好的泛化性能。

本发明设置了多个初始学习率、多种优化器、多个batchsize的交叉组合，分别通过十折交叉验证对数据集进行训练，对比每种组合的验证集平均正确率。下表2网络参数设定展示了其中几个较为典型的参数组合，其中当初始学习率为0.0002，优化器为adamW，批大小batchsize设置为32时的十折平均验证集正确率达到了最大值83.40％，因此选择该参数组合进行模型训练。

表2

在本实施例中，将前面划分所得的占样本总集90％的训练集再按照7:3的比例划分为训练集和验证集，并按照K折交叉验证的实验结果所给出的最佳网络参数组合，训练Simple_C3D模型，相应的训练准确率和测试准确率变化情况如图7。

在训练过程中的前20个epoch，模型的交叉熵损失函数值在波动中大幅下降，训练和验证准确率上升幅度也较大，在训练到20个epoch之后模型损失逐渐稳定，从10-3量级缓慢减少到10-7量级，模型的训练集准确率接近于99.5％，而验证集准确率稳定在80％左右，保存验证集准确率最高的那个epoch的模型参数。在前面的数据集划分中得到了10％的样本总集作为测试集，包含3293个待分类样本。如图8所示，测试集的标签分布与样本总集十分接近。

将测试集输入到训练所得的网络结构中得出模型预测值，在总计3293个样本中有2630个样本被预测正确，Fine Label的分类准确率为79.87％。如表3模型在不同标签下的分类性能所示，Fine Label对于人类活动的划分非常精细，且可以向下兼容Coarse Label。将标签进行转化之后，可以统计得出在以Coarse Label为衡量标准时有2809个样本被预测正确，由此计算得出Simple_C3D模型在交通模式识别上的准确率为85.30％。如果将样本总集所含的所有人类活动划分为静止和运动，即Coarse Label为0和非0两种，则有3032个样本被预测正确，准确率达到了92.07％。

表3

考虑到准确率指标在非平衡数据集上的表现不佳，下面按照不同的评价指标对模型的分类性能做一个更细致的分析。

当模型进行“静止”与“运动”的二分类时，可以使用精确率、召回率、F1值等指标。将“运动”视为正类，“静止”视为负类，相应的混淆矩阵如下表4静止与运动的二分类混淆矩阵。

表4

在混淆矩阵的基础之上，通过如下公式计算出准确率Accuracy、精确率Precision、召回率Recall、F1 Score、真正率TPR(True Positive Rate)和假正率FPR(False Positive Rate)：

表5

如上表5不同指标下的模型评价所示，模型预测为正类的样本中实际为正类的比例Precision等于95.49％，所有实际为正类的样本被预测为正类的比例TPR、Recall是94.66％，模型的F1值达到了0.9507，都属于较高水平，但是模型将负例错分为正例的概率即模型将静止状态错误识别成运动状态的概率是18.80％，属于较高水平，有待进一步优化加强。

当模型进行交通模式分类时，对于样本集所含有的几种交通模式：静止、步行、跑步、自行车、汽车、巴士、火车，模型的总体分类准确率是85.30％，其多分类混淆矩阵如图9所示。

在多分类混淆矩阵中，分类正确的样本位于左上至右下的对角线上，分类错误的样本位于除对角线之外的上下三角区域中。如图3.x所示的关于交通模式分类的混淆矩阵中，与“Bus”、“Still”相关的错误分类样本数量较多，“Train”相关的错误分类样本较之稍少，但是考虑到不同标签在样本集中的数量本就不同，因此还需通过混淆矩阵进一步计算相关多分类评价指标如下：

表6

结合图9与表6交通模式各标签分类性能可知，模型的总体分类效果较好，但是在局部的几个交通模式如“Bus”、“Still”和“Train”的分类上错误率相对较高，精确率分别是76％、78％和68％，而“Bike”、“Car”、“Run”、“Walking”的精确率均在90％以上，而在真实标签为“Car”的错误分类中，只有“Bus”和“Still”两种情况。这种现象极有可能是因为模型使用的数据来源于安装在裤子前袋的手机传感器，其对于“Bike”、“Run”、“Walking”这类会对传感器产生周期性激励的交通模式较为敏感，而对于“Bus”、“Still”、“Train”和“Car”这类非周期性的活动则很容易出现识别错误的情况，因此这是在将来的研究中需要重点克服和改进的部分。

当模型按照Fine Label进行更为细致的人类活动识别时，由于本文使用的样本总集和测试集不含标签9、12、16、17的数据，因此对于模型的评价只考虑样本集所含有的标签数据，模型在此情况下的总体分类准确率是79.87％，其多分类混淆矩阵图如图10所示。

首先通过如图10所示的混淆矩阵进行定性分析，可以看到Fine Label标签为0、1、5、10时对角线上的方格与同行同列其他方格的数值差不大，这表明模型在该类上的识别效果欠佳。而在标签为4、6、7、8、11的对角线数值相对同行列其他数值差距较大，因此可以粗略地认为模型在这些类别的识别上有较好的效果，而模型对不同标签分类性能定量分析如下表7：Fine Label下的各标签分类性能所示：

表7

结合表7可知，虽然模型在Fine Label标签下的总体准确率有79.87％，且在“行走：室外”、“跑步”、“自行车”、“汽车：司机”这几种人类活动上的识别精确率达到了90％以上。但模型在“静止：站立：室外”、“静止：站立：室内”、“巴士：站立”这几种人类活动的识别上效果欠佳，精确率均未超过50％。结合图3.x，模型易将“静止：站立：室外”识别为“静止：坐下：室内”，表明模型不能很好地分别室内、室外两种场景，“站立”、“坐下”两种活动，这可能是因为这几种活动并不会对本文所用传感器产生差异太大的激励。模型还易将“巴士：站立”识别成“静止：站立：室外”、“巴士：坐下”、“火车：站立”；而对“静止：站立：室内”，模型的错误识别标签分布则更为松散，除了模型本身的性能原因之外，也可能是因为其对应的样本量只有37个，而过少的样本量夸大了模型的误识率。对于“静止：坐下：室外”、“静止：坐下：室内”、“行走：室内”、“巴士：坐下”、“巴士：坐下：上层”、“火车：站立”、“火车：坐下”这几种人类活动，模型的识别精确率均在60％以上。

总的来说，在仅使用加速度计、陀螺仪、磁力计三类传感器数据的基础之上，在将人类活动划分得如此细致的Fine Label上的分类精确率达到了79.87％，

部分类别的精确率达到了90％以上，这体现了本文所提出的基于传感器数据编码的3DCNN步态识别方法的有效性和进一步发掘的潜力。

实施例四

本发明在居民步态识别的应用

在本实施例中，由曼海姆大学所提出的RealWorld数据集收集了加速度计、陀螺仪、磁力计、光传感器、GPS和声传感器共计6种传感器的数据，包含了8种与步态相关的人类活动分别是：上/下楼梯、跳跃、躺卧、站立、坐着、跑步、行走。数据采集由八名男士和七名女士共计十五位被试者完成，传感器安装在被试者的胸部，前臂，头部，胫骨，大腿，上臂和腰部六个不同的位置，要求被试者进行指定的人类活动并采集对应的传感器数据，其中除了跳跃活动之外的活动持续时间均超过10min。

表8

如表8所选实验数据集的特征说明所示，由于RealWorld数据集中部分被试者的数据存在文件名格式不统一、数据不全等问题，本发明只使用了其中较为完整的十个被试者的数据。同时考虑到传感器种类的普适性，只选取其中的MARG传感器数据即三轴加速度计、三轴陀螺仪、三轴磁力计，并包含了全部6种传感器安装位置和8种与步态相关的人类活动。

在本实施例中，在将所选数据进行挖掘之前，需要先经过如图11所示的异常值处理、数据插补、传感器时间同步等流程，再将三轴加速度计、三轴陀螺仪、三轴磁力计的数据进行合并，最终获得9维的MARG传感器数据。

经上述的数据预处理步骤后，将本发明所选十个被试者在进行不同人类活动下的传感器数据样本比例统计如图12所示，在所有的8种与步态相关的人类活动中，“jumping”占比最少为2.2％，其次是“climbingdown”约10.8％，余下6种活动的样本量较为接近，均在14％～16％之间。

最后对所有被试者的9维MARG传感器数据使用本发明所提出的SDVE方法编码成视频，其中每个单帧图片均由NorImage编码算法获得，最终总共得到了超过87000个视频样本。

在本实施例中，由于每个被试者的数据量十分有限，本发明无视十个被试者的个体差异以及六种安装位置的传感器激励差异，将所有编码后的视频样本以多维数组形式堆叠合并成一个大数据集，使用调整后的Simple_C3D进行训练，以测试模型在与步态相关的人类活动识别上的性能。模型的交叉熵损失函数值在波动中逐渐下降，前10个epoch训练和验证准确率上升幅度也较大，在训练到10个epoch之后模型的训练集准确率仍在稳步上升，最高达到了99.6％，而验证集准确率在第10个epoch之后稳定在68％左右。

保存验证集准确率最高的那个epoch的模型参数，在前面的数据集划分中得到了10％的样本总集作为测试集，包含8749个待分类样本。将测试集放入训练好的模型中，结果显示其中有5945个样本被分类正确，测试集的分类准确率为67.95％，其多分类混淆矩阵如图13所示：

从图中信息可以得知，模型易将“下楼梯”/“上楼梯”与“行走”活动搞混。此外，模型难以较好地分辨三种静止活动：“站着”、“坐下”和“躺下”。对于“跳跃”、“跑步”这两种特征较为明显且独特的人类活动，模型的分类识别效果比较好。

表9

结合上表9模型定量评价内容可知模型在识别“坐着”、“站着”两种静态活动时的精确率较低，分别为42％和52％，因为这两种活动下，MARG传感器的激励过于相近，因此模型无法很好地将其分辨出来。其余活动的识别精确率均在70％以上，“跳跃”和“跑步”活动的精确率分别达到了86％和90％。尽管训练过程中训练集误差和验证集误差的差值较大代表了模型的泛化能力有限，或者数据集的量不够，但总的来说，在不区分被试者和设备安装位置的情况下，混淆矩阵图与上表的结果能够体现出本发明所提出的这一条基于编码深度学习的人类活动识别方法的有效性。

为了进一步研究模型在与步态相关的人类活动上的分类能力，再进一步地将原始八种人类活动分成静态和动态两类，其中静止活动包括：“躺下”、“坐下”、“站立”，运动活动包括：“上/下楼梯”、“跳跃”、“跑步”、“步行”。在此二分类情形下，在全部8749个样本中有8135个样本被识别正确，识别准确率达到了92.98％。

表10

表11

如表10静止与运动的二分类混淆矩阵和表11不同指标下的模型评价所示，模型预测为正类的样本中实际为正类的比例Precision等于90.00％，所有实际为正类的样本被预测为正类的比例TPR、Recall是94.43％，模型的F1值达到了0.9216，都属于较高水平，模型将负例错分为正例的概率即模型将静止状态错误识别成运动状态的概率是8.14％，表明模型还有一定的提升空间，有待进一步优化加强。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于编码深度学习的智能体活动识别方法，其特征在于，包括以下步骤：

基于SDVE数据编码方法，将所述单帧图片编码成视频数据；

基于3DCNN深度学习网络，实现所述视频数据的分类，完成智能体活动识别；

基于NorImage编码方法，将所述传感器数据编码成单帧图片的方法包括：

将标准化之后的每个传感器数值分割为三部分：

基于SDVE数据编码方法，将所述单帧图片编码成视频数据的方法包括：

2.根据权利要求1所述的基于编码深度学习的智能体活动识别方法，其特征在于，所述3DCNN深度学习网络的结构包括：6个3D卷积层、4个最大池化层、3个全连接层以及一个SoftMax输出层；所有卷积层的3D卷积核大小均为(3，3，3)，步幅stride为默认值1，padding为(1，1，1)；除了第一层3D池化层的池化核大小为(1×2×2)之外，其余均设置为(2×2×2)，三个全连接层的输出单元个数分别为256、128和最终的分类数量。

3.一种基于编码深度学习的智能体活动识别系统，其特征在于，包括：获取模块、第一编码模块、第二编码模块和分类模块；

所述分类模块用于基于3DCNN深度学习网络，实现所述视频数据的分类，完成智能体活动识别；

所述第一编码模块包括：设定单元、标准化单元、分割单元、映射单元和第一编码单元；

所述第二编码模块包括：获取单元、计算单元、第二编码单元、堆叠单元和循环单元；

4.根据权利要求3所述的基于编码深度学习的智能体活动识别系统，其特征在于，所述3DCNN深度学习网络的结构包括：6个3D卷积层、4个最大池化层、3个全连接层以及一个SoftMax输出层；所有卷积层的3D卷积核大小均为(3×3×3)，步幅stride为默认值1，padding为(1，1，1)；除了第一层3D池化层的池化核大小为(1×2×2)之外，其余均设置为(2×2×2)，三个全连接层的输出单元个数分别为256、128和最终的分类数量。