CN110309861A

CN110309861A - 一种基于生成对抗网络的多模态人类活动识别方法

Info

Publication number: CN110309861A
Application number: CN201910496727.6A
Authority: CN
Inventors: 陈岭; 武梦晗
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-10-08
Anticipated expiration: 2039-06-10
Also published as: CN110309861B

Abstract

本发明公开了一种基于生成对抗网络的多模态人类活动识别方法。具体包括：1)对利用可穿戴设备采集的活动数据进行预处理，构建训练数据集；2)根据真实活动数据的类别标签，利用基于全连接网络的模态生成器生成具有多样性的活动数据；3)对于真实活动数据和生成活动数据，利用基于共享卷积层的层次化判别器和分类器进行判别任务和活动识别任务的联合训练，得到具有较强泛化能力的分类器。本发明将活动识别模型引入生成对抗网络，利用具有多样性的生成活动数据，通过判别任务与识别任务的联合学习，得到具有较强泛化能力的多模态活动识别模型，以提升活动识别性能，在医疗保健、运动监测等领域具有广阔的应用前景。

Description

一种基于生成对抗网络的多模态人类活动识别方法

技术领域

本发明涉及活动识别领域，具体涉及一种基于生成对抗网络的多模态人类活动识别方法。

背景技术

基于可穿戴设备的人类活动识别是普适和移动计算的重要研究领域之一，利用放置在不同身体部位的可穿戴设备来采集活动数据，并利用发现的数据变化规律来识别所进行的活动类别。现今生活中有许多应用场景是由基于可穿戴设备的人类活动识别来实现的，例如运动追踪和训练、健康护理和工作辅助等。

早期基于可穿戴设备的人类活动识别研究主要基于人工定义的特征，或来自于单一的传感器模态，或来自于多模态数据。大部分人工定义的特征可以分为时域特征(例如平均值、方差、能量和相关系数等)和频域特征(例如频域熵和傅立叶变换系数等)。上述特征大都不是针对特定任务设计的，而且常受到人类领域知识的限制。随着最近深度学习方法的发展，如卷积神经网络和循环神经网络，深度活动识别模型可以自动学习到数据的表示。一些深度多模态活动识别模型采用了模态子网络来学习具有较强表征能力的模态特征。这样可以充分利用模态的信息，得到优越的分类表现。由于获取足够数量和多样性的有标注活动数据十分困难，深度活动识别模型受到过拟合问题的限制，对于深度多模态活动识别模型尤其严重。过拟合问题通常可以通过生成数据以扩充模型训练数据集来解决。

考虑到生成对抗网络模型优越的数据生成能力，研究人员尝试将生成对抗网络模型与分类模型进行结合，来获得泛化能力更强的分类模型。生成对抗网络模型一般由两部分组成：一个判别器，用来区分生成数据和真实数据；一个生成器，用来生成尽可能接近真实数据的生成数据，使判别器无法分辨开来。通过对抗博弈的训练过程，生成对抗网络模型可以自动学习到与真实数据接近的数据分布。上述研究工作在生成器和判别器的基础上引入分类器，并将分类损失引入生成器和判别器的目标函数，在训练过程中，利用不断进行参数更新的生成器提供具有多样性的生成数据，最终得到具备较强泛化能力的分类器。

尽管生成对抗网络模型已经在生成多种类型的数据方面取得了成功，学习复杂的多模态数据分布仍然是一项艰巨的挑战。多模态生成对抗网络模型尝试使用多个生成器，并促使每个生成器学习一种模态的数据分布。一般可以分为两种类型：第一类模型给每个生成器搭配了一个对应的判别器；第二类模型让多个生成器和同一个判别器进行对抗。对于多模态生成对抗网络模型来说，平衡模态细节与全局一致性是非常关键的，也就是说，生成的多模态数据应反映出不同模态所具有的规律差异，与此同时应保持跨模态的共有信息一致。然而第一类模型倾向于生成具有丰富模态细节的数据样本，但是可能会丢失全局一致性；第二类模型能够保持住全局一致性，但是可能会无法捕捉到多样的模态细节。上述现有模型无法平衡生成数据的全局一致性与模态细节，不能满足深度多模态活动识别的要求。

发明内容

本发明提供了一种基于生成对抗网络的多模态人类活动识别方法，主要利用生成对抗网络增强人类活动识别模型的泛化能力，以此来提高人类活动识别的准确率。

本发明的技术方案为：

一种基于生成对抗网络的多模态人类活动识别方法，包括以下步骤：

(1)采集用户的真实活动数据，并对真实活动数据进行预处理，构建训练集；

(2)构建基于生成对抗网络的多模态人类活动识别模型，包括生成活动数据生成器、模态特征生成器、层次化判别器以及活动分类器；其中，活动数据生成器主要用于对输入的噪声向量进行编码处理，生成多种模态数据，组成生成活动数据；模态特征生成器对输入的生成活动数据和/或真实活动数据进行特征提取，生成模态特征，还对多模态特征进行融合，生成融合特征；层次化判别器用于对输入的模态特征进行判别输出模态判别结果，并对融合特征进行判别输出全局判别结果；活动分类器用于对融合特征进行分类，输出活动分类结果；

(3)根据全局判别结果和模态判别结果构建全局判别损失函数和模态判别损失函数，根据活动分类结果构建分类损失函数；

(4)根据全局判别损失函数、模态判别损失函数以及分类损失函数构建层次化判别器的优化目标函数、活动分类器的优化目标函数以及模态生成器的优化目标函数；

(5)根据层次化判别器的优化目标函数、活动分类器的优化目标函数以及模态生成器的优化目标函数，利用训练样本对多模态人类活动识别模型进行训练，优化模型参数，获得优化的多模态人类活动识别模型；

(6)应用时，提取优化的模态特征生成器、层次化判别器以及活动分类器对采集的真实活动数据进行处理，经计算获得活动分类结果和全局判别结果。

本发明提供的基于生成对抗网络的多模态人类活动识别方法中，在模态生成器和层次化判别器的对抗博弈目标函数中引入低层次的模态判别损失和高层次的全局判别损失，通过显式约束引导训练过程，能够达到全局一致性和模态细节的平衡。同时，层次化判别器和分类器基于共享的模态子网络和融合层进行真假数据判别和活动识别两个任务的联合学习，发现两个任务间的共性，能够提升分类性能与泛化能力。进而提高了优化后的多模态人类活动识别模型的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是基于生成对抗网络的多模态人类活动识别方法的总体流程图；

图2是层次多模态生成对抗网络模型的总体框架图，图中，不同颜色深浅用来区分不同的传感器模态，矩形方框表示神经网络，“○十”表示拼接操作。箭头指示数据的流向；

图3(a)是模态k子网络的结构示意图，图3(b)是融合层网络的结构示意图，其中，CONV1D表示使用一维卷积核的卷积层，CONV2D表示使用二维卷积核的卷积层，ReLU表示激活函数。○十表示拼接操作；

图4(a)是模态判别输出层的结构示意图，图4(b)是全局判别输出层的结构示意图，图4(c)是活动分类输出层的结构示意图，其中，GRU表示门控循环单元层，FC表示全连接层，sigmoid表示激活函数；

图5是模态生成器网络的结构示意图，其中，FC表示全连接层，tanh和ReLU表示激活函数。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例提供了一种基于生成对抗网络的多模态人类活动识别方法，主要利用生成对抗网络来增强人类活动识别模型的泛化能力，以此来提高人类活动识别的准确率。

参见图1和图2，本实施例提供的基于生成对抗网络的多模态人类活动识别方法包括以下步骤：

步骤1，采集用户的真实活动数据，并对真实活动数据进行预处理，构建训练集。

用户首先佩戴好智能手机、智能手表、智能胸带等智能设备与可穿戴设备，这些智能设备与可穿戴设备中包含有K种传感器，如加速度计、陀螺仪、地磁场计等，每种传感器会采集一种类型的数据，如加速度计可以采集加速度，陀螺仪可以采集角速度，每类传感器采集的数据特征作为一种模态，如采集得到的加速度数据为一种模态数据，采集得到的角速度为另外一种模态数据，多种模态数据组成真实活动数据。佩戴好智能设备和可穿戴设备后，进行活动，并记录活动类别以及活动过程中采集的时序数据，该时序数据即为真实活动数据。

在获得真实活动数据后，需要对真实活动数据进行预处理，具体包括对真实活动数据进行异常值消除、窗口划分以及归一化处理。

针对异常值消除，检测真实活动数据中超出正常范围的值和零值，并将该超出正常范围的值和零值去掉。

针对异常值消除处理后的真实活动数据，采用固定长度(例如2秒钟)的滑动时间窗口对真实活动数据，划分后的每个窗口内的真实活动数据作为一个真实活动数据样本。

每个活动数据样本和对应的活动类别标签作为一个训练样本，每个训练样本可以表示为(x,y)，其中x＝[r₁,r₂,…,r_k,…,r_K]，k∈{1,2,…,K}，y为活动类别标签，表示活动类别标签的集合，表示由时间窗口划分所得的模态k的读数矩阵(n是时间窗口内传感器读数的个数，d_k是模态k通道数)。

在获得训练样本后，还需要对训练样本按列进行min-max归一化处理，使处理后每一列数据都归一到[-1，1]的范围内，转换公式如下：

其中，x为原始数值，X_min为该数值所在列的最小值，X_max为该数值所在列的最大值，x′为归一化之后的数值。

在对训练样本进行归一化处理后，即可以获得由训练样本组成的训练集。

步骤2，构建基于生成对抗网络的多模态人类活动识别模型。

如图2所示，本发明提供的基于生成对抗网络的多模态人类活动识别模型包括生成活动数据生成器、模态特征生成器、层次化判别器以及活动分类器；其中，活动数据生成器主要用于对输入的噪声向量进行编码处理，生成多种模态数据，组成生成活动数据；模态特征生成器对输入的生成活动数据和/或真实活动数据进行特征提取，生成模态特征，还对多模态特征进行融合，生成融合特征；层次化判别器用于对输入的模态特征进行判别输出模态判别结果，并对融合特征进行判别输出全局判别结果；活动分类器用于对融合特征进行分类，输出活动分类结果。

在一个实施方式中，生成活动数据生成器包含K个模态生成器，即包含模态1生成器、模态2生成器、……、模态k生成器、……、模态K生成器，每个模态生成器用于对输入的噪声向量进行编码，输出生成模态数据。每个模态生成器包含至少2个全连接层，相连两个全连接层之间通过激活函数完成数据的映射，其中，最底层的全连接层(也就是紧挨着输入层的全连接层)由所有模态生成器所共享，剩下的全连接层为不同模态生成器各自独有。举例说明，如图5所示，每个模态生成器包含4个全连接层，相连两个全连接层之间的激活函数完成数据的映射，其中，最底下的自下而上的第一层全连接层是由所有模态生成器所共享，在之上的三层全连接层为不同模态生成器各自独有，最后输出生成模态数据。

第l层全连接层输出结果计算公式如下：

a^l＝σ(W^l-1a^l-1+b^l-1)

其中a^l表示第l层的输出向量，W^l-1表示第(l-1)层到第l层所有神经元的连接权重矩阵，b^l-1表示第(l-1)层的偏置向量，σ表示非线性激活函数，在模态生成器中为ReLU。

模态生成器的输入为由噪声向量z和独热编码的活动类别标签y拼接构成的矩阵其中，噪声向量z主要从标准正态分布噪声空间中采样得到，且h为噪声向量的维度数，c为活动类别标签的种类数目。独热编码又称一位有效编码，常用来对类别变量进行编码。其方法是使用N位的向量来对具有N种类型的类别变量进行编码，每种类型都对应它独立的向量位，并且在任意时候有且只有一位有效(为1)，其余所有位无效(为0)。在进行拼接前，首先将独热编码的活动类别标签向量y复制n次得到矩阵之后将噪声向量z与矩阵Y进行拼接，得到拼接后的矩阵输入模态生成器，经模态生成器编码输出生成模态数据k种生成模态数据组成生成活动数据

在另外一个实施方式中，模态特征生成器包含K个模态子网络，即包含模态1子网络、模态2子网络、……、模态k子网络、……、模态K子网络，还包括一个融合层网络。每个模态子网络主要用于对输入的模态数据进行特征提取以获得模态特征，其输入为每种生成模态数据和/或真实模态数据，输出为每种模态特征，其中，生成模态数据来自于模态生成器的输出。融合层网络主要用于对每种模态特征进行融合，输出融合特征，其输入为K重模态特征经过拼接操作获得的拼接矩阵，输出为对拼接矩阵进行融合的融合特征。

在另外一个实施方式中，模态子网络包括至少2层卷积层，相连两个卷积层之间通过激活函数完成数据的映射，举例说明，如图3(a)所示，每个模态子网络包含3层卷积层组成，自下而上的第一层卷积层使用了二维的卷积核，之后的两层卷积层均使用一维的卷积核。第l层卷积层对输入数据进行卷积计算，输出数据特征映射的计算公式如下：

其中表示第l层的第j个特征映射，F^l表示第l层所有特征映射的数量，“*”表示卷积计算，表示与第l层第f个特征映射进行卷积操作以得到第j+1层第j个特征映射的卷积核，表示偏置项，σ表示激活函数，在模态子网络中为ReLU。

真实模态数据r₁,r₂,…,r_k,…,r_K和/或生成模态数据分别输入至K个模态子网络后，经计算输出模态特征M₁,M₂,…,M_k,…,M_K。

在另外一个实施方式中，融合层网络包括至少2层卷积层，相连两个卷积层之间通过激活函数完成数据的映射，举例说明，如图3(b)所示，融合层网络由3层卷积络层组成，并与模态子网络结构类似，融合层中自下而上的第一层卷积层使用了二维的卷积核，之后的两层卷积层均使用了一维的卷积核。

将各个模态的模态特征M₁,M₂,…,M_k,…,M_K展开成为一维的向量，之后将来自所有模态的K个向量合并拼接为行数为K的矩阵M_all，再将矩阵M_all输入由多层卷积层组成的融合层网络，提取得到融合特征M_fused。

在另外一个实施方式中，活动分类器包括至少2层GRU和全连接层组成的活动分类输出层，主要用于对输入的融合特征M_fused进行分类，输出对应的活动分类结果y′。

举例说明，如图4(c)所示，活动分类输出层由2层GRU和1层使用softmax函数作为激活函数的全连接层组成。GRU是一种循环神经网络，每层由多个GRU单元组成。每个GRU单元包括更新门z、重置门r和隐状态h。假设当前时刻为t，各个部分的计算公式如下：

z_t＝σ_g(W_zx_t+U_zh_t-1+b_z)

r_t＝σ_g(W_rx_t+U_rh_t-1+b_r)

其中x_t为当前时刻的外部输入，W和U表示不同连接的权重，b表示不同连接的偏置参数，表示哈达玛积。σ表示激活函数，GRU单元中使用到了两种激活函数，σ_g表示sigmoid函数，σ_h表示tanh函数即双曲正切函数。使用softmax函数作为激活函数的全连接层可以得到活动类别标签的概率分布y′。第j种活动类别标签的概率计算公式如下：

其中α是前一层输出的向量展开形式，e表示以自然对数为底的指数函数。

在另外一个实施方式中，层次化判别器包含K个模态判别输出层，即包含模态1判别输出层、模态2判别输出层、……、模态k判别输出层、……、模态K判别输出层，还包括一个全局判别输出层。每个模态判别输出层主要对模态特征进行判别，输出模态判别结果，全部判别输出层对融合特征进行判别，输出全局判别结果。

在另外一个实施方式中，模态判别输出层包含至少1个全连接层，每个全连接层以sigmoid激活函数作为激活函数。举例说明，如图4(a)所示，模态判别输出层包含一层全连接层和sigmoid激活函数构成。当模态特征M₁,M₂,…,M_k,…,M_K输入至对应的模态判别输出层后，经计算输出模态判别结果D₁(r₁),D₂(r₂),…,D_k(r_k),…,D_K(r_K)。

在另外一个实施方式中，全局判别输出层包含至少1个全连接层，每个全连接层以sigmoid激活函数作为激活函数。举例说明，如图4(b)所示，模态判别输出层包含一层全连接层和sigmoid激活函数构成。当融合特征M_fused输入至全局判别输出层，经计算得到全局判别结果D(x)。

本发明中，全局判别结果表示层次化判别器输入数据为真实数据而非生成数据的概率。例如全局判别结果为0.9，表示层次化判别器输入数据为真实数据的概率为0.9。

步骤3，根据全局判别结果和模态判别结果构建全局判别损失函数和模态判别损失函数，根据活动分类结果构建分类损失函数。

该多模态人类活动识别模型的损失函数包含三部分，分别为全局判别损失函数、各模态判别损失函数以及分类损失函数，具体地，

全局判别损失函数为：

模态判别损失函数为：

其中，p_data、p_z和p_k分别表示真实活动数据、噪声向量和真实模态数据所服从的分布，；

分类损失函数为：

其中，CE(·)是分类问题中常用的交叉熵(Cross Entropy)分类损失函数，y为活动类别标签，y′为对真实活动数据x的预测活动分类结果，为对生成活动数据的预测活动分类结果。

步骤4，根据全局判别损失函数、模态判别损失函数以及分类损失函数构建层次化判别器的优化目标函数、活动分类器的优化目标函数以及模态生成器的优化目标函数。

具体地，活动分类器的优化目标函数定义为：

为了平衡全局一致性和模态细节，引入权衡参数λ∈[0,1]，根据对抗博弈原理，层次化判别器的优化目标函数以及模态生成器(以模态k生成器为例)的优化目标函数定义如下：

其中，C表示活动分类器，D表示层次化判别器，G_k表示模态k生成器，λ为权重参数。

步骤5，根据层次化判别器的优化目标函数、活动分类器的优化目标函数以及模态生成器的优化目标函数，利用训练样本对多模态人类活动识别模型进行训练，优化模型参数，获得优化的多模态人类活动识别模型。

在训练前，可以将训练集按照固定的批量大小M进行分批，批次总数为N，具体计算公式为：

其中，N_all为训练集中样本总数。

从训练数据集中顺序选取索引为i的一批训练样本，其中i∈{0,1,…,N}，根据批次索引i，分情况调整参数：

若i为偶数，则根据层次化判别器的优化目标函数和活动分类器的优化目标函数对层次化判别器和活动分类器的网络参数进行调整；

若i为奇数，则根据模态生成器的优化目标函数对各模态生成器的网络参数进行调整。

由于层次化判别器和分类器基于共享的模态子网络和融合层网络进行判别任务和活动识别任务的联合学习，在进行训练时，联立层次化判别器和分类器的目标函数进行参数优化。

由于对抗博弈的训练目标为达到博弈的均衡点，层次化判别器与分类器，以及各模态生成器是对抗博弈的两方角色，在训练过程中采用交替迭代的训练方法。

按照上述训练策略对多模态人类活动识别模型进行训练，直至训练集的所有批次都参与训练，且达到指定的训练迭代次数，训练结束，获得优化的多模态人类活动识别模型。

步骤6，应用时，提取优化的模态特征生成器、层次化判别器以及活动分类器对采集的真实活动数据进行处理，经计算获得活动分类结果和全局判别结果。

上述基于生成对抗网络的多模态人类活动识别方法中，在模态生成器和层次化判别器的对抗博弈目标函数中引入低层次的模态判别损失和高层次的全局判别损失，通过显式约束引导训练过程，能够达到全局一致性和模态细节的平衡。同时，层次化判别器和分类器基于共享的模态子网络和融合层进行真假数据判别和活动识别两个任务的联合学习，发现两个任务间的共性，能够提升分类性能与泛化能力。进而提高了优化后的多模态人类活动识别模型的识别准确率。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的多模态人类活动识别方法，包括以下步骤：

2.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，对真实活动数据进行预处理包括对真实活动数据进行异常值消除、窗口划分以及归一化处理。

3.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，生成活动数据生成器包含K个模态生成器，每个模态生成器用于对输入的噪声向量进行编码，输出生成模态数据；

每个模态生成器包含至少2个全连接层，相连两个全连接层之间通过激活函数完成数据的映射，其中，最底层的全连接层由所有模态生成器所共享，剩下的全连接层为不同模态生成器各自独有；

模态生成器的输入为由噪声向量z和独热编码的活动类别标签y拼接构成的矩阵输出为生成模态数据。

4.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，模态特征生成器包含K个模态子网络，每个模态子网络主要用于对输入的模态数据进行特征提取以获得模态特征，其输入为每种生成模态数据和/或真实模态数据，输出为每种模态特征；还包括一个融合层网络，融合层网络主要用于对每种模态特征进行融合，输出融合特征，其输入为K重模态特征经过拼接操作获得的拼接矩阵，输出为对拼接矩阵进行融合的融合特征。

5.如权利要求4所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，模态子网络包括至少2层卷积层，相连两个卷积层之间通过激活函数完成数据的映射；

融合层网络包括至少2层卷积层，相连两个卷积层之间通过激活函数完成数据的映射。

6.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，活动分类器包括至少2层GRU和全连接层组成的活动分类输出层，主要用于对输入的融合特征进行分类，输出对应的活动分类结果。

7.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，层次化判别器包含K个模态判别输出层和全局判别输出层，其中，每个模态判别输出层主要对模态特征进行判别，输出模态判别结果；全部判别输出层对融合特征进行判别，输出全局判别结果；

模态判别输出层包含至少1个全连接层，每个全连接层以sigmoid激活函数作为激活函数；

全局判别输出层包含至少1个全连接层，每个全连接层以sigmoid激活函数作为激活函数。

8.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，全局判别损失函数为：

模态判别损失函数为：

其中，p_data、p_z和p_k分别表示真实活动数据、噪声向量和真实模态数据所服从的分布，D(x)为对真实活动数据x进行判别的全局判别结果，为对生成活动数据进行判别的全局判别结果，D_k(r_k)为对真实模态数据r_k进行判别的模态判别结果，为对生成模态数据进行判别的模态判别结果；

分类损失函数为：

9.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，活动分类器的优化目标函数定义为：

层次化判别器的优化目标函数以及模态生成器的优化目标函数定义如下：

其中，C表示活动分类器，D表示层次化判别器，G_k表示模态k生成器，为模态判别损失函数，为模态判别损失函数，为分类损失函数，λ为权重参数。

10.如权利要求1所述的基于生成对抗网络的多模态人类活动识别方法，其特征在于，在训练前，将训练集按照固定的批量大小M进行分批，批次总数为N，具体计算公式为：

其中，N_all为训练集中样本总数；