CN112509696A

CN112509696A - 基于卷积自编码器高斯混合模型的健康数据检测方法

Info

Publication number: CN112509696A
Application number: CN202011226516.XA
Authority: CN
Inventors: 朱壮壮; 周治平
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-16
Anticipated expiration: 2040-11-04
Also published as: CN112509696B

Abstract

本发明公开了一种基于卷积自编码器高斯混合模型的健康数据检测方法，属于医疗保健技术领域。所述方法采用了自适应、非线性、多层编码的方式将多维数据转为低维特征表示，有效避免了由于“维度灾难”导致的计算开销大而降低检测准确性的问题；该方法性针对人体活动数据的多阶段的特性，加入了卷积与反卷积神经网络层，有效识别并提取数据特征，进一步地提高了检测的精度；本发明将降维过程和密度估计过程有机地结合在一起，避免了两模型独立导致陷入局部最优的窘境；同时考虑到矩阵的奇点问题，协方差矩阵的逆可能会无法求解的问题，利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解，以计算样本密度避免了无法求解的问题。

Description

基于卷积自编码器高斯混合模型的健康数据检测方法

技术领域

本发明涉及基于卷积自编码器高斯混合模型的健康数据检测方法，属于医疗保健技术领域。

背景技术

随着现代经济的不断发展，人们对自身的健康状况也越发重视，因此日常生活中对自身的一些健康数据越来越留意，越来越多的人开始使用一些可监测睡眠数据、运动步数以及静息心率的可穿戴设备，比如手环。同时若是在就医时，病患能够提供其个人日常健康信息，将大大地加快诊断速度、提高诊断质量。尤其对于睡眠障碍，阻塞性睡眠呼吸暂停综合症等慢性病，若是能够根据日常健康数据提前对此类慢性病进行筛查和监测将是整个医疗领域的一大进步。

可穿戴设备由于其功能性、便携性、价格亲民性的特点，自从2010年以来，在我们的生活中已经随处可见。但是目前的可穿戴设备仅仅是能够记录睡眠数据、运动步数以及静息心率等数据，对数据的分析仅仅停留在表面，无法对其进行更深一步的分析处理；比如根据监测到的用户睡眠时长简单粗暴的判断出佩戴者的睡眠质量。

如果可穿戴设备能够将所监测到日常健康数据进行深度有效分析，以判断用户是否存在患有某种疾病的风险，尤其是前述提到的一些慢性病，那么将会对监控人们身体健康状况起着关键性的作用。

但现有的能够对健康数据进行深度分析检测的方法中，如果要达到较高的检测精度通常都需要很大的计算开销，比如基于高斯混合模型(Gaussian Mixture Model，GMM)的异常数据监测方法，虽然其性能明显由于K-means和LOF等异常检测算法，但其检测效果在很大程度上取决于聚类精度，而对大数据进行聚类操作不可避免的要遇到计算开销大的问题。如果为了适应可穿戴设备，那么需要一种计算开销小，检测精度高的算法，需要在保证检测精度的前提下降低时间复杂度。

发明内容

为了解决现有的健康数据检测方法存在的计算开销大的问题，本发明提供一种基于卷积自编码器高斯混合模型的健康数据异常检测方法，所述方法包括：

步骤一：将采集到的原始高维健康数据在卷积自编码器上进行训练，以最小化重构误差为原则，结合BP优化算法，得到原始高维健康数据的低维特征表示及相应的重构误差；

步骤二：以原始高维健康数据的低维特征作为高斯混合模型的输入计算原始高维健康数据对应的样本密度，将得到的样本密度最大值记为密度阈值，同时结合EM算法对高斯混合模型进行训练，得到最优的高斯混合模型参数；

计算过程中，利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解，得到原始高维健康数据的样本密度；

训练过程中，利用贝叶斯信息准则确定高斯混合模型组件个数，通过EM算法的不断迭代，对高斯混合模型进行训练，得到最优的高斯混合模型参数；

步骤三：在对健康数据进行检测时，采用最优高斯混合模型参数下的高斯混合模型对原始高维健康数据的低维特征表示进行密度估计，得到最优高斯混合模型的参数下各原始高维健康数据的样本密度，超过密度阈值的样本密度对应的健康数据即为异常数据。

可选的，所述原始高维健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。

可选的，所述方法在将采集到的原始高维健康数据在卷积自编码器上进行训练之前还包括：

对原始高维健康数据进行预处理：利用多重插补的方式处理健康数据缺失值问题并采用 min-max归一化处理原始高维健康数据；

根据下式对原始高维健康数据进行归一化处理：

1≤e≤N,其中N表示样本个数 (1)

其中x_e表示每条原始高维健康数据中任一维度数据，x_min与x_max分别表示该任一维度数据中的最小值与最大值，x_e′表示归一化处理后的数据。

可选的，假设通过卷积自编码器获得的原始高维健康数据的低维特征表示为 Z＝[z₁,z₂,...,z_d′]，其中d′表示原始高维健康数据潜在空间表示的维度；

所述计算过程中，利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解，得到原始高维健康数据的样本密度E(z)：

其中，K代表高斯组件的个数；

其中，

代表第k个高斯组件协方差，1≤k≤K；L是高斯组件协方差矩阵

和惩罚项经过cholesky分解的下三角矩阵；v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解；d′是卷积自编码器提供的潜在表示的维数。

可选的，所述训练过程中，利用贝叶斯信息准则确定高斯混合模型组件个数，通过EM 算法的不断迭代，对高斯混合模型进行训练，得到最优的高斯混合模型参数，包括：

Step1：期望步，根据当前参数计算Z＝[z₁,z₂,...,z_d′]中数据由每个高斯组件生成的可能性：

Γ_i＝b_λ(z_i+ω) (5)

其中，1≤i≤d′；

所述当前参数为每个组件的混合概率

均值

和协方差，首次迭代中，当前参数为当前参数的初始值；后续迭代中，当前参数为上一次迭代所得的参数值；

并且，

其中，b_λ(·)表示深度信念网络DBN，z_i表示通过卷积自编码器获得的数据集S的低维特征，ω表示DBN的权重向量，

表示在高斯混合模型中第i个样本是由第k个高斯组件生成的概率，Γ_i表示经过DNB预测得到的第i个原始高维健康数据由各个高斯组件生成的概率的集合；

Step2：最大化步，利用下述公式计算新一轮迭代的高斯混合模型参数，即每个组件的混合概率

均值

和协方差

Step3：重复计算期望步和最大化步直至收敛，得到最优的高斯混合模型参数。

可选的，所述步骤一包括：

S1在卷积层的局部感受野范围内构造全连接神经网络，形成一个卷积核，之后每隔一定步长选取一次局部感受野，以构造相同数目的卷积核，以此类推，所有的卷积核之间的权值不共享；

S2采用全连接神经网络的方式构造多层自编码器，首先使用受限玻尔兹曼机RBM初始化编码器和解码器中的权值，采取堆叠编码器的方式进行训练；

S3进行反卷积操作，将潜在低维数据重构为原始数据；反卷积操作是卷积层与S1的卷积层对称；

S4学习健康数据中的特征，形成最终的卷积自编码器，通过最终的卷积自编码器获得的原始高维健康数据的低维特征表示为Z＝[z₁,z₂,...,z_d′]。

可选的，所述利用多重插补的方式处理健康数据缺失值问题，包括：采用蒙特卡洛方法来填补缺失的健康数据。

可选的，所述原始高维健康数据可采用可穿戴电子设备采集。

可选的，所述可穿戴电子设备包括：智能手环和智能手表。

本发明还提供一种基于卷积自编码器高斯混合模型的健康数据异常检测设备，所述设备采用上述方法实现对健康数据的异常检测，所述健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。

本发明有益效果是：

(1)本发明采用了自适应、非线性、多层编码的方式将多维数据转为低维特征表示，有效的避免了由于“维度灾难”导致的计算开销大而降低检测准确性的问题。

(2)本发明针对人体活动数据的多阶段的特性，加入了卷积与反卷积神经网络层，可以有效的识别并提取数据特征，进一步地提高了检测的精度。

(3)本发明将降维过程和密度估计过程有机地结合在一起，避免了两模型独立导致陷入局部最优的窘境；同时考虑到矩阵的奇点问题，协方差矩阵的逆可能会无法求解。因此，利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解，以计算样本密度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中CAE-GMM的网络结构示意图。

图2为本发明一个实施例中各算法针对Arrhythmia数据集ROC曲线的比较曲线图。

图3为各数据集在CAE-GMM上的不同o值对应的AUC值仿真图。

图4为CAE-GMM算法在健康数据上利群检测实验结果仿真图。

图5为DAGMM算法在健康数据上异常检测实验结果仿真图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于卷积自编码器高斯混合模型的健康数据检测方法，所述方法包括：

实施例二：

本实施例提供一种基于卷积自编码器高斯混合模型(ConvolutionalAutoencoder Gaussian Mixture Model，CAE-GMM)的健康数据检测方法，所述方法首先对数据样本采用min-max 归一化进行数据预处理，由于“维度灾难”，通过传统方法进行密度估计十分困难，因此将数据样本在卷积自编码器上进行训练，直至重构误差达到最小，采用这种非线性的方式在减少“维度灾难”影响的同时尽可能准确获取到数据样本的潜在空间表示；

接着，利用高斯混合模型对样本的潜在空间表示进行密度估计，由于矩阵的奇点问题，协方差矩阵的逆可能会变得无法求解，因此本发明利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解，以计算样本密度，最后将样本密度高于训练阶段阈值的数据视为异常，实现健康数据的异常检测。

具体的，所述方法可采用市场上已有的运动手环采集用户心率、运动步数、消耗卡路里、睡眠时长等一系列的人体数据指标，构成待分析的数据集。本实施例中数据集包含6个用户的30天的活动数据，在其中选取了32个特征指标，那么整个数据集S就可以表示为S＝[X₁,X₂,...,X₁₈₀]^T，每一条运动数据X_j为一个用户一天的活动数据，1≤j≤180，表示为32 维向量X_j＝[x₁,x₂,...,x_e,...,x₃₂]其中，1≤e≤32。

本申请选取的特征指标包括消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间、醒来次数等。根据实际情况，所选取的特征指标还可以包括其他数据指标，比如运动次数等。

本实施例中，利用小米手环3对六人进行为期一个月的数据采集。设定受试者的日常作息时间是7.30-23.30，并且受试者二十四小时佩戴手环，期间进行过5次手环的充电。

采集到数据集S后，采用下述步骤进行处理：

步骤1：数据预处理：

对采集到的数据集S中的健康数据进行预处理，包括通过多重插补的方式处理健康数据缺失值问题；利用min-max标准化对数据集S进行归一化处理，以尽可能的降低学习任务的难度。

由于手环需要充电以及手环佩戴方式不正确等原因，采集到的健康数据往往会出现缺失值问题，本申请采用多重插补的方式补齐数据集S，具体采用蒙特卡洛方法来填补。

为了使卷积自编码网络可以重构数据集S中的数据样本，并且进行潜在空间表示，需要对数据样本进行归一化处理，否则卷积自编码器无法准确地进行潜在空间表示。本发明中采用了min-max归一化处理：

1≤e≤N,其中N表示样本个数 (1)

其中x_e表示32维向量X_j中的任一维度数据，x_min与x_max分别表示该32维向量的最小值与最大值，x_e′表示归一化处理后的数据。

步骤2：利用步骤1预处理后的数据，采用卷积自编码器，以最小化重构误差为原则，并结合BP优化算法，最终得到准确的数据集S的低维表示。

具体的，包括：

S1首先，在卷积层的局部感受野范围内构造全连接神经网络，形成一个卷积核，之后每隔一定步长选取一次局部感受野，以构造相同数目的卷积核，以此类推，所有的卷积核之间的权值不共享。

S3该步骤进行反卷积操作，将潜在低维数据重构为原始数据。为保证自编码器的重构数据与原始维度相同，该步骤的卷积层与S1的卷积层对称，如图1所示；

S4获得了局部感受野，为了最小化重构误差，就需要学习健康数据中的特征，形成最终的卷积自编码器，通过卷积自编码器获得的数据集S的低维特征表示为 Z＝[z₁,z₂,...,z_d′]。

步骤3：利用步骤2得到的样本数据的潜在表示和重构误差，通过GMM并结合期望最大化算法EM进行建模，以便进行密度估计。

经过卷积自编码器网络得到数量为N、维度为d′的数据集S的低维特征表示为 Z＝[z₁,z₂,...,z_d′]，由于矩阵的奇点问题，协方差矩阵的逆可能会无法求解。因此，本申请提供的CAE-GMM方法利用混合概率、均值和协方差来构造协方差矩阵的cholesky 分解，以计算样本密度：

其中，

其中E(z)代表GMM的样本密度，K代表高斯组件的个数，

代表第k个高斯组件协方差(其中1≤k≤K)，L是高斯组件协方差矩阵

和惩罚项经过cholesky分解的下三角矩阵；v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解；d′是卷积自编码器提供的潜在表示的维数。利用贝叶斯信息准则(BayesianInformation Criterion,BIC)确定高斯混合模型组件个数K以后，通过EM算法的不断迭代，对高斯混合模型进行训练。对每个组件的混合概率

均值

和协方差

有如下运算：

Step1：期望步(E-step)，根据当前参数(初始值或上一次迭代所得的参数值，即每个组件的混合概率

均值

和协方差

)，计算Z＝[z₁,z₂,...,z_d′]中数据由每个高斯组件生成的可能性：

其中，1≤i≤d′。

并且，

其中，b_λ(·)表示深度信念网络(Deep Brief Network,DBN)，z_i表示通过卷积自编码器获得的数据集S的低维特征，ω表示DBN的权重向量，

表示在高斯混合模型中第i个样本是由第k个高斯组件生成的概率；Γ_i表示经过DNB预测得到的第i个原始高维健康数据由各个高斯组件生成的概率的集合。

Step2：最大化步(M-step)，计算新一轮迭代的高斯混合模型参数，即每个组件的混合概率

均值

和协方差

Step3：重复计算E-step和M-step直至收敛。

通过上述步骤，便得到了高斯混合模型参数的“最优”组合。

但是需要注意的是：由于EM算法可能陷入局部最优解，为了避免这种情况，实验中采用多次初始化参数的方式进行迭代，取结果最好的参数。

数据集S在训练阶段的密度最大值并且记为MAX，取密度阈值为T＝MAX。

最终根据高斯混合模型预测得到各样本密度，将样本密度高于T的数据视为异常，即 E(z)＞T则表明测试样本为异常。

基于上述阐述，本实验平台配置为Windows10操作系统、Intel Core i7-7700HQCPU处理器、2.80GHz、20GB内存，所有算法由Python实现。

本实施例采用了5个数据集进行验证，皆来自ODDS异常检测数据库，这些数据集包含异常类，并根据样本标签区分。标签为0的数据为正常类，标签为1的数据为异常类。数据集的数据特征见表1。

表1数据集信息

本发明所用的评估异常检测算法的性能指标是，召回率(Recall)、F1分数(F1-Score)、正确率(ACC)、接收者操作特性曲线(ROC)和受试者工作曲线(AUC)。ROC曲线描述的是真阳率和假阳率之间的变化关系，AUC曲线即为ROC曲线与坐标轴围成的面积。较好的异常检测模型应该有较高的Recall、F1-Score、ACC、ROC、AUC。

首先，为了验证本发明针对高维数据检测性能的优势，选取了维度较高的Arrhythmia数据集，采用定性的方式，与SOS、VAE和DAGMM算法进行ROC曲线的对比，对比结果如图3所示。

其中SOS算法可参考文献”Janssens,J.H.M.,Huszar,F.,Postma,E.O.,&van denHerik,H.J.Stochastic Outlier Selection[J].Technical report TiCC TR 2012–001,Tilburg Center for Cognition and Communication,2012,23(5),857-864.”；VAE算法可参考文献” Aggarwal C C.Outlier analysis[C]//Data mining.Cham:Springer,2015:237-263.”；DAGMM算法可参考文献”Zong B,Song Q,Min M R,et al.Deep autoencodinggaussian mixture model for unsupervised anomaly detection[C]//InternationalConference on Learning Representations.2018.”。

由图3对比结果可以得知，相较于SOS、VAE和DAGMM算法ROC曲线下面积AUC 值，CAE-GMM的面积最大，即AUC值最高。其中，VAE算法的检测效果最差，可能是因为VAE在对数据进行潜在空间表示的时候，把原始样本跟异常有关的关键信息错误地进行了删除，因此其重构误差比较大，导致检测AUC值较低。

从图4中可以看出，针对不同的数据集本发明在取得最好的检测效果时，所对应的编码器层数o都不同。当o值增大时，各数据集对应的AUC值总是先增大后减小。这是因为先增大o值可以使得编码器很好的进行数据压缩，学习到原始样本较好的特征，因此AUC值增大；但是之后随着o继续增大，导致训练过拟合，导致AUC值减小。经过AUC值和算法准确率的综合考量，实验中对图4中5个数据集的o值选择分别是5、2、4、3、3。

为了验证CAE-GMM在时间复杂性的优势，将其与SOS算法、VAE算法和DAGMM 算法的平均检测时间相作对比，对比结果如表2所示：

Table 2 Comparison of average detection time of each algorithm

表2各算法平均检测时间对比

从表2可以看出，虽然本申请提供的CAE-GMM方法的平均检测时间不是最低，但是比平均检测时间最低的VAE算法仅相差了0.11s；并且其平均检测时间比性能相近的 DAGMM算法提升了56％，体现了本申请方法在检测时间方面的优势，也即本申请方法在保证检测性能的前提下，其计算开销相对于其他几种方法较小。

表3不同算法实验结果对比

从表3的对比试验结果可以看出，本申请提供的CAE-GMM的准确率仅在大数据集Shuttle上稍低于DAGMM算法；其AUC值也仅在Annthyroid数据集上稍低于 DAGMM算法；在大数据集Shuttle上的ACC值虽然不是最高，但与最高值相差不多；在高维数据集Arrhythmia上准度达到了0.821，远高于SOS算法的0.675。

各算法对比的结果表明，本申请提供的CAE-GMM可以有效地解决因样本维数过大引起的维数灾难，导致检测精度低的问题，大幅度提高检测效果。

其次，对本申请提供的CAE-GMM的检测准确率进行验证如下：

采用本申请提供的CAE-GMM对收集到的健康数据进行异常值检测。图5是采用本申请方法进行异常检测可视化的结果。其中蓝色点是表示正常数据，红色点表示异常数据。

为了突出本申请提供的CAE-GMM的优势，又采用了检测效果同样好的DAGMM 算法在同一环境下对同样的数据集进行了实验，检测结果如图5。

对比图4和图5，可以看出，两种检测方法对于比较明显的异常样本点都可以检测出来，但是DAGMM算法在簇群边缘存在误判和漏判现象。标号为1、3的样本点为漏判，标号为2的样本点为误判。而本申请提供的CAE-GMM在检测簇边缘异常点时，仅3样本点进行了漏判，整体性能较好。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积自编码器高斯混合模型的健康数据异常检测方法，其特征在于，所述方法包括：

步骤一：将采集到的原始高维健康数据在卷积自编码器上进行训练，以最小化重构误差为原则，结合BP优化算法，得到原始高维健康数据的低维特征表示；

2.根据权利要求1所述的方法，其特征在于，所述原始高维健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。

3.根据权利要求2所述的方法，其特征在于，所述方法在将采集到的原始高维健康数据在卷积自编码器上进行训练之前还包括：

对原始高维健康数据进行预处理：利用多重插补的方式处理健康数据缺失值问题并采用min-max归一化处理原始高维健康数据；

根据下式对原始高维健康数据进行归一化处理：

4.根据权利要求3所述的方法，其特征在于，假设通过卷积自编码器获得的原始高维健康数据的低维特征表示为Z＝[z₁,z₂,...,z_d′]，其中d′表示原始高维健康数据潜在空间表示的维度；

其中，K代表高斯组件的个数；

其中，

和惩罚项经过cholesky分解的下三角矩阵；v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解。

5.根据权利要求4所述的方法，其特征在于，所述训练过程中，利用贝叶斯信息准则确定高斯混合模型组件个数，通过EM算法的不断迭代，对高斯混合模型进行训练，得到最优的高斯混合模型参数，包括：

Γ_i＝b_λ(z_i+ω) (5)

其中，1≤i≤d′；

所述当前参数为每个组件的混合概率

均值

并且，

均值

和协方差

6.根据权利要求5所述的方法，其特征在于，所述步骤一包括：

7.根据权利要求6所述的方法，其特征在于，所述利用多重插补的方式处理健康数据缺失值问题，包括：采用蒙特卡洛方法来填补缺失的健康数据。

8.根据权利要求7所述的方法，其特征在于，所述原始高维健康数据可采用可穿戴电子设备采集。

9.根据权利要求8所述的方法，其特征在于，所述可穿戴电子设备包括：智能手环、智能手表、智能眼镜和智能运动鞋。

10.一种基于卷积自编码器高斯混合模型的健康数据异常检测设备，其特征在于，所述设备采用权利要求1-9任一所述的方法实现对健康数据的异常检测，所述健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。