CN112509696A - 基于卷积自编码器高斯混合模型的健康数据检测方法 - Google Patents

基于卷积自编码器高斯混合模型的健康数据检测方法 Download PDF

Info

Publication number
CN112509696A
CN112509696A CN202011226516.XA CN202011226516A CN112509696A CN 112509696 A CN112509696 A CN 112509696A CN 202011226516 A CN202011226516 A CN 202011226516A CN 112509696 A CN112509696 A CN 112509696A
Authority
CN
China
Prior art keywords
health data
dimensional
data
mixture model
gaussian mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011226516.XA
Other languages
English (en)
Other versions
CN112509696B (zh
Inventor
朱壮壮
周治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202011226516.XA priority Critical patent/CN112509696B/zh
Publication of CN112509696A publication Critical patent/CN112509696A/zh
Application granted granted Critical
Publication of CN112509696B publication Critical patent/CN112509696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Physiology (AREA)
  • Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Veterinary Medicine (AREA)
  • Epidemiology (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种基于卷积自编码器高斯混合模型的健康数据检测方法,属于医疗保健技术领域。所述方法采用了自适应、非线性、多层编码的方式将多维数据转为低维特征表示,有效避免了由于“维度灾难”导致的计算开销大而降低检测准确性的问题;该方法性针对人体活动数据的多阶段的特性,加入了卷积与反卷积神经网络层,有效识别并提取数据特征,进一步地提高了检测的精度;本发明将降维过程和密度估计过程有机地结合在一起,避免了两模型独立导致陷入局部最优的窘境;同时考虑到矩阵的奇点问题,协方差矩阵的逆可能会无法求解的问题,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,以计算样本密度避免了无法求解的问题。

Description

基于卷积自编码器高斯混合模型的健康数据检测方法
技术领域
本发明涉及基于卷积自编码器高斯混合模型的健康数据检测方法,属于医疗保健技术领 域。
背景技术
随着现代经济的不断发展,人们对自身的健康状况也越发重视,因此日常生活中对自身 的一些健康数据越来越留意,越来越多的人开始使用一些可监测睡眠数据、运动步数以及静 息心率的可穿戴设备,比如手环。同时若是在就医时,病患能够提供其个人日常健康信息, 将大大地加快诊断速度、提高诊断质量。尤其对于睡眠障碍,阻塞性睡眠呼吸暂停综合症等 慢性病,若是能够根据日常健康数据提前对此类慢性病进行筛查和监测将是整个医疗领域的 一大进步。
可穿戴设备由于其功能性、便携性、价格亲民性的特点,自从2010年以来,在我们的 生活中已经随处可见。但是目前的可穿戴设备仅仅是能够记录睡眠数据、运动步数以及静息 心率等数据,对数据的分析仅仅停留在表面,无法对其进行更深一步的分析处理;比如根据 监测到的用户睡眠时长简单粗暴的判断出佩戴者的睡眠质量。
如果可穿戴设备能够将所监测到日常健康数据进行深度有效分析,以判断用户是否存在 患有某种疾病的风险,尤其是前述提到的一些慢性病,那么将会对监控人们身体健康状况起 着关键性的作用。
但现有的能够对健康数据进行深度分析检测的方法中,如果要达到较高的检测精度通常 都需要很大的计算开销,比如基于高斯混合模型(Gaussian Mixture Model,GMM)的异常 数据监测方法,虽然其性能明显由于K-means和LOF等异常检测算法,但其检测效果在很 大程度上取决于聚类精度,而对大数据进行聚类操作不可避免的要遇到计算开销大的问题。 如果为了适应可穿戴设备,那么需要一种计算开销小,检测精度高的算法,需要在保证检测 精度的前提下降低时间复杂度。
发明内容
为了解决现有的健康数据检测方法存在的计算开销大的问题,本发明提供一种基于卷积 自编码器高斯混合模型的健康数据异常检测方法,所述方法包括:
步骤一:将采集到的原始高维健康数据在卷积自编码器上进行训练,以最小化重构误差 为原则,结合BP优化算法,得到原始高维健康数据的低维特征表示及相应的重构误差;
步骤二:以原始高维健康数据的低维特征作为高斯混合模型的输入计算原始高维健康数 据对应的样本密度,将得到的样本密度最大值记为密度阈值,同时结合EM算法对高斯混合 模型进行训练,得到最优的高斯混合模型参数;
计算过程中,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,得到原 始高维健康数据的样本密度;
训练过程中,利用贝叶斯信息准则确定高斯混合模型组件个数,通过EM算法的不断迭 代,对高斯混合模型进行训练,得到最优的高斯混合模型参数;
步骤三:在对健康数据进行检测时,采用最优高斯混合模型参数下的高斯混合模型对原 始高维健康数据的低维特征表示进行密度估计,得到最优高斯混合模型的参数下各原始高维 健康数据的样本密度,超过密度阈值的样本密度对应的健康数据即为异常数据。
可选的,所述原始高维健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息 心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、 深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。
可选的,所述方法在将采集到的原始高维健康数据在卷积自编码器上进行训练之前还包 括:
对原始高维健康数据进行预处理:利用多重插补的方式处理健康数据缺失值问题并采用 min-max归一化处理原始高维健康数据;
根据下式对原始高维健康数据进行归一化处理:
Figure BDA0002761379360000021
1≤e≤N,其中N表示样本个数 (1)
其中xe表示每条原始高维健康数据中任一维度数据,xmin与xmax分别表示该任一维度数 据中的最小值与最大值,xe′表示归一化处理后的数据。
可选的,假设通过卷积自编码器获得的原始高维健康数据的低维特征表示为 Z=[z1,z2,...,zd′],其中d′表示原始高维健康数据潜在空间表示的维度;
所述计算过程中,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,得 到原始高维健康数据的样本密度E(z):
Figure BDA0002761379360000022
其中,K代表高斯组件的个数;
Figure BDA0002761379360000031
Figure BDA0002761379360000032
其中,
Figure BDA0002761379360000033
代表第k个高斯组件协方差,1≤k≤K;L是高斯组件协方差矩阵
Figure BDA0002761379360000034
和惩罚项经过cholesky分解的下三角矩阵;v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解;d′是卷积自编码器提供的潜在表示的维数。
可选的,所述训练过程中,利用贝叶斯信息准则确定高斯混合模型组件个数,通过EM 算法的不断迭代,对高斯混合模型进行训练,得到最优的高斯混合模型参数,包括:
Step1:期望步,根据当前参数计算Z=[z1,z2,...,zd′]中数据由每个高斯组件生成的 可能性:
Γi=bλ(zi+ω) (5)
其中,1≤i≤d′;
所述当前参数为每个组件的混合概率
Figure BDA0002761379360000035
均值
Figure BDA0002761379360000036
和协方差,首次迭代中,当前参数为 当前参数的初始值;后续迭代中,当前参数为上一次迭代所得的参数值;
并且,
Figure BDA0002761379360000037
其中,bλ(·)表示深度信念网络DBN,zi表示通过卷积自编码器获得的数据集S的低维 特征,ω表示DBN的权重向量,
Figure BDA0002761379360000038
表示在高斯混合模型中第i个样本是由第k个高斯组件生成的概率,Γi表示经过DNB预测得到的第i个原始高维健康数据由各个高斯组件生成的概率的集合;
Step2:最大化步,利用下述公式计算新一轮迭代的高斯混合模型参数,即每个组件的 混合概率
Figure BDA0002761379360000039
均值
Figure BDA00027613793600000310
和协方差
Figure BDA00027613793600000311
Figure BDA00027613793600000312
Figure BDA00027613793600000313
Figure BDA0002761379360000041
Step3:重复计算期望步和最大化步直至收敛,得到最优的高斯混合模型参数。
可选的,所述步骤一包括:
S1在卷积层的局部感受野范围内构造全连接神经网络,形成一个卷积核,之后每隔一 定步长选取一次局部感受野,以构造相同数目的卷积核,以此类推,所有的卷积核之间的权 值不共享;
S2采用全连接神经网络的方式构造多层自编码器,首先使用受限玻尔兹曼机RBM初始 化编码器和解码器中的权值,采取堆叠编码器的方式进行训练;
S3进行反卷积操作,将潜在低维数据重构为原始数据;反卷积操作是卷积层与S1的卷 积层对称;
S4学习健康数据中的特征,形成最终的卷积自编码器,通过最终的卷积自编码器获得 的原始高维健康数据的低维特征表示为Z=[z1,z2,...,zd′]。
可选的,所述利用多重插补的方式处理健康数据缺失值问题,包括:采用蒙特卡洛方法 来填补缺失的健康数据。
可选的,所述原始高维健康数据可采用可穿戴电子设备采集。
可选的,所述可穿戴电子设备包括:智能手环和智能手表。
本发明还提供一种基于卷积自编码器高斯混合模型的健康数据异常检测设备,所述设备 采用上述方法实现对健康数据的异常检测,所述健康数据包括但不限于消耗的卡路里、步数、 距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运 动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、 睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。
本发明有益效果是:
(1)本发明采用了自适应、非线性、多层编码的方式将多维数据转为低维特征表示, 有效的避免了由于“维度灾难”导致的计算开销大而降低检测准确性的问题。
(2)本发明针对人体活动数据的多阶段的特性,加入了卷积与反卷积神经网络层,可 以有效的识别并提取数据特征,进一步地提高了检测的精度。
(3)本发明将降维过程和密度估计过程有机地结合在一起,避免了两模型独立导致陷 入局部最优的窘境;同时考虑到矩阵的奇点问题,协方差矩阵的逆可能会无法求解。因此, 利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,以计算样本密度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中CAE-GMM的网络结构示意图。
图2为本发明一个实施例中各算法针对Arrhythmia数据集ROC曲线的比较曲线图。
图3为各数据集在CAE-GMM上的不同o值对应的AUC值仿真图。
图4为CAE-GMM算法在健康数据上利群检测实验结果仿真图。
图5为DAGMM算法在健康数据上异常检测实验结果仿真图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进 一步地详细描述。
实施例一:
本实施例提供一种基于卷积自编码器高斯混合模型的健康数据检测方法,所述方法包括:
步骤一:将采集到的原始高维健康数据在卷积自编码器上进行训练,以最小化重构误差 为原则,结合BP优化算法,得到原始高维健康数据的低维特征表示及相应的重构误差;
步骤二:以原始高维健康数据的低维特征作为高斯混合模型的输入计算原始高维健康数 据对应的样本密度,将得到的样本密度最大值记为密度阈值,同时结合EM算法对高斯混合 模型进行训练,得到最优的高斯混合模型参数;
计算过程中,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,得到原 始高维健康数据的样本密度;
训练过程中,利用贝叶斯信息准则确定高斯混合模型组件个数,通过EM算法的不断迭 代,对高斯混合模型进行训练,得到最优的高斯混合模型参数;
步骤三:在对健康数据进行检测时,采用最优高斯混合模型参数下的高斯混合模型对原 始高维健康数据的低维特征表示进行密度估计,得到最优高斯混合模型的参数下各原始高维 健康数据的样本密度,超过密度阈值的样本密度对应的健康数据即为异常数据。
实施例二:
本实施例提供一种基于卷积自编码器高斯混合模型(ConvolutionalAutoencoder Gaussian Mixture Model,CAE-GMM)的健康数据检测方法,所述方法首先对数据样本采用min-max 归一化进行数据预处理,由于“维度灾难”,通过传统方法进行密度估计十分困难,因此将 数据样本在卷积自编码器上进行训练,直至重构误差达到最小,采用这种非线性的方式在减 少“维度灾难”影响的同时尽可能准确获取到数据样本的潜在空间表示;
接着,利用高斯混合模型对样本的潜在空间表示进行密度估计,由于矩阵的奇点问题, 协方差矩阵的逆可能会变得无法求解,因此本发明利用混合概率、均值和协方差来构造协方 差矩阵的cholesky分解,以计算样本密度,最后将样本密度高于训练阶段阈值的数据视为异 常,实现健康数据的异常检测。
具体的,所述方法可采用市场上已有的运动手环采集用户心率、运动步数、消耗卡路里、 睡眠时长等一系列的人体数据指标,构成待分析的数据集。本实施例中数据集包含6个用户 的30天的活动数据,在其中选取了32个特征指标,那么整个数据集S就可以表示为S=[X1,X2,...,X180]T,每一条运动数据Xj为一个用户一天的活动数据,1≤j≤180,表示为32 维向量Xj=[x1,x2,...,xe,...,x32]其中,1≤e≤32。
本申请选取的特征指标包括消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、 运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧 脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间、醒来次数等。根据实际情况,所选取的特征指标还可以包括其他数据指标,比如运动次数等。
本实施例中,利用小米手环3对六人进行为期一个月的数据采集。设定受试者的日常作 息时间是7.30-23.30,并且受试者二十四小时佩戴手环,期间进行过5次手环的充电。
采集到数据集S后,采用下述步骤进行处理:
步骤1:数据预处理:
对采集到的数据集S中的健康数据进行预处理,包括通过多重插补的方式处理健康数据 缺失值问题;利用min-max标准化对数据集S进行归一化处理,以尽可能的降低学习任务 的难度。
由于手环需要充电以及手环佩戴方式不正确等原因,采集到的健康数据往往会出现缺失 值问题,本申请采用多重插补的方式补齐数据集S,具体采用蒙特卡洛方法来填补。
为了使卷积自编码网络可以重构数据集S中的数据样本,并且进行潜在空间表示,需要对数据样本进行归一化处理,否则卷积自编码器无法准确地进行潜在空间表示。本 发明中采用了min-max归一化处理:
Figure BDA0002761379360000071
1≤e≤N,其中N表示样本个数 (1)
其中xe表示32维向量Xj中的任一维度数据,xmin与xmax分别表示该32维向量的最 小值与最大值,xe′表示归一化处理后的数据。
步骤2:利用步骤1预处理后的数据,采用卷积自编码器,以最小化重构误差为原则,并结合BP优化算法,最终得到准确的数据集S的低维表示。
具体的,包括:
S1首先,在卷积层的局部感受野范围内构造全连接神经网络,形成一个卷积核,之后每隔一定步长选取一次局部感受野,以构造相同数目的卷积核,以此类推,所有的 卷积核之间的权值不共享。
S2采用全连接神经网络的方式构造多层自编码器,首先使用受限玻尔兹曼机RBM初始化编码器和解码器中的权值,采取堆叠编码器的方式进行训练;
S3该步骤进行反卷积操作,将潜在低维数据重构为原始数据。为保证自编码器的重构数据与原始维度相同,该步骤的卷积层与S1的卷积层对称,如图1所示;
S4获得了局部感受野,为了最小化重构误差,就需要学习健康数据中的特征,形成最终的卷积自编码器,通过卷积自编码器获得的数据集S的低维特征表示为 Z=[z1,z2,...,zd′]。
步骤3:利用步骤2得到的样本数据的潜在表示和重构误差,通过GMM并结合期 望最大化算法EM进行建模,以便进行密度估计。
经过卷积自编码器网络得到数量为N、维度为d′的数据集S的低维特征表示为 Z=[z1,z2,...,zd′],由于矩阵的奇点问题,协方差矩阵的逆可能会无法求解。因此,本申 请提供的CAE-GMM方法利用混合概率、均值和协方差来构造协方差矩阵的cholesky 分解,以计算样本密度:
Figure BDA0002761379360000072
其中,
Figure BDA0002761379360000081
Figure BDA0002761379360000082
其中E(z)代表GMM的样本密度,K代表高斯组件的个数,
Figure BDA0002761379360000083
代表第k个高斯组件协方差(其中1≤k≤K),L是高斯组件协方差矩阵
Figure BDA0002761379360000084
和惩罚项经过cholesky分解的下三角矩阵;v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解;d′是卷积自编码器提供的潜在表示的维数。利用贝叶斯信息准则(BayesianInformation Criterion,BIC)确定高斯混合模型组件个数K以后,通过EM算法的不断迭代,对高斯混合模型进行训练。对每个组件的混合概率
Figure BDA0002761379360000085
均值
Figure BDA0002761379360000086
和协方差
Figure BDA0002761379360000087
有如下运算:
Step1:期望步(E-step),根据当前参数(初始值或上一次迭代所得的参数值,即每个组 件的混合概率
Figure BDA0002761379360000088
均值
Figure BDA0002761379360000089
和协方差
Figure BDA00027613793600000810
),计算Z=[z1,z2,...,zd′]中数据由每个高斯组件生成 的可能性:
Figure BDA00027613793600000811
其中,1≤i≤d′。
并且,
Figure BDA00027613793600000812
其中,bλ(·)表示深度信念网络(Deep Brief Network,DBN),zi表示通过卷积自编码器获 得的数据集S的低维特征,ω表示DBN的权重向量,
Figure BDA00027613793600000813
表示在高斯混合模型中第i个样本 是由第k个高斯组件生成的概率;Γi表示经过DNB预测得到的第i个原始高维健康数据由 各个高斯组件生成的概率的集合。
Step2:最大化步(M-step),计算新一轮迭代的高斯混合模型参数,即每个组件的混合概 率
Figure BDA00027613793600000814
均值
Figure BDA00027613793600000815
和协方差
Figure BDA00027613793600000816
Figure BDA00027613793600000817
Figure BDA00027613793600000818
Figure BDA0002761379360000091
Step3:重复计算E-step和M-step直至收敛。
通过上述步骤,便得到了高斯混合模型参数的“最优”组合。
但是需要注意的是:由于EM算法可能陷入局部最优解,为了避免这种情况,实验中采 用多次初始化参数的方式进行迭代,取结果最好的参数。
数据集S在训练阶段的密度最大值并且记为MAX,取密度阈值为T=MAX。
最终根据高斯混合模型预测得到各样本密度,将样本密度高于T的数据视为异常,即 E(z)>T则表明测试样本为异常。
基于上述阐述,本实验平台配置为Windows10操作系统、Intel Core i7-7700HQCPU处理器、2.80GHz、20GB内存,所有算法由Python实现。
本实施例采用了5个数据集进行验证,皆来自ODDS异常检测数据库,这些数据 集包含异常类,并根据样本标签区分。标签为0的数据为正常类,标签为1的数据为异 常类。数据集的数据特征见表1。
表1数据集信息
Figure BDA0002761379360000092
本发明所用的评估异常检测算法的性能指标是,召回率(Recall)、F1分数(F1-Score)、 正确率(ACC)、接收者操作特性曲线(ROC)和受试者工作曲线(AUC)。ROC曲线描述的是真阳率和假阳率之间的变化关系,AUC曲线即为ROC曲线与坐标轴围成的面积。 较好的异常检测模型应该有较高的Recall、F1-Score、ACC、ROC、AUC。
首先,为了验证本发明针对高维数据检测性能的优势,选取了维度较高的Arrhythmia数据集,采用定性的方式,与SOS、VAE和DAGMM算法进行ROC曲线 的对比,对比结果如图3所示。
其中SOS算法可参考文献”Janssens,J.H.M.,Huszar,F.,Postma,E.O.,&van denHerik,H.J.Stochastic Outlier Selection[J].Technical report TiCC TR 2012–001,Tilburg Center for Cognition and Communication,2012,23(5),857-864.”;VAE算法可参考文献” Aggarwal C C.Outlier analysis[C]//Data mining.Cham:Springer,2015:237-263.”;DAGMM算法可参考文献”Zong B,Song Q,Min M R,et al.Deep autoencodinggaussian mixture model for unsupervised anomaly detection[C]//InternationalConference on Learning Representations.2018.”。
由图3对比结果可以得知,相较于SOS、VAE和DAGMM算法ROC曲线下面积AUC 值,CAE-GMM的面积最大,即AUC值最高。其中,VAE算法的检测效果最差,可能是因 为VAE在对数据进行潜在空间表示的时候,把原始样本跟异常有关的关键信息错误地进行 了删除,因此其重构误差比较大,导致检测AUC值较低。
从图4中可以看出,针对不同的数据集本发明在取得最好的检测效果时,所对应的编码 器层数o都不同。当o值增大时,各数据集对应的AUC值总是先增大后减小。这是因为先增大o值可以使得编码器很好的进行数据压缩,学习到原始样本较好的特征,因此AUC值 增大;但是之后随着o继续增大,导致训练过拟合,导致AUC值减小。经过AUC值和算 法准确率的综合考量,实验中对图4中5个数据集的o值选择分别是5、2、4、3、3。
为了验证CAE-GMM在时间复杂性的优势,将其与SOS算法、VAE算法和DAGMM 算法的平均检测时间相作对比,对比结果如表2所示:
Table 2 Comparison of average detection time of each algorithm
表2各算法平均检测时间对比
Figure BDA0002761379360000101
从表2可以看出,虽然本申请提供的CAE-GMM方法的平均检测时间不是最低,但是比平均检测时间最低的VAE算法仅相差了0.11s;并且其平均检测时间比性能相近的 DAGMM算法提升了56%,体现了本申请方法在检测时间方面的优势,也即本申请方法在 保证检测性能的前提下,其计算开销相对于其他几种方法较小。
表3不同算法实验结果对比
Figure BDA0002761379360000102
Figure BDA0002761379360000111
从表3的对比试验结果可以看出,本申请提供的CAE-GMM的准确率仅在大数据 集Shuttle上稍低于DAGMM算法;其AUC值也仅在Annthyroid数据集上稍低于 DAGMM算法;在大数据集Shuttle上的ACC值虽然不是最高,但与最高值相差不多; 在高维数据集Arrhythmia上准度达到了0.821,远高于SOS算法的0.675。
各算法对比的结果表明,本申请提供的CAE-GMM可以有效地解决因样本维数过 大引起的维数灾难,导致检测精度低的问题,大幅度提高检测效果。
其次,对本申请提供的CAE-GMM的检测准确率进行验证如下:
采用本申请提供的CAE-GMM对收集到的健康数据进行异常值检测。图5是采用 本申请方法进行异常检测可视化的结果。其中蓝色点是表示正常数据,红色点表示异常 数据。
为了突出本申请提供的CAE-GMM的优势,又采用了检测效果同样好的DAGMM 算法在同一环境下对同样的数据集进行了实验,检测结果如图5。
对比图4和图5,可以看出,两种检测方法对于比较明显的异常样本点都可以检测出来,但是DAGMM算法在簇群边缘存在误判和漏判现象。标号为1、3的样本点为 漏判,标号为2的样本点为误判。而本申请提供的CAE-GMM在检测簇边缘异常点时, 仅3样本点进行了漏判,整体性能较好。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的 存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于卷积自编码器高斯混合模型的健康数据异常检测方法,其特征在于,所述方法包括:
步骤一:将采集到的原始高维健康数据在卷积自编码器上进行训练,以最小化重构误差为原则,结合BP优化算法,得到原始高维健康数据的低维特征表示;
步骤二:以原始高维健康数据的低维特征作为高斯混合模型的输入计算原始高维健康数据对应的样本密度,将得到的样本密度最大值记为密度阈值,同时结合EM算法对高斯混合模型进行训练,得到最优的高斯混合模型参数;
计算过程中,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,得到原始高维健康数据的样本密度;
训练过程中,利用贝叶斯信息准则确定高斯混合模型组件个数,通过EM算法的不断迭代,对高斯混合模型进行训练,得到最优的高斯混合模型参数;
步骤三:在对健康数据进行检测时,采用最优高斯混合模型参数下的高斯混合模型对原始高维健康数据的低维特征表示进行密度估计,得到最优高斯混合模型的参数下各原始高维健康数据的样本密度,超过密度阈值的样本密度对应的健康数据即为异常数据。
2.根据权利要求1所述的方法,其特征在于,所述原始高维健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。
3.根据权利要求2所述的方法,其特征在于,所述方法在将采集到的原始高维健康数据在卷积自编码器上进行训练之前还包括:
对原始高维健康数据进行预处理:利用多重插补的方式处理健康数据缺失值问题并采用min-max归一化处理原始高维健康数据;
根据下式对原始高维健康数据进行归一化处理:
Figure FDA0002761379350000011
其中xe表示每条原始高维健康数据中任一维度数据,xmin与xmax分别表示该任一维度数据中的最小值与最大值,xe′表示归一化处理后的数据。
4.根据权利要求3所述的方法,其特征在于,假设通过卷积自编码器获得的原始高维健康数据的低维特征表示为Z=[z1,z2,...,zd′],其中d′表示原始高维健康数据潜在空间表示的维度;
所述计算过程中,利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解,得到原始高维健康数据的样本密度E(z):
Figure FDA0002761379350000021
其中,K代表高斯组件的个数;
Figure FDA0002761379350000022
Figure FDA0002761379350000023
其中,
Figure FDA0002761379350000024
代表第k个高斯组件协方差,1≤k≤K;L是高斯组件协方差矩阵
Figure FDA0002761379350000025
和惩罚项经过cholesky分解的下三角矩阵;v是利用混合概率、均值和协方差来构造协方差矩阵的cholesky分解时得到的线性方程组的解。
5.根据权利要求4所述的方法,其特征在于,所述训练过程中,利用贝叶斯信息准则确定高斯混合模型组件个数,通过EM算法的不断迭代,对高斯混合模型进行训练,得到最优的高斯混合模型参数,包括:
Step1:期望步,根据当前参数计算Z=[z1,z2,...,zd′]中数据由每个高斯组件生成的可能性:
Γi=bλ(zi+ω) (5)
其中,1≤i≤d′;
所述当前参数为每个组件的混合概率
Figure FDA0002761379350000026
均值
Figure FDA0002761379350000027
和协方差,首次迭代中,当前参数为当前参数的初始值;后续迭代中,当前参数为上一次迭代所得的参数值;
并且,
Figure FDA0002761379350000028
其中,bλ(·)表示深度信念网络DBN,zi表示通过卷积自编码器获得的数据集S的低维特征,ω表示DBN的权重向量,
Figure FDA0002761379350000029
表示在高斯混合模型中第i个样本是由第k个高斯组件生成的概率,Γi表示经过DNB预测得到的第i个原始高维健康数据由各个高斯组件生成的概率的集合;
Step2:最大化步,利用下述公式计算新一轮迭代的高斯混合模型参数,即每个组件的混合概率
Figure FDA0002761379350000031
均值
Figure FDA0002761379350000032
和协方差
Figure FDA0002761379350000033
Figure FDA0002761379350000034
Figure FDA0002761379350000035
Figure FDA0002761379350000036
Step3:重复计算期望步和最大化步直至收敛,得到最优的高斯混合模型参数。
6.根据权利要求5所述的方法,其特征在于,所述步骤一包括:
S1在卷积层的局部感受野范围内构造全连接神经网络,形成一个卷积核,之后每隔一定步长选取一次局部感受野,以构造相同数目的卷积核,以此类推,所有的卷积核之间的权值不共享;
S2采用全连接神经网络的方式构造多层自编码器,首先使用受限玻尔兹曼机RBM初始化编码器和解码器中的权值,采取堆叠编码器的方式进行训练;
S3进行反卷积操作,将潜在低维数据重构为原始数据;反卷积操作是卷积层与S1的卷积层对称;
S4学习健康数据中的特征,形成最终的卷积自编码器,通过最终的卷积自编码器获得的原始高维健康数据的低维特征表示为Z=[z1,z2,...,zd′]。
7.根据权利要求6所述的方法,其特征在于,所述利用多重插补的方式处理健康数据缺失值问题,包括:采用蒙特卡洛方法来填补缺失的健康数据。
8.根据权利要求7所述的方法,其特征在于,所述原始高维健康数据可采用可穿戴电子设备采集。
9.根据权利要求8所述的方法,其特征在于,所述可穿戴电子设备包括:智能手环、智能手表、智能眼镜和智能运动鞋。
10.一种基于卷积自编码器高斯混合模型的健康数据异常检测设备,其特征在于,所述设备采用权利要求1-9任一所述的方法实现对健康数据的异常检测,所述健康数据包括但不限于消耗的卡路里、步数、距离、高度、静息心率、睡眠心率、运动心率、轻运动心率、运动心率、久坐时间、有氧运动时间、有氧运动消耗卡路里、燃烧脂肪、睡眠效率、睡眠时间、入睡时间、睡眠开始时间、睡眠结束时间、深睡时间、轻度睡眠时间、REM睡眠时间和醒来次数。
CN202011226516.XA 2020-11-04 2020-11-04 基于卷积自编码器高斯混合模型的健康数据检测方法 Active CN112509696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011226516.XA CN112509696B (zh) 2020-11-04 2020-11-04 基于卷积自编码器高斯混合模型的健康数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011226516.XA CN112509696B (zh) 2020-11-04 2020-11-04 基于卷积自编码器高斯混合模型的健康数据检测方法

Publications (2)

Publication Number Publication Date
CN112509696A true CN112509696A (zh) 2021-03-16
CN112509696B CN112509696B (zh) 2024-10-15

Family

ID=74955894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011226516.XA Active CN112509696B (zh) 2020-11-04 2020-11-04 基于卷积自编码器高斯混合模型的健康数据检测方法

Country Status (1)

Country Link
CN (1) CN112509696B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113317767A (zh) * 2021-05-24 2021-08-31 西安朝前智能科技有限公司 一种用于健康管理的健康手环设备及其异常数据检测方法
CN113435107A (zh) * 2021-06-02 2021-09-24 杭州电子科技大学 一种基于生产数据的次品检测方法
CN114741945A (zh) * 2022-02-17 2022-07-12 成都飞机工业(集团)有限责任公司 一种航空发动机在线故障的诊断方法
WO2022226227A1 (en) * 2021-04-21 2022-10-27 Cedars-Sinai Medical Center Deep neural networks for predicting post-operative outcomes
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
CN117594227A (zh) * 2024-01-18 2024-02-23 微脉技术有限公司 基于穿戴设备的健康状态监控方法、装置、介质及设备
CN118021292A (zh) * 2024-03-07 2024-05-14 深圳市星迈科技有限公司 智能穿戴设备的健康活力监测方法、系统和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system
US20080086283A1 (en) * 2006-10-05 2008-04-10 Siemens Corporate Research, Inc. Bayesian Sensor Estimation For Machine Condition Monitoring
CN110796497A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 检测异常操作行为的方法以及装置
CN111540471A (zh) * 2020-05-12 2020-08-14 西安交通大学医学院第一附属医院 一种基于用户健康数据的健康状态跟踪及预警方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system
US20080086283A1 (en) * 2006-10-05 2008-04-10 Siemens Corporate Research, Inc. Bayesian Sensor Estimation For Machine Condition Monitoring
CN110796497A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 检测异常操作行为的方法以及装置
CN111540471A (zh) * 2020-05-12 2020-08-14 西安交通大学医学院第一附属医院 一种基于用户健康数据的健康状态跟踪及预警方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王康等: "高斯核密度估计方法检测健康数据异常值", 计算机科学与探索, vol. 13, no. 12, 28 January 2019 (2019-01-28), pages 2094 - 2102 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022226227A1 (en) * 2021-04-21 2022-10-27 Cedars-Sinai Medical Center Deep neural networks for predicting post-operative outcomes
CN113317767A (zh) * 2021-05-24 2021-08-31 西安朝前智能科技有限公司 一种用于健康管理的健康手环设备及其异常数据检测方法
CN113435107A (zh) * 2021-06-02 2021-09-24 杭州电子科技大学 一种基于生产数据的次品检测方法
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
CN114741945A (zh) * 2022-02-17 2022-07-12 成都飞机工业(集团)有限责任公司 一种航空发动机在线故障的诊断方法
CN117594227A (zh) * 2024-01-18 2024-02-23 微脉技术有限公司 基于穿戴设备的健康状态监控方法、装置、介质及设备
CN117594227B (zh) * 2024-01-18 2024-04-30 微脉技术有限公司 基于穿戴设备的健康状态监控方法、装置、介质及设备
CN118021292A (zh) * 2024-03-07 2024-05-14 深圳市星迈科技有限公司 智能穿戴设备的健康活力监测方法、系统和可读存储介质

Also Published As

Publication number Publication date
CN112509696B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
CN112509696B (zh) 基于卷积自编码器高斯混合模型的健康数据检测方法
CN113627518B (zh) 利用迁移学习实现神经网络脑电情感识别模型的方法
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN116705337B (zh) 一种健康数据采集及智能分析方法
Mao et al. An integrated data mining approach to real-time clinical monitoring and deterioration warning
Kang et al. Classification of Mental Stress Using CNN‐LSTM Algorithms with Electrocardiogram Signals
US20200075167A1 (en) Dynamic activity recommendation system
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Yang Medical multimedia big data analysis modeling based on DBN algorithm
CN111261277A (zh) 一种基于深度学习模型的心脏疾病的检测方法
Jiang et al. Sleep stage classification using covariance features of multi-channel physiological signals on Riemannian manifolds
CN110299207A (zh) 用于慢性病检测中的基于计算机预测模型数据处理方法
CN114550932A (zh) 一种睡眠呼吸暂停风险评估方法、装置、设备及存储介质
CN111297327B (zh) 一种睡眠分析方法、系统、电子设备及存储介质
Mortensen et al. Multi-class stress detection through heart rate variability: A deep neural network based study
Gecili et al. Functional data analysis and prediction tools for continuous glucose-monitoring studies
Lupión et al. Data augmentation for Human Activity Recognition with Generative Adversarial Networks
CN116524284A (zh) 核磁共振图像分析方法、系统、装置及存储介质
CN110633368A (zh) 早期结直肠癌非结构化数据的深度学习分类方法
Samani et al. Cluster-based exposure variation analysis
CN115736840A (zh) 一种基于心电数据的睡眠质量识别分类方法
Zhang Machine Learning based Heart Disease Prediction Task
Luckett Nonlinear methods for detection and prediction of epileptic seizures
Ambade et al. Enhancing Cardiovascular Disease Prediction Using Ensemble Learning
Hossain et al. Ordinal Statistical Models of Physical Activity Levels from Accelerometer Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant