CN108597605A - 一种个人健康生活大数据采集与分析系统 - Google Patents
一种个人健康生活大数据采集与分析系统 Download PDFInfo
- Publication number
- CN108597605A CN108597605A CN201810226013.9A CN201810226013A CN108597605A CN 108597605 A CN108597605 A CN 108597605A CN 201810226013 A CN201810226013 A CN 201810226013A CN 108597605 A CN108597605 A CN 108597605A
- Authority
- CN
- China
- Prior art keywords
- health
- data
- event
- big data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
Abstract
本发明提供了一种个人健康生活大数据采集与分析系统,包括健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端。本发明建立了分布式集群环境下的高通用性大数据汇集和分析平台;通过统一化格式的数据集以及有效的精简机制提高了大数据分析的效率和精确度;建立具有FP树数据结构的健康事件数据库,能够表征用户在特定阶段内健康状况的发展演化状态,更能够反映用户健康的联系与规律,从FP树提取的频繁项集,进行结果簇归类处理,从而将用户的健康事件状态归入特定的类型,基于本系统输出的归类结果,就可以进行针对性的治疗和护理疗养策略。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种数据分析采集更全面,监控更及时的个人健康生活大数据采集与分析系统。
背景技术
随着我国经济社会的快速发展,生活水平的不断提高,使得人们对身体健康也越来越加以重视。但是随着我国人口老龄化逐渐成为了趋势,环境污染的问题也越来越严重,患有高血压、心脑血管、呼吸道疾病等症状的人群越来越多,同时由于现代生活和工作压力的增大,各种慢性疾病患者也不断增多。上述的一系列问题,给我国的医疗卫生体系带来了严峻的挑战。目前我国的医疗卫生体系所面临的问题主要有:公共卫生体系不健全、医疗资源分配不均衡、医疗卫生体系不能满足人民群众的健康需求和医疗信息化发展缓慢等问题。为了解决上述存在的问题,需要借助于新兴的信息化技术,促进医疗与信息化的深度融合。特别是要推进医疗卫生与移动互联网、物联网、云计算、大数据等技术的融合,加大对医疗健康信息化、智能化的关注与投入。最近几年,物联网技术在医疗健康领域已经开展了广泛应用,带来了很好的经济效益和社会效益。
物联网技术的发展,也使得智慧医疗的概念渐渐火热,智慧医疗(WisdomMedical)概念诞生于2009年,通过为传统医疗行业融入更多人工智能技术、传感技术、智能信息处理等技术手段,特别是将大数据分析与处理的技术应用到医疗健康方面,使医疗卫生服务走向真正意义上的智能化,进而不断推动医疗卫生事业的繁荣发展。智慧医疗综合运用医疗物联网、智能终端、数据融合传输交换、云计算、城域网等技术,依托于信息技术,将IT基础设施与医疗基础设施进行融合,以“智慧云数据中心”作为核心,跨越原有医疗系统在时间和空间上的限制,进行智能决策,从而实现医疗健康服务的最优化。在实际应用当中,美国在2009年就开始实施电子病历的分级化管理,微软和Parallels公司在2011年共同研发出了一款可以有效帮助医疗卫生机构使用云计算平台的产品,英特尔公司和Nutanix公司在2013年发布了一款全新的基于大数据处理的医疗行业解决方案。2002年,澳大利亚推出一套电子健康档案系统,该系统已经实现了健康档案检索功能,病人健康教育指导功能、计划免疫情况和用药历史可获取功能。日本于2004年就开始把射频识别(RadioFrequency Identification,RFID)技术运用于医药卫生等领域,全面提高医疗数据的接入管理水平,促进电子病历的普及,实现安全的医疗服务和远程医疗,解决高龄少子化社会的医疗福利问题,并提出了发展“u-Japan战略”。在2006年的时候,韩国相应的制定了“u-Korea战略”。2002年,英国通过了国家医疗信息化项目,建立全科医生数据系统以及欧洲健康档案管理服务等医疗卫生项目,并于2014年全面实现了电子健康档案的应用。我国在智慧医疗领域虽然起步相比于国外较晚,但是我国政府在近几年也开始重视关注,推进物联网技术在医疗领域的应用,并制定了一系列政策措施。例如,各种可穿戴设备出现在人们眼前,用来获取用户的生命体征,这些设备对于健康数据的获取,提供了极大的方便。通过建立医疗数据中心,提供医学信息的端到端服务,能够提高医院的运行效率。通过将大数据引擎与医疗相关行业的信息系统相结合,对海量健康数据进行加工整理,同时,通过移动医疗健康平台和便携式穿戴设备记录人们的健康数据,并把数据上传到云平台,所有数据被存储、分析、挖掘和计算,给医疗卫生机构提供有针对性、快速响应的医疗健康服务。
随着医疗信息化的飞速发展,医疗健康数据的规模越来越大,健康数据已经迈入大数据时代。大数据(Big Data),也称为海量数据(Massive Data),是随着计算机技术以及互联网技术的飞速发展而产生的一种独特数据现象。病人就诊过程中产生的诊疗数据、检查数据、电子病历等信息的数字化,成为了健康大数据构成的基础。可以说,个人健康大数据是智慧医疗的直接产物,也是智慧医疗深入发展的有利契机。医疗健康数据具有持续、高增长、结构复杂等特点,其中也蕴含着丰富多样的信息价值,通过对这些数据进行挖掘和分析,可以提高健康卫生服务机构的诊疗和服务水平。因此,对于医疗健康服务当中以数字化方式来采集、存储和处理的海量健康数据,我们需要把它们转化为有价值的情报。
目前,如何对大数据进行挖掘和分析,则是主要通过数据挖掘相关技术。数据挖掘(Data Mining)概念起源于20世纪下半叶,随着数据的积累,简单的查询与统计已经满足不了企业的要求,随着计算机领域的人工智能(Artificial Intelligence)的发展,人们通过计算机分析和处理数据,并且挖掘数据背后所隐藏的有价值的信息,产生了数据挖掘这一门新的学科。常用的数据挖掘算法主要有聚类、分类、协同过滤、回归分析和关联规则等。当前,数据挖掘技术在很多行业开展了广泛的应用,也开发了Hadoop分布式大数据平台,但是,对于医疗健康数据挖掘分析平台还处于初级阶段,应用到医疗行业的具体实践案例也很少。
发明内容
本发明的目的在于提供一种个人健康生活大数据采集与分析系统,本系统通过将个人健康生活大数据采集和存储于云端,基于健康大数据提取健康事件,整合成具有事件联系的数据集;本发明形成健康事件的FP树这种数据结构,作为基本的分析对象,并执行结果簇归类处理,从而将用户的健康事件状态归入特定的类型。本发明能够解决的技术问题包括:建立了分布式集群环境下的高通用性大数据汇集和分析平台;通过统一化格式的数据集以及有效的精简机制提高了大数据分析的效率和精确度;建立具有FP树数据结构的健康事件数据库,能够表征用户在特定阶段内健康状况的发展演化状态,更能够反映用户健康的联系与规律,因为健康问题都是连锁的事件,不是孤立的异常数据;从FP树提取的频繁项集,进行结果簇归类处理,从而将用户的健康事件状态归入特定的类型,基于本系统输出的归类结果,就可以进行针对性的治疗和护理疗养策略。
本发明的目的是这样实现的:
一种个人健康生活大数据采集与分析系统,包括健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端;
健康数据采集节点用于采集反映人体健康状态的生理数据,以及采集人体周围可能影响健康状态的环境数据,作为所述健康大数据;
智能节点健康数据汇集模块用于获得健康数据采集节点采集的健康大数据,对健康大数据进行预处理,然后上传给云服务器,定期更新云服务器存储的大健康数据;
所述自适应多网络健康数据接入模块位于云服务器入口,用于将来自不同的智能节点健康数据汇集模块的数据集进行格式统一化处理,将处理后的数据集上传至云服务器存储并更新;
云服务器是分布式存储的大数据存储中心,用于存储经过自适应多网络健康数据接入模块格式统一化处理之后的健康大数据的数据集;
健康大数据分析与处理模块用于将任一用户的所有健康大数据整合成具有事件联系的数据集,并进行结果簇归类处理,将用户的健康事件状态归入特定的类型,输出归类结果至所述云服务器;
客户端用于通过云服务器获得健康大数据分析与处理模块的分析结果。
优选的是,智能节点健康数据汇集模块对大健康数据进行的预处理具体包括:读取任一用户在单位时间内采集的全部类型的健康大数据构成的数据集,每一个类型的健康大数据作为该数据集中的一个样本;构成样本空间X={X1,X2,X3,…XN},其中Xi是数据集中第i个样本;对各个样本根据下式进行规范化:
其中A为Xi的真实值,maxi、mini分别表示Xi的最大值和最小值,[Nmaxi-Nmini]表示Xi所在类别的空间阈值范围;
此时得到规范化后的样本空间X’;
将规范化后的样本空间X’输送至云服务器。
优选的是,所述自适应多网络健康数据接入模块将不同的数据集进行格式统一化处理具体包括:对于规范化后的样本空间X’当中的健康大数据的样本,设置样本分阈值K,当样本元素量大于等于K时设定为多数样本,小于K时设定为少数样本,
设数据集的少数样本的总数为n,则其集合表示为
Y={Y1,Y2,Y3,...Yn}
YI代表样本,每个样本具有m个属性,则每个样本表示为:
YI={YI1,YI2,YI3,...YIm}
多数类样本集合表示为
Z={Z1,Z2,Z3,...Zl}
按照如下过程格式统一化处理:
(1)计算少数类样本的重心点,记为Yg,采用向量和欧式距离的计算方式得到少数类样本的重心点:
(2)构建一个少数类小区域的重心点,记为Yc,从少数类样本集合X中随机选取两个样本,分别记为Yr1,Yr2,通过三个样本Yg、Yr1、Yr2求取该小区域的重心点
求取到少数类小区域的重心,从而使得新生成的样本有一个靠近的区域中心方向;
(3)合成新的样本pi,
pi=Yi+rand(0,1)*(Yc-Yi)
Yi为Step2中随机选择的两个少数类样本Yr1、Yr2,pi为合成的新样本,i=r1或i=r2,rand(0,1)为(0,1)之间的一个随机数;将新生成的样本pi放入到数据集合Ynew中;
(4)计算非平衡率,计算数据集的非平衡率R,
如果非平衡率小于预定值则继续重复(2)、(3)、(4)以获得更多的合成样本;若非平衡率达到预定值则合成新样本结束,最后将合成的所有数据集Ynew替换原始的健康大数据的数据集,得到格式统一化处理后的数据集。
优选的是,所述健康大数据分析与处理模块用于从云服务器实时提取的任一用户在单位时间内采集的全部类型的健康大数据所构成的数据集,并且判断该数据集内某一类型的健康大数据是否符合该类型预设的事件生成阈值条件,如果符合则记录一个该类型的健康事件,并将记录的健康事件加入一个健康事件集;将所生成的全部健康事件集,构成健康事件数据库DX,健康事件数据库DX内收入该用户全部的健康事件集;对于健康事件数据库中的某个健康事件集A,计算其支持度S,S是A包含的事件数与健康事件数据库DX当中所有事件数之比,表示为P(A);扫描健康事件数据库DX的事件集,检测每个事件集的支持度,并且定义一个事件集的最小支持度,根据事件集的支持度降序排列形成事件集列表;根据事件集列表记录的事件集,删除事件集列表中支持度低于最小支持度的事件集项,得到更新后的健康事件数据库DXI;根据更新后的健康事件数据库DXI构建FP树((FrequentPattern tree,频繁模式树,简称为FP树);针对FP树提取其频繁项集;针对每个FP树提取的频繁项集,进行结果簇归类处理,通过归类将用户的健康事件状态归入特定的类型。
优选的是,健康大数据分析与处理模块根据更新后的健康事件数据库DXI构建FP树具体包括:将FP树的根节点定义为null;对健康事件数据库DXI中的事件进行插入节点操作,节点就是一条事件的项目,每个节点包含表示事件名称的节点名和表示该事件出现次数的节点数;如果插入的事件在FP树前面路径的节点中具有相同的事件名称的节点,则不需要建立新的节点,直接把原有的路径含有的节点数加1处理,加1后处理的路径指的是从根节点到叶子节点的路径;如果插入的事件没有在树中存在路径,则新建一个节点;并且,在建FP树的过程中,附加一个头表用来表示一维频繁项目集,并且头表中的元素的指针用来指向树中第一次出现事件名称的节点。
优选的是,健康大数据分析与处理模块基于树提取频繁项集的过程包括:
(1.1)根据健康事件数据库DXI求出一维频繁项集并进行编码处理;
(1.2)根据前面编码后的一维频繁项集,对健康事件数据库DXI进行分组处理;
(1.3)对每一个分组数据分别进行建树操作处理;
(1.4)对每一棵建好的FP树进行频繁模式挖掘处理;
(1.5)整合每棵FP树挖掘的频繁项集,从而得到最终的频繁项集。
优选的是,健康大数据分析与处理模块针对FP树的频繁项集,进行结果簇归类处理具体包括:
(2.1)为各个FP树的频繁项集初始化聚类簇中心;
(2.2)计算各样本到簇中心的距离,并将其分配到距离最近的簇中,作为该聚类簇的成员;
(2.3)计算各簇中成员的坐标均值,并将其作为新的簇中心进行下一步迭代。
(2.4)重复执行(2.2)、(2.3);直到各簇中心不再变换或聚类次数达到设定阈值为止。
优选的是,所述的样本根据具体使用环境的不同可以设置为任何影响客户身体健康的数据和指标。
优选的是,所述的健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端通过无线网络或有线网络方式进行数据通信。
优选的是,所述的健康数据采集节点包括可穿戴设备、医疗设备、环境监测设备以及医疗信息系统。
所述的客户端为手持客户终端和PC机。
所述的智能节点健康数据汇集模块、自适应多网络健康数据接入模块、健康大数据分析与处理模块采用Intel Pentium、PentiuCPUm MMX、Pentium Pro或AMD K5、K6、K6-2、K6-III K6-2+、K6-III+型号处理器中的一种。
本发明的有益效果在于:搭建了一套系统的个人健康生活大数据采集与分析系统,将不同类别的健康数据进行了科学分类,同时提出统一化格式的数据集以及有效的精简机制,提高了大数据分析的效率和精确度;建立具有FP树数据结构的健康事件数据库,能够表征用户在特定阶段内健康状况的发展演化状态,更能够反映用户健康的联系与规律,因为健康问题都是连锁的事件,不是孤立的异常数据;从FP树提取的频繁项集,进行结果簇归类处理,从而将用户的健康事件状态归入特定的类型,基于本系统输出的归类结果,就可以进行针对性的治疗和护理疗养策略能够更加精确和系统的反应客户的整体健康状况。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为本发明系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合实施例及实施例附图对本发明作进一步详细的说明。
如图1所示,本发明涉及的一种个人健康生活大数据采集与分析系统,包括健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端;本设计的用户健康服务的平台可以长久保存大量用户的个人信息,包括个人基本信息、用户就诊信息、用户所使用智能节点采集的数据、医疗卫生机构的疾病数据等,平台根据这些数据进行分析与处理。基于本平台的分析结果,可以有效地针对特定人群给出相应的疾病预防建议,为医疗机构的研究提供指导性建议和帮助,帮助医生进行疾病决策支持,促进大数据在面向用户健康服务方面的应用和发展。
健康数据采集节点是由用户身体佩戴的健康数据采集装置,该节点通过内置的各种传感器采集反映人体健康状态的生理数据,以及采集人体周围可能影响健康状态的环境数据,并且将这些数据作为健康大数据的组成部分,有线或者无线发送给智能节点健康数据汇集模块。由健康数据采集节点采集并发送的健康大数据具体包括:心电图、呼吸、心率、体温、血氧、温度、湿度、血糖、肌电、有害气体、PM值数据。健康数据采集节点也可以包括医疗设备、环境监测设备以及医疗信息系统。
所述的智能节点健康数据汇集模块获得健康数据采集节点采集的健康大数据,对健康大数据进行预处理,然后上传给云服务器,定期更新云服务器存储的大健康数据。所述的智能节点健康数据汇集模块对大健康数据进行的预处理具体包括:
识别云服务器的数据库的连接是否正确,如果连接不正确,向客户提示连接有误,等待用户修正后自动连接云服务器的数据库;自动识别客户端IP设置是否正确,如果IP设置不正确,待客户端修正之后自动重新连接;
在云服务器连接正确和IP设置正确后,智能节点健康数据汇集模块读取任一用户在单位时间内采集的全部类型的健康大数据构成的数据集,数据集的样本量为N,健康大数据上述每一个类型的数据作为一个样本,每个样本的数据维度是L;构成样本空间X={X1,X2,X3,…XN},其中Xi是数据集中第i个样本;对各个样本根据下式进行规范化:
其中A为Xi的真实值,maxi、mini分别表示Xi的最大值和最小值,[Nmaxi-Nmini]表示Xi所在类别的空间阈值范围;
此时得到规范化后的样本空间X’;
智能节点健康数据汇集模块将规范化后的样本空间X’输送至云服务器,组成预处理后的健康大数据。
所述的自适应多网络健康数据接入模块是位于云服务器入口的数据处理设施,将来自不同的智能节点健康数据汇集模块的数据集进行格式统一化处理,将处理后的数据集上传至云服务器存储并更新,该模块具有管理大量复杂数据的能力。由于健康大数据类型复杂,不仅包含结构化数据,还包含大量的非结构化数据,如文档数据、图片数据、音频数据、视频数据等,而且每个用户的数据也存在差异性,因此通过本模块解决用户健康大数据以统一格式进行存储,从而便于分析利用的问题。所述的自适应多网络健康数据接入模块将不同的数据集进行格式统一化处理具体包括:对于规范化后的样本空间X’当中的健康大数据的样本,设置样本分阈值K,当样本元素量大于等于K时设定为多数样本,小于K时设定为少数样本,
设数据集的少数样本的总数为n,则其集合表示为
Y={Y1,Y2,Y3,...Yn}
YI代表样本,每个样本具有m个属性,则每个样本表示为:
YI={YI1,YI2,YI3,...YIm}
多数类样本集合表示为
Z={Z1,Z2,Z3,...Xl}
按照如下步骤格式统一化处理:
Step1.计算少数类样本的重心点,记为Yg,采用向量和欧式距离的计算方式得到少数类样本的重心点:
Step2.构建一个少数类小区域的重心点,记为Yc,从少数类样本集合X中随机选取两个样本,分别记为Yr1,Yr2,通过三个样本Yg、Yr1、Yr2求取该小区域的重心点
求取到少数类小区域的重心,从而使得新生成的样本有一个靠近的区域中心方向;
Step3.合成新的样本pi,
pi=Yi+rand(0,1)*(Yc-Yi)
Yi为Step2中随机选择的两个少数类样本Yr1、Yr2,pi为合成的新样本,i=r1或i=r2,rand(0,1)为(0,1)之间的一个随机数;将新生成的样本pi放入到数据集合Ynew中;
Step4.计算非平衡率,计算数据集的非平衡率R,
如果非平衡率小于预定值则继续重复step2,3,4以获得更多的合成样本;若非平衡率达到预定值则合成新样本结束,最后将合成的所有数据集Ynew替换原始的健康大数据的数据集,得到格式统一化处理后的数据集。
云服务器是通过分布式存储技术建立的一个大数据存储中心;该中心用于存储经过自适应多网络健康数据接入模块格式统一化处理之后的健康大数据的数据集。该平台在分布式集群环境下进行设计与开发,计算框架采用了Hadoop下的Map Reduce,存储平台采用了Hadoop下的HDFS。另外,在前台展示和操作界面中,采用了Struts2开发框架进行页面的开发。Hadoop与Struts2的结合使用,使得本平台对大数据的分析与处理变得更加的方便和快捷。这些框架的使用,一方面可以使得开发者能够把主要精力重点放在算法编写和用户健康服务本身,很好的简化了开发过程中的难度,另一方面也能够给用户提供一个可视化的操作环境,提高了算法和平台本身的可操作性。
健康大数据分析与处理模块将任一用户的所有健康大数据整合成具有事件联系的数据集,并进行结果簇归类处理。下面对健康大数据分析与处理模块的执行过程进行具体介绍。
首先,健康大数据分析与处理模块针对从云服务器,实时提取的任一用户在单位时间内采集的全部类型的健康大数据所构成的数据集,并且判断该数据集内某一类型的健康大数据是否符合该类型预设的事件生成阈值条件,如果符合则记录一个该类型的健康事件,并将记录的健康事件加入一个健康事件集。举例来说,本模块提取某一个用户USER在1小时内的全部类型的健康大数据,作为1个数据集,并且建立与该数据集对应的一个健康事件集;其中,对于该数据集中某一类型的健康大数据,例如表示心率的健康大数据,判断心率值是否高于预设的心动过速阈值,若心率值每高于该阈值一次,就记录一个心动异常类型的健康事件,并且将该健康事件加入与该数据集对应的该健康事件集。类似,继续判断该数据集中的血糖值是否存在低于血糖过低阈值的情况,如果每存在一次,就为生成一个血糖异常类型的健康事件,并且也将该事件加入到该健康事件集。
健康大数据分析与处理模块将所生成的全部健康事件集,构成健康事件数据库DX,健康事件数据库DX内收入该用户全部的健康事件集。对于健康事件数据库中的某个健康事件集A,计算其支持度S,S是A包含的事件数与健康事件数据库DX当中所有事件数之比,表示为P(A);健康大数据分析与处理模块扫描健康事件数据库DX的事件集,检测每个事件集的支持度,并且定义一个事件集的最小支持度,根据事件集的支持度降序排列形成事件集列表;根据事件集列表记录的事件集,删除事件集列表中支持度低于最小支持度的事件集项,得到算法更新后的健康事件数据库DXI。根据更新后的健康事件数据库DXI构建FP树((Frequent Pattern tree,频繁模式树,简称为FP树);树的根为根节点,将其定义为null;对健康事件数据库DXI中的事件进行插入节点操作,节点就是一条事件的项目,每个节点包含表示事件名称的节点名和表示该事件出现次数的节点数;如果插入的事件在FP树前面路径的n个节点中具有相同的事件名称的节点,则不需要建立新的节点,直接把原有的路径含有的节点数加1处理,加1后处理的路径指的是从根节点到叶子节点的路径;如果插入的事件没有在树中存在路径,即没有与被插入的事件具有相同的事件名称的节点,则新建一个节点;在建FP树的过程中,附加一个头表用来表示一维频繁项目集,并且头表中的元素的指针用来指向树中第一次出现相同事件名称的节点;树中的每个节点都包含一个指向下一个相同名字的节点的指针,如果没有相同名字节点,则指针指向空。基于建树提取频繁项集的过程包括如下步骤:
(1.1)根据健康事件数据库DXI求出一维频繁项集并进行编码处理;
(1.2)根据前面编码后的一维频繁项集,对健康事件数据库DXI进行分组处理;
(1.3)对每一个分组数据分别进行建树操作处理;
(1.4)对每一棵建好的FP树进行频繁模式挖掘处理;
(1.5)整合每棵FP树挖掘的频繁项集,从而得到最终的频繁项集。
通过构建FP树,健康大数据分析与处理模块将所有的大健康数据整合成具有事件联系的数据集,该数据集通过相互关联的健康事件及其频繁项集,表征了用户在特定阶段内健康状况的发展演化状态,相对于单一某一类型或者某一阶段节点的健康数据来说,FP树方式表征的事件数据集更能够反映用户健康的联系与规律,因为健康问题都是连锁的事件,不是孤立的异常数据。进而,健康大数据分析与处理模块针对FP树的频繁项集,进行结果簇归类处理。所述的结果簇归类处理具体包括给定k个簇中心作为反馈结果,样本根据距离计算公式选择最近的簇中心并将其归入该簇中,完成第一次分配,根据簇中样本计算各簇的质心并确定为新簇心,具体步骤如下:
(2.1)为各个FP树的频繁项集初始化聚类簇中心;
(2.2)计算各样本到簇中心的距离,并将其分配到距离最近的簇中,作为该聚类簇的成员;
(2.3)计算各簇中成员的坐标均值,并将其作为新的簇中心进行下一步迭代。
(2.4)重复执行步骤(2.2)、(2.3);直到各簇中心不再变换或聚类次数达到设定阈值为止。
从而,健康大数据分析与处理模块将用户全部的健康大数据转化为健康事件数据库,进而形成健康事件的FP树这种数据结构,作为基本的分析对象,该数据结构能够反映出用户健康的联系与规律。作为大数据分析的一个具体方面,可以基于从FP树提取的频繁项集,进行结果簇归类处理,从而将用户的健康事件状态归入特定的类型。从而,基于这种分析结果,如果用户归属于某种特定类型的健康事件状态,那么基于本系统输出的归类结果,就可以进行针对性的治疗和护理疗养策略。将分析结果反馈至云服务器并通过云服务器反馈至客户端。客户端可以是用户本人或者经用户授权的医生、健康机构等拥有的个人终端设备,例如手持客户终端和PC机。
随着信息技术的发展,医疗数据正在以惊人的速度增长;如何从医疗健康数据中挖掘出有价值的信息成为当今的一个探讨热点。而在数据挖掘中,由于医疗数据所具有的独有特点,对医疗数据进行数据预处理分析是必要的。本发明研究数据挖掘中数据预处理的常用关键技术,并将大数据预处理技术应用于实际的数据集预处理分析中。针对健康数据集的特点,分别使用了不同的预处理方法,并在某些方法技术上提出了具有创新意义的改进方法。将预处理相关技术应用于具体实践中,为下一步的数据挖掘工作提供有效的高质量数据集。同时,改进的算法和局部线性嵌入算法不受具体的数据集限制,可推广至其他应用中,有效提高了数据集挖掘时的准确性和效率。
本系统具有良好的大数据分析与处理能力,随着健康大数据的爆炸式增长,传统的数据分析与处理技术已经不能满足需求,本发明将用户健康大数据进行统一格式化与必要的样本精简和合并,进而提取出健康事件,并且对健康事件进行了进一步的归集、精简处理,为后续用户健康大数据的有效分析与处理打下了基础,有利于挖掘其潜在的价值,准确而高效的发现医学知识和规律,这也是本平台需要解决的重点。本发明上述处理方式通用性强,对于不同的健康大数据,平台都可以进行处理而不需要大规模的变动原有业务。
以上所述,仅为本发明的具体实施方式,本发明还可以应用在其它设备中;以上描述中的尺寸和数量均仅为参考性的,本领域技术人员可根据实际需要选择适当的应用尺寸,而不脱离本发明的范围。本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。
Claims (10)
1.一种个人健康生活大数据采集与分析系统,其特征在于,包括健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端;
健康数据采集节点用于采集反映人体健康状态的生理数据,以及采集人体周围可能影响健康状态的环境数据,作为所述健康大数据;
智能节点健康数据汇集模块用于获得健康数据采集节点采集的健康大数据,对健康大数据进行预处理,然后上传给云服务器,定期更新云服务器存储的大健康数据;
所述自适应多网络健康数据接入模块位于云服务器入口,用于将来自不同的智能节点健康数据汇集模块的数据集进行格式统一化处理,将处理后的数据集上传至云服务器存储并更新;
云服务器是分布式存储的大数据存储中心,用于存储经过自适应多网络健康数据接入模块格式统一化处理之后的健康大数据的数据集;
健康大数据分析与处理模块用于将任一用户的所有健康大数据整合成具有事件联系的数据集,并进行结果簇归类处理,将用户的健康事件状态归入特定的类型,输出归类结果至所述云服务器;
客户端用于通过云服务器获得健康大数据分析与处理模块的分析结果。
2.根据权利要求1所述的个人健康生活大数据采集与分析系统,其特征在于,智能节点健康数据汇集模块对大健康数据进行的预处理具体包括:读取任一用户在单位时间内采集的全部类型的健康大数据构成的数据集,每一个类型的健康大数据作为该数据集中的一个样本;构成样本空间X={X1,X2,X3,…XN},其中Xi是数据集中第i个样本;对各个样本根据下式进行规范化:
其中A为Xi的真实值,maxi、mini分别表示Xi的最大值和最小值,[Nmaxi-Nmini]表示Xi所在类别的空间阈值范围;
此时得到规范化后的样本空间X’;
将规范化后的样本空间X’输送至云服务器。
3.根据权利要求2所述的个人健康生活大数据采集与分析系统,其特征在于,所述自适应多网络健康数据接入模块将不同的数据集进行格式统一化处理具体包括:对于规范化后的样本空间X′当中的健康大数据的样本,设置样本分阈值K,当样本元素量大于等于K时设定为多数样本,小于K时设定为少数样本,
设数据集的少数样本的总数为n,则其集合表示为
Y={Y1,Y2,Y3,...Yn}
YI代表样本,每个样本具有m个属性,则每个样本表示为:
Y1={YI1,YI2,YI3,...YIm}
多数类样本集合表示为
Z={Z1,Z2,Z3,...ZI}
按照如下过程格式统一化处理:
(1)计算少数类样本的重心点,记为Yg,采用向量和欧式距离的计算方式得到少数类样本的重心点:
(2)构建一个少数类小区域的重心点,记为Yc,从少数类样本集合X中随机选取两个样本,分别记为Yr1,Yr2,通过三个样本Yg、Yr1、Yr2求取该小区域的重心点
求取到少数类小区域的重心,从而使得新生成的样本有一个靠近的区域中心方向;
(3)合成新的样本pi,
pi=Yi+rand(0,1)*(Yc-Yi)
Yi为Step2中随机选择的两个少数类样本Yr1、Yr2,pi为合成的新样本,i=r1或i=r2,rand(0,1)为(0,1)之间的一个随机数;将新生成的样本pi放入到数据集合Ynew中;
(4)计算非平衡率,计算数据集的非平衡率R,
如果非平衡率小于预定值则继续重复(2)、(3)、(4)以获得更多的合成样本;若非平衡率达到预定值则合成新样本结束,最后将合成的所有数据集Ynew替换原始的健康大数据的数据集,得到格式统一化处理后的数据集。
4.根据权利要求3所述的个人健康生活大数据采集与分析系统,其特征在于,所述健康大数据分析与处理模块用于从云服务器实时提取的任一用户在单位时间内采集的全部类型的健康大数据所构成的数据集,并且判断该数据集内某一类型的健康大数据是否符合该类型预设的事件生成阈值条件,如果符合则记录一个该类型的健康事件,并将记录的健康事件加入一个健康事件集;将所生成的全部健康事件集,构成健康事件数据库DX,健康事件数据库DX内收入该用户全部的健康事件集;对于健康事件数据库中的某个健康事件集A,计算其支持度S,S是A包含的事件数与健康事件数据库DX当中所有事件数之比,表示为P(A);扫描健康事件数据库DX的事件集,检测每个事件集的支持度,并且定义一个事件集的最小支持度,根据事件集的支持度降序排列形成事件集列表;根据事件集列表记录的事件集,删除事件集列表中支持度低于最小支持度的事件集项,得到更新后的健康事件数据库DXI;根据更新后的健康事件数据库DXI构建FP树((Frequent Pattern tree,频繁模式树,简称为FP树);针对FP树提取其频繁项集;针对每个FP树提取的频繁项集,进行结果簇归类处理,通过归类将用户的健康事件状态归入特定的类型。
5.根据权利要求4所述的个人健康生活大数据采集与分析系统,其特征在于,健康大数据分析与处理模块根据更新后的健康事件数据库DXI构建FP树具体包括:将FP树的根节点定义为null;对健康事件数据库DXI中的事件进行插入节点操作,节点就是一条事件的项目,每个节点包含表示事件名称的节点名和表示该事件出现次数的节点数;如果插入的事件在FP树前面路径的节点中具有相同的事件名称的节点,则不需要建立新的节点,直接把原有的路径含有的节点数加1处理,加1后处理的路径指的是从根节点到叶子节点的路径;如果插入的事件没有在树中存在路径,则新建一个节点;并且,在建FP树的过程中,附加一个头表用来表示一维频繁项目集,并且头表中的元素的指针用来指向树中第一次出现事件名称的节点。
6.根据权利要求5所述的个人健康生活大数据采集与分析系统,其特征在于,所述的样本根据具体使用环境的不同可以设置为任何影响客户身体健康的数据和指标。
7.根据权利要求6所述的个人健康生活大数据采集与分析系统,其特征在于,所述的健康数据采集节点、智能节点健康数据汇集模块、云服务器、自适应多网络健康数据接入模块、健康大数据分析与处理模块和客户端通过无线网络或有线网络方式进行数据通信。
8.根据权利要求7所述的个人健康生活大数据采集与分析系统,其特征在于,所述的健康数据采集节点包括可穿戴设备、医疗设备、环境监测设备以及医疗信息系统。
9.根据权利要求8所述的个人健康生活大数据采集与分析系统,其特征在于,所述的客户端为手持客户终端和PC机。
10.根据权利要求9所述的个人健康生活大数据采集与分析系统,其特征在于,所述的智能节点健康数据汇集模块、自适应多网络健康数据接入模块、健康大数据分析与处理模块采用Intel Pentium、PentiuCPUm MMX、Pentium Pro或AMD K5、K6、K6-2、K6-III K6-2+、K6-III+型号处理器中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810226013.9A CN108597605B (zh) | 2018-03-19 | 2018-03-19 | 一种个人健康生活大数据采集与分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810226013.9A CN108597605B (zh) | 2018-03-19 | 2018-03-19 | 一种个人健康生活大数据采集与分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108597605A true CN108597605A (zh) | 2018-09-28 |
CN108597605B CN108597605B (zh) | 2020-01-31 |
Family
ID=63626625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810226013.9A Active CN108597605B (zh) | 2018-03-19 | 2018-03-19 | 一种个人健康生活大数据采集与分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597605B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109659001A (zh) * | 2018-12-18 | 2019-04-19 | 延安大学 | 一种防癌监管系统及方法 |
CN110537905A (zh) * | 2019-05-24 | 2019-12-06 | 哈尔滨理工大学 | 一种便携式人体健康监测系统 |
CN110659405A (zh) * | 2019-09-25 | 2020-01-07 | 南京源堡科技研究院有限公司 | 一种基于云环境的网络信息采集方法 |
CN111370115A (zh) * | 2020-03-10 | 2020-07-03 | 武汉诶唉智能科技有限公司 | 一种基于区块链的大健康人工智能预防管理方法及系统 |
CN111584020A (zh) * | 2020-04-30 | 2020-08-25 | 张建春 | 一种个人健康生活大数据采集与分析系统 |
WO2021168703A1 (zh) * | 2020-02-26 | 2021-09-02 | 京东方科技集团股份有限公司 | 字符处理及字符识别方法、存储介质和终端设备 |
WO2021249197A1 (zh) * | 2020-06-09 | 2021-12-16 | 京东方科技集团股份有限公司 | 数据处理方法、数据处理装置和健康管理装置 |
CN117708139A (zh) * | 2024-02-05 | 2024-03-15 | 北京珺安惠尔健康科技有限公司 | 一种数字化健康数据库优化存储检索方法 |
CN117708139B (zh) * | 2024-02-05 | 2024-05-03 | 北京珺安惠尔健康科技有限公司 | 一种数字化健康数据库优化存储检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217377A (zh) * | 2014-09-29 | 2014-12-17 | 广州中国科学院沈阳自动化研究所分所 | 养老信息化综合服务平台 |
CN106250705A (zh) * | 2016-08-10 | 2016-12-21 | 深圳市衣信互联网科技有限公司 | 一种基于云服务的大数据收集分析系统及方法 |
CN106779258A (zh) * | 2017-03-28 | 2017-05-31 | 深圳万智联合科技有限公司 | 一种预测准确率高的大数据健康预测系统 |
CN106846207A (zh) * | 2017-01-19 | 2017-06-13 | 四川华迪信息技术有限公司 | 医养结合信息服务与预警平台及控制方法 |
CN107145704A (zh) * | 2017-03-27 | 2017-09-08 | 西安电子科技大学 | 一种面向社区的健康医疗监护、评测系统及其方法 |
-
2018
- 2018-03-19 CN CN201810226013.9A patent/CN108597605B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217377A (zh) * | 2014-09-29 | 2014-12-17 | 广州中国科学院沈阳自动化研究所分所 | 养老信息化综合服务平台 |
CN106250705A (zh) * | 2016-08-10 | 2016-12-21 | 深圳市衣信互联网科技有限公司 | 一种基于云服务的大数据收集分析系统及方法 |
CN106846207A (zh) * | 2017-01-19 | 2017-06-13 | 四川华迪信息技术有限公司 | 医养结合信息服务与预警平台及控制方法 |
CN107145704A (zh) * | 2017-03-27 | 2017-09-08 | 西安电子科技大学 | 一种面向社区的健康医疗监护、评测系统及其方法 |
CN106779258A (zh) * | 2017-03-28 | 2017-05-31 | 深圳万智联合科技有限公司 | 一种预测准确率高的大数据健康预测系统 |
Non-Patent Citations (1)
Title |
---|
陈建涛: ""面向用户健康服务的大数据平台设计及其分析处理关键技术"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109360658B (zh) * | 2018-11-01 | 2021-06-08 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109659001A (zh) * | 2018-12-18 | 2019-04-19 | 延安大学 | 一种防癌监管系统及方法 |
CN109659001B (zh) * | 2018-12-18 | 2023-08-04 | 延安大学 | 一种防癌监管系统及方法 |
CN110537905A (zh) * | 2019-05-24 | 2019-12-06 | 哈尔滨理工大学 | 一种便携式人体健康监测系统 |
CN110659405A (zh) * | 2019-09-25 | 2020-01-07 | 南京源堡科技研究院有限公司 | 一种基于云环境的网络信息采集方法 |
WO2021168703A1 (zh) * | 2020-02-26 | 2021-09-02 | 京东方科技集团股份有限公司 | 字符处理及字符识别方法、存储介质和终端设备 |
CN111370115A (zh) * | 2020-03-10 | 2020-07-03 | 武汉诶唉智能科技有限公司 | 一种基于区块链的大健康人工智能预防管理方法及系统 |
CN111584020B (zh) * | 2020-04-30 | 2021-05-25 | 蓝天方舟健康物联网(湖北)有限公司 | 一种个人健康生活大数据采集与分析系统 |
CN111584020A (zh) * | 2020-04-30 | 2020-08-25 | 张建春 | 一种个人健康生活大数据采集与分析系统 |
WO2021249197A1 (zh) * | 2020-06-09 | 2021-12-16 | 京东方科技集团股份有限公司 | 数据处理方法、数据处理装置和健康管理装置 |
CN117708139A (zh) * | 2024-02-05 | 2024-03-15 | 北京珺安惠尔健康科技有限公司 | 一种数字化健康数据库优化存储检索方法 |
CN117708139B (zh) * | 2024-02-05 | 2024-05-03 | 北京珺安惠尔健康科技有限公司 | 一种数字化健康数据库优化存储检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108597605B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597605A (zh) | 一种个人健康生活大数据采集与分析系统 | |
CN110349652B (zh) | 一种融合结构化影像数据的医疗数据分析系统 | |
CN110532329B (zh) | 一种基于区块链技术的智能手环数据处理与共享方法 | |
CN109543067A (zh) | 基于人工智能的企业生产状况实时监控分析系统 | |
CN110349372B (zh) | 居家养老人员活动异常预警方法和装置 | |
Ma et al. | Medhere: A smartwatch-based medication adherence monitoring system using machine learning and distributed computing | |
CN108573758A (zh) | 一种智能医疗大数据服务系统及应用方法 | |
CN111552734A (zh) | 用户画像的生成方法及装置、计算机设备、存储介质 | |
CN107887010A (zh) | 一种心血管疾病数据采集与分诊平台 | |
CN106408481A (zh) | 异常刷卡人员信息自动提取系统及方法 | |
Mishra et al. | Investigating the role of context in perceived stress detection in the wild | |
CN111063437A (zh) | 一种个性化慢病分析系统 | |
Raju et al. | Optimized building of machine learning technique for thyroid monitoring and analysis | |
CN111882203A (zh) | 一种中医药云服务实验系统 | |
CN112307028B (zh) | 跨数据信息知识模态的面向本质计算的差分内容推荐方法 | |
CN109841285B (zh) | 一种临床研究协作系统及方法 | |
CN106127503A (zh) | 一种基于真实社会关系和大数据的网络信息分析方法 | |
Naseri et al. | Intelligent rule extraction in complex event processing platform for health monitoring systems | |
CN114224343B (zh) | 认知障碍检测方法、装置、设备及存储介质 | |
CN116246781A (zh) | 基于物联网技术的j2ee老年人监护系统 | |
Wang et al. | Imbalanced learning for hospital readmission prediction using national readmission database | |
CN108053541A (zh) | 医院排号管理方法及系统 | |
Liu et al. | Research on application of data mining in hospital management | |
Andry et al. | Analysis of the Omicron virus cases using data mining methods in rapid miner applications | |
CN111986815A (zh) | 基于共现关系的项目组合挖掘方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |