CN118016240A - 一种基于大数据的身体健康评估系统 - Google Patents
一种基于大数据的身体健康评估系统 Download PDFInfo
- Publication number
- CN118016240A CN118016240A CN202410420064.0A CN202410420064A CN118016240A CN 118016240 A CN118016240 A CN 118016240A CN 202410420064 A CN202410420064 A CN 202410420064A CN 118016240 A CN118016240 A CN 118016240A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- clustering
- weight
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000005259 measurement Methods 0.000 claims abstract description 17
- 238000010008 shearing Methods 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000005315 distribution function Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 239000008280 blood Substances 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 6
- 230000004630 mental health Effects 0.000 claims description 6
- 238000010187 selection method Methods 0.000 claims description 6
- 208000019901 Anxiety disease Diseases 0.000 claims description 3
- 230000036506 anxiety Effects 0.000 claims description 3
- 230000036772 blood pressure Effects 0.000 claims description 3
- 230000035622 drinking Effects 0.000 claims description 3
- 235000006694 eating habits Nutrition 0.000 claims description 3
- 230000003907 kidney function Effects 0.000 claims description 3
- 230000003908 liver function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 230000003860 sleep quality Effects 0.000 claims description 3
- 230000000391 smoking effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于大数据的身体健康评估系统,系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块。本发明属于数据处理技术领域,具体是指一种基于大数据的身体健康评估系统,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率;基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性;基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略。
Description
技术领域
本发明涉及数据处理技术领域,具体是指一种基于大数据的身体健康评估系统。
背景技术
大数据技术在身体健康评估系统中发挥着至关重要的作用,帮助系统从海量数据中提炼有用信息,实现精准评估和个性化健康管理,为用户提供便捷、高效的健康服务。但是一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题;一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题;一般身体健康评估系统存在参数设计不当导致系统性能过低的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于大数据的身体健康评估系统,针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率;针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性;针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
本发明采取的技术方案如下:本发明提供的一种基于大数据的身体健康评估系统,包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;
所述样本二次切除模块通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;
所述数据集优化模块基于差异指数识别离群样本,基于万有引力系数优化数据集位置;
所述聚类处理模块基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;
所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
进一步地,在数据采集模块中,所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;所述历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
进一步地,所述样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
;
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
;
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
;
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
;
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
;
;
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
进一步地,所述数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
;
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
;
;
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
进一步地,所述聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
;
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
;
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
;
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
进一步地,所述超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
;
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
;
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
;
;
;
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>、/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
采用上述方案本发明取得的有益效果如下:
(1)针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率。
(2)针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性。
(3)针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
附图说明
图1为本发明提供的一种基于大数据的身体健康评估系统的示意图;
图2为样本二次切除模块的流程示意图;
图3为超参数设置模块的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的一种基于大数据的身体健康评估系统,包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;并将数据发送至样本二次切除模块;
所述样本二次切除模块接收数据采集模块发送的数据;通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;并将数据发送至数据集优化模块;
所述数据集优化模块接收样本二次切除模块发送的数据;基于万有引力系数优化数据集位置;并将数据发送至聚类处理模块;
所述聚类处理模块通过接收数据集优化模块发送的数据;基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;并将数据发送至超参数设置模块;
所述超参数设置模块接收聚类处理模块发送的数据;基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
实施例二,参阅图1,该实施例基于上述实施例,在数据采集模块中,历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
实施例三,参阅图1和图2,该实施例基于上述实施例,样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
;
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
;
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
;
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
;
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
;
;
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
通过执行上述操作,针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率。
实施例四,参阅图1,该实施例基于上述实施例,数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
;
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
;
;
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
实施例五,参阅图1,该实施例基于上述实施例,聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
;
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
;
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
;
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
通过执行上述操作,针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性。
实施例六,参阅图1和图3,该实施例基于上述实施例,超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
;
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
;
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
;
;
;
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>、/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
通过执行上述操作,针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (6)
1.一种基于大数据的身体健康评估系统,其特征在于:系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;
所述样本二次切除模块通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;
所述数据集优化模块基于差异指数识别离群样本,基于万有引力系数优化数据集位置;
所述聚类处理模块基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;
所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
2.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
;
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
;
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
;
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
;
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
;
;
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
3.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
;
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
;
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
;
;
;
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>、和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
4.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
;
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
;
;
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
5.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
;
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
;
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
;
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
6.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:在数据采集模块中,所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;所述历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410420064.0A CN118016240B (zh) | 2024-04-09 | 一种基于大数据的身体健康评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410420064.0A CN118016240B (zh) | 2024-04-09 | 一种基于大数据的身体健康评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118016240A true CN118016240A (zh) | 2024-05-10 |
CN118016240B CN118016240B (zh) | 2024-06-21 |
Family
ID=
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189664A1 (en) * | 2015-06-26 | 2018-07-05 | National University Of Ireland, Galway | Data analysis and event detection method and system |
CN111028004A (zh) * | 2019-11-28 | 2020-04-17 | 国网吉林省电力有限公司 | 一种基于大数据技术的市场评估分析方法 |
CN115527192A (zh) * | 2022-10-21 | 2022-12-27 | 南京极目机器人科技有限公司 | 一种油菜苗期杂株定位方法及杂株去除方法 |
CN115905992A (zh) * | 2022-11-25 | 2023-04-04 | 国网江苏省电力有限公司电力科学研究院 | 一种电力数据预处理方法、系统、存储介质及计算设备 |
US20230255564A1 (en) * | 2020-09-25 | 2023-08-17 | Linus Health, Inc. | Systems and methods for machine-learning-assisted cognitive evaluation and treatment |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117173059A (zh) * | 2023-11-03 | 2023-12-05 | 奥谱天成(厦门)光电有限公司 | 用于近红外水分仪的异常点和噪声剔除方法及装置 |
CN117373677A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于数字化医疗档案管理的智能健康监护系统 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189664A1 (en) * | 2015-06-26 | 2018-07-05 | National University Of Ireland, Galway | Data analysis and event detection method and system |
CN111028004A (zh) * | 2019-11-28 | 2020-04-17 | 国网吉林省电力有限公司 | 一种基于大数据技术的市场评估分析方法 |
US20230255564A1 (en) * | 2020-09-25 | 2023-08-17 | Linus Health, Inc. | Systems and methods for machine-learning-assisted cognitive evaluation and treatment |
CN115527192A (zh) * | 2022-10-21 | 2022-12-27 | 南京极目机器人科技有限公司 | 一种油菜苗期杂株定位方法及杂株去除方法 |
CN115905992A (zh) * | 2022-11-25 | 2023-04-04 | 国网江苏省电力有限公司电力科学研究院 | 一种电力数据预处理方法、系统、存储介质及计算设备 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117173059A (zh) * | 2023-11-03 | 2023-12-05 | 奥谱天成(厦门)光电有限公司 | 用于近红外水分仪的异常点和噪声剔除方法及装置 |
CN117373677A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于数字化医疗档案管理的智能健康监护系统 |
Non-Patent Citations (4)
Title |
---|
夏艳姣;孙咏;焦艳菲;高岑;田月: "基于REAHCOR特征选择和GBDT的贫困等级评价模型", 计算机系统应用, vol. 29, no. 05, 15 May 2020 (2020-05-15), pages 209 - 213 * |
田浩: "机器学习典型技术在金融风险研究领域中的应用", 31 December 2022, 中国金融出版社, pages: 21 * |
郭子选;谢晓尧;刘嵩: "基于特征恢复的离群点移除算法的研究", 贵州师范大学学报(自然科学版), no. 01, 15 February 2016 (2016-02-15), pages 88 - 92 * |
郭子选;谢晓尧;刘嵩: "基于特征恢复的离群点移除算法的研究", 贵州师范大学学报(自然科学版), vol. 34, no. 01, 15 February 2016 (2016-02-15), pages 88 - 92 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801674B (zh) | 一种基于异构生物网络融合的关键蛋白质识别方法 | |
CN110232971B (zh) | 一种医生推荐方法及装置 | |
CN111159359B (zh) | 文档检索方法、装置及计算机可读存储介质 | |
CN105718960A (zh) | 基于卷积神经网络和空间金字塔匹配的图像排序模型 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN109948066B (zh) | 一种基于异构信息网络的兴趣点推荐方法 | |
CN113807422B (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
CN109492776B (zh) | 基于主动学习的微博流行度预测方法 | |
CN106844788B (zh) | 一种图书馆智能搜索排序方法及系统 | |
CN111986811A (zh) | 一种基于大数据的疾病预测系统 | |
CN111324816B (zh) | 一种基于区域划分和上下文影响的兴趣点推荐方法 | |
CN109840702A (zh) | 一种基于多核融合的新项目协同推荐方法 | |
CN110990498A (zh) | 一种基于fcm算法的数据融合方法 | |
CN116821715A (zh) | 一种基于半监督约束的人工蜂群优化聚类方法 | |
CN107391594B (zh) | 一种基于迭代视觉排序的图像检索方法 | |
CN118016240B (zh) | 一种基于大数据的身体健康评估系统 | |
CN113271631B (zh) | 基于用户请求可能性与时空特性的新型内容缓存部署方案 | |
CN118016240A (zh) | 一种基于大数据的身体健康评估系统 | |
CN108280548A (zh) | 基于网络传输的智能处理方法 | |
CN107169020B (zh) | 一种基于关键字的定向网页采集方法 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
CN103838737A (zh) | 一种提高向量距离分类质量的方法 | |
CN110083732A (zh) | 图片检索方法、装置及计算机存储介质 | |
CN113836444B (zh) | 一种线性时间好友推荐方法、系统、终端以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |