CN118016240A - 一种基于大数据的身体健康评估系统 - Google Patents

一种基于大数据的身体健康评估系统 Download PDF

Info

Publication number
CN118016240A
CN118016240A CN202410420064.0A CN202410420064A CN118016240A CN 118016240 A CN118016240 A CN 118016240A CN 202410420064 A CN202410420064 A CN 202410420064A CN 118016240 A CN118016240 A CN 118016240A
Authority
CN
China
Prior art keywords
data
sample
clustering
weight
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410420064.0A
Other languages
English (en)
Other versions
CN118016240B (zh
Inventor
卢广源
张喆
胡江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Pengpai Yuedong Electronic Technology Co ltd
Original Assignee
Xi'an Pengpai Yuedong Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Pengpai Yuedong Electronic Technology Co ltd filed Critical Xi'an Pengpai Yuedong Electronic Technology Co ltd
Priority to CN202410420064.0A priority Critical patent/CN118016240B/zh
Priority claimed from CN202410420064.0A external-priority patent/CN118016240B/zh
Publication of CN118016240A publication Critical patent/CN118016240A/zh
Application granted granted Critical
Publication of CN118016240B publication Critical patent/CN118016240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于大数据的身体健康评估系统,系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块。本发明属于数据处理技术领域,具体是指一种基于大数据的身体健康评估系统,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率;基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性;基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略。

Description

一种基于大数据的身体健康评估系统
技术领域
本发明涉及数据处理技术领域,具体是指一种基于大数据的身体健康评估系统。
背景技术
大数据技术在身体健康评估系统中发挥着至关重要的作用,帮助系统从海量数据中提炼有用信息,实现精准评估和个性化健康管理,为用户提供便捷、高效的健康服务。但是一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题;一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题;一般身体健康评估系统存在参数设计不当导致系统性能过低的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于大数据的身体健康评估系统,针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率;针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性;针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
本发明采取的技术方案如下:本发明提供的一种基于大数据的身体健康评估系统,包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;
所述样本二次切除模块通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;
所述数据集优化模块基于差异指数识别离群样本,基于万有引力系数优化数据集位置;
所述聚类处理模块基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;
所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
进一步地,在数据采集模块中,所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;所述历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
进一步地,所述样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
进一步地,所述数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
进一步地,所述聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
进一步地,所述超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>、/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
采用上述方案本发明取得的有益效果如下:
(1)针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率。
(2)针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性。
(3)针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
附图说明
图1为本发明提供的一种基于大数据的身体健康评估系统的示意图;
图2为样本二次切除模块的流程示意图;
图3为超参数设置模块的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的一种基于大数据的身体健康评估系统,包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;并将数据发送至样本二次切除模块;
所述样本二次切除模块接收数据采集模块发送的数据;通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;并将数据发送至数据集优化模块;
所述数据集优化模块接收样本二次切除模块发送的数据;基于万有引力系数优化数据集位置;并将数据发送至聚类处理模块;
所述聚类处理模块通过接收数据集优化模块发送的数据;基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;并将数据发送至超参数设置模块;
所述超参数设置模块接收聚类处理模块发送的数据;基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
实施例二,参阅图1,该实施例基于上述实施例,在数据采集模块中,历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
实施例三,参阅图1和图2,该实施例基于上述实施例,样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
通过执行上述操作,针对一般身体健康评估系统存在样本间关系捕捉能力差,无法准确计算数据维度间相似度,从而导致评估效果差的问题,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率。
实施例四,参阅图1,该实施例基于上述实施例,数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
实施例五,参阅图1,该实施例基于上述实施例,聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
通过执行上述操作,针对一般身体健康评估系统存在无法识别离群数据,导致模型鲁棒性低,聚类中心选择不当导致聚类效果差的问题,本方案基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性。
实施例六,参阅图1和图3,该实施例基于上述实施例,超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>、/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
通过执行上述操作,针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题,本方案基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,引导优化算法朝着更优解方向移动;克服局部最优解困境,提高系统运行效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.一种基于大数据的身体健康评估系统,其特征在于:系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;
所述数据采集模块采集历史数据和实时数据;
所述样本二次切除模块通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;
所述数据集优化模块基于差异指数识别离群样本,基于万有引力系数优化数据集位置;
所述聚类处理模块基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;
所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化。
2.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述样本二次切除模块具体包括以下内容:
定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下:
式中,hd(·)是高维距离度量函数,x和y是样本数据;d是数据维度数;xi和yi分别是样本x和样本y在第i维度的位置;f是控制距离度量的参数,f是超参数;
确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定:
式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;
剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下:
式中,Wi是第i个样本的权重;是边oi的k个最近样本集合;k是最近邻数量;
计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下:
式中,p(·)是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K(·)是高斯核函数;
二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下:
式中,是权重阈值,pmin(·)是最小概率密度;/>是p(·)的反函数的最小值。
3.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述超参数设置模块具体包括以下内容:
搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下:
式中,是第i个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;
划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;
设计游走学习权重,所用公式如下:
式中,Gw是游走学习权重;G(·)是高斯分布函数;Pi是第i个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;/>是个体历史最优适应度值;
设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下:
式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置;/>是B组随机个体在第t次迭代时的位置;
搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索。
4.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述数据集优化模块具体包括以下内容:
计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下:
式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和/>分别是组间不相似性的平均秩和组内不相似性的平均秩;
优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下:
式中,是原样本位置,/>是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;/>和/>分别是样本/>和样本/>的最近有效邻居位置;/>和/>分别是样本/>和样本/>在第l时间段的位置;n是样本总量。
5.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:所述聚类处理模块具体包括以下内容:
确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为D(x),然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了K个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下:
式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;
计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uji,所用公式如下:
式中,dji是第i个数据点和第j个聚类中心的高维距离度量值;dki是第i个数据点和第k个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,m是超参数;
更新聚类中心,所用公式如下:
式中,vj是更新后的第j个聚类中心;
聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。
6.根据权利要求1所述的一种基于大数据的身体健康评估系统,其特征在于:在数据采集模块中,所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息;所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标;所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况;所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平;所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间;所述历史数据还包括健康评估等级;将身体健康评估等级作为数据标签;实时数据和历史数据共同参与聚类;标签仅作为定义簇标签使用,不参与聚类运算;将采集的数据转换为向量并进行归一化处理。
CN202410420064.0A 2024-04-09 一种基于大数据的身体健康评估系统 Active CN118016240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410420064.0A CN118016240B (zh) 2024-04-09 一种基于大数据的身体健康评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410420064.0A CN118016240B (zh) 2024-04-09 一种基于大数据的身体健康评估系统

Publications (2)

Publication Number Publication Date
CN118016240A true CN118016240A (zh) 2024-05-10
CN118016240B CN118016240B (zh) 2024-06-21

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189664A1 (en) * 2015-06-26 2018-07-05 National University Of Ireland, Galway Data analysis and event detection method and system
CN111028004A (zh) * 2019-11-28 2020-04-17 国网吉林省电力有限公司 一种基于大数据技术的市场评估分析方法
CN115527192A (zh) * 2022-10-21 2022-12-27 南京极目机器人科技有限公司 一种油菜苗期杂株定位方法及杂株去除方法
CN115905992A (zh) * 2022-11-25 2023-04-04 国网江苏省电力有限公司电力科学研究院 一种电力数据预处理方法、系统、存储介质及计算设备
US20230255564A1 (en) * 2020-09-25 2023-08-17 Linus Health, Inc. Systems and methods for machine-learning-assisted cognitive evaluation and treatment
CN116705337A (zh) * 2023-08-07 2023-09-05 山东第一医科大学第一附属医院(山东省千佛山医院) 一种健康数据采集及智能分析方法
CN117173059A (zh) * 2023-11-03 2023-12-05 奥谱天成(厦门)光电有限公司 用于近红外水分仪的异常点和噪声剔除方法及装置
CN117373677A (zh) * 2023-12-07 2024-01-09 深圳问止中医健康科技有限公司 基于数字化医疗档案管理的智能健康监护系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189664A1 (en) * 2015-06-26 2018-07-05 National University Of Ireland, Galway Data analysis and event detection method and system
CN111028004A (zh) * 2019-11-28 2020-04-17 国网吉林省电力有限公司 一种基于大数据技术的市场评估分析方法
US20230255564A1 (en) * 2020-09-25 2023-08-17 Linus Health, Inc. Systems and methods for machine-learning-assisted cognitive evaluation and treatment
CN115527192A (zh) * 2022-10-21 2022-12-27 南京极目机器人科技有限公司 一种油菜苗期杂株定位方法及杂株去除方法
CN115905992A (zh) * 2022-11-25 2023-04-04 国网江苏省电力有限公司电力科学研究院 一种电力数据预处理方法、系统、存储介质及计算设备
CN116705337A (zh) * 2023-08-07 2023-09-05 山东第一医科大学第一附属医院(山东省千佛山医院) 一种健康数据采集及智能分析方法
CN117173059A (zh) * 2023-11-03 2023-12-05 奥谱天成(厦门)光电有限公司 用于近红外水分仪的异常点和噪声剔除方法及装置
CN117373677A (zh) * 2023-12-07 2024-01-09 深圳问止中医健康科技有限公司 基于数字化医疗档案管理的智能健康监护系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
夏艳姣;孙咏;焦艳菲;高岑;田月: "基于REAHCOR特征选择和GBDT的贫困等级评价模型", 计算机系统应用, vol. 29, no. 05, 15 May 2020 (2020-05-15), pages 209 - 213 *
田浩: "机器学习典型技术在金融风险研究领域中的应用", 31 December 2022, 中国金融出版社, pages: 21 *
郭子选;谢晓尧;刘嵩: "基于特征恢复的离群点移除算法的研究", 贵州师范大学学报(自然科学版), no. 01, 15 February 2016 (2016-02-15), pages 88 - 92 *
郭子选;谢晓尧;刘嵩: "基于特征恢复的离群点移除算法的研究", 贵州师范大学学报(自然科学版), vol. 34, no. 01, 15 February 2016 (2016-02-15), pages 88 - 92 *

Similar Documents

Publication Publication Date Title
CN109801674B (zh) 一种基于异构生物网络融合的关键蛋白质识别方法
CN110232971B (zh) 一种医生推荐方法及装置
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
CN105718960A (zh) 基于卷积神经网络和空间金字塔匹配的图像排序模型
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN109948066B (zh) 一种基于异构信息网络的兴趣点推荐方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN109492776B (zh) 基于主动学习的微博流行度预测方法
CN106844788B (zh) 一种图书馆智能搜索排序方法及系统
CN111986811A (zh) 一种基于大数据的疾病预测系统
CN111324816B (zh) 一种基于区域划分和上下文影响的兴趣点推荐方法
CN109840702A (zh) 一种基于多核融合的新项目协同推荐方法
CN110990498A (zh) 一种基于fcm算法的数据融合方法
CN116821715A (zh) 一种基于半监督约束的人工蜂群优化聚类方法
CN107391594B (zh) 一种基于迭代视觉排序的图像检索方法
CN118016240B (zh) 一种基于大数据的身体健康评估系统
CN113271631B (zh) 基于用户请求可能性与时空特性的新型内容缓存部署方案
CN118016240A (zh) 一种基于大数据的身体健康评估系统
CN108280548A (zh) 基于网络传输的智能处理方法
CN107169020B (zh) 一种基于关键字的定向网页采集方法
CN117056761A (zh) 一种基于x-dbscan算法的客户细分方法
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN103838737A (zh) 一种提高向量距离分类质量的方法
CN110083732A (zh) 图片检索方法、装置及计算机存储介质
CN113836444B (zh) 一种线性时间好友推荐方法、系统、终端以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant