CN118016240A

CN118016240A - 一种基于大数据的身体健康评估系统

Info

Publication number: CN118016240A
Application number: CN202410420064.0A
Authority: CN
Inventors: 卢广源; 张喆; 胡江涛
Original assignee: Xi'an Pengpai Yuedong Electronic Technology Co ltd
Current assignee: Xi'an Pengpai Yuedong Electronic Technology Co ltd
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-05-10
Anticipated expiration: 2044-04-09

Abstract

本发明公开了一种基于大数据的身体健康评估系统，系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块。本发明属于数据处理技术领域，具体是指一种基于大数据的身体健康评估系统，本方案基于定义高维距离度量函数确定边权重，进而构建拓扑图并基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；提高数据的准确性和处理效率；基于差异指数识别离群样本，基于万有引力系数优化数据集位置，提高算法适应性；基于高维距离度量函数进行聚类，进而提高健康评估系统的精准性；基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略。

Description

一种基于大数据的身体健康评估系统

技术领域

本发明涉及数据处理技术领域，具体是指一种基于大数据的身体健康评估系统。

背景技术

大数据技术在身体健康评估系统中发挥着至关重要的作用，帮助系统从海量数据中提炼有用信息，实现精准评估和个性化健康管理，为用户提供便捷、高效的健康服务。但是一般身体健康评估系统存在样本间关系捕捉能力差，无法准确计算数据维度间相似度，从而导致评估效果差的问题；一般身体健康评估系统存在无法识别离群数据，导致模型鲁棒性低，聚类中心选择不当导致聚类效果差的问题；一般身体健康评估系统存在参数设计不当导致系统性能过低的问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种基于大数据的身体健康评估系统，针对一般身体健康评估系统存在样本间关系捕捉能力差，无法准确计算数据维度间相似度，从而导致评估效果差的问题，本方案基于定义高维距离度量函数确定边权重，进而构建拓扑图并基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；提高数据的准确性和处理效率；针对一般身体健康评估系统存在无法识别离群数据，导致模型鲁棒性低，聚类中心选择不当导致聚类效果差的问题，本方案基于差异指数识别离群样本，基于万有引力系数优化数据集位置，提高算法适应性；基于高维距离度量函数进行聚类，进而提高健康评估系统的精准性；针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题，本方案基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略，引导优化算法朝着更优解方向移动；克服局部最优解困境，提高系统运行效率。

本发明采取的技术方案如下：本发明提供的一种基于大数据的身体健康评估系统，包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块；

所述数据采集模块采集历史数据和实时数据；

所述样本二次切除模块通过定义高维距离度量函数，基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；

所述数据集优化模块基于差异指数识别离群样本，基于万有引力系数优化数据集位置；

所述聚类处理模块基于高维距离度量函数进行聚类，基于轮盘赌选择法选择聚类中心，基于簇标签确定身体健康评估结果；

所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略，从而对系统内部参数进行优化。

进一步地，在数据采集模块中，所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息；所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标；所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况；所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平；所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间；所述历史数据还包括健康评估等级；将身体健康评估等级作为数据标签；实时数据和历史数据共同参与聚类；标签仅作为定义簇标签使用，不参与聚类运算；将采集的数据转换为向量并进行归一化处理。

进一步地，所述样本二次切除模块具体包括以下内容：

定义高维距离度量函数，用于计算每个数据维度的相似性，所用公式如下：

；

式中，h_d(·)是高维距离度量函数，x和y是样本数据；d是数据维度数；x_i和y_i分别是样本x和样本y在第i维度的位置；f是控制距离度量的参数，f是超参数；

确定边权重，并基于边权重构建拓扑图，节点表示样本数据，每个节点与其k个最近邻节点相连，边的权重如下公式确定：

；

式中，ω_ij是节点o_i和节点o_j之间边的权重；O是节点集；o_p和o_q是节点集中两个不同的节点；

剪切无效边，计算样本权重，预先设有样本权重阈值，当样本权重低于样本权重阈值时，剪切与样本直接相关的边；所用公式如下：

；

式中，W_i是第i个样本的权重；是边o_i的k个最近样本集合；k是最近邻数量；

计算概率密度，基于核密度估计函数计算样本权重的概率密度，所用公式如下：

；

式中，p(·)是样本权重的概率密度函数，W是待估计权重；n是样本数量；h是带宽参数；K(·)是高斯核函数；

二次剪切，计算自适应权重阈值，对低于自适应权重阈值的样本进行二次剪切，所用公式如下：

；

式中，是权重阈值，p_min(·)是最小概率密度；/>是p(·)的反函数的最小值。

进一步地，所述数据集优化模块具体包括以下内容：

计算差异指数，将被切除的数据作为离群样本，将离群样本与其k个最近邻作为一组，计算每个离群样本的差异指数，预先设有差异阈值，当离群样本的差异指数低于差异阈值时，恢复为样本数据，不予切除，所用公式如下：

；

式中，R是差异指数，用于衡量组间不相似性与组内不相似性之间的差异；和/>分别是组间不相似性的平均秩和组内不相似性的平均秩；

优化数据集，基于万有引力系数迭代调整样本位置，以备后续聚类处理，所用公式如下：

；

式中，是原样本位置，/>是优化后的样本位置；T是迭代次数；c是时间段数量，G^l是第l个时间段的万有引力系数；s是每个时间段的样本数量；/>和/>分别是样本/>和样本/>的最近有效邻居位置；/>和/>分别是样本/>和样本/>在第l时间段的位置；n是样本总量。

进一步地，所述聚类处理模块具体包括以下内容：

确定聚类中心，随机选择一个数据点作为初始聚类中心，对于每个数据点，将高维距离度量函数值作为它到当前存在的聚类中心的距离，计算最短距离，表示为D(x)，然后计算每个样本被选为下一个聚类中心的概率，最后根据轮盘赌选择法选择聚类中心，直到选择了K个聚类中心，聚类中心数量和最近邻数量相同，所用公式如下：

；

式中，P是数据点被选为下一聚类中心的概率；x是数据点；X是数据集；

计算关联程度，计算每个点与每个聚类中心的关联程度，表示为u_ji，所用公式如下：

；

式中，d_ji是第i个数据点和第j个聚类中心的高维距离度量值；d_ki是第i个数据点和第k个聚类中心的高维距离度量值；c是聚类数量；m是模糊度参数，m是超参数；

更新聚类中心，所用公式如下：

；

式中，v_j是更新后的第j个聚类中心；

聚类判定，预先设有聚类阈值，若聚类中心收敛或各簇的差异指数低于聚类阈值时，聚类结束，将同一个簇的历史数据最多数量的标签作为簇标签，将实时数据对应的簇标签作为身体健康评估结果；若达到最大迭代次数，则重新初始化聚类中心；否则继续迭代聚类。

进一步地，所述超参数设置模块具体包括以下内容：

搜索种群初始化，基于所搜索的阈值与参数建立搜索空间，初始化搜索个体位置，将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值，初始化个体位置所用公式如下：

；

式中，是第i个搜索个体第d维度的位置；Up^d和Low^d分别是第d维度的搜索上限和搜索下限；

划分等级，基于个体适应度值进行降序处理，按照3：3：4的比例划分为A组、B组和C组；

设计游走学习权重，所用公式如下：

；

式中，Gw是游走学习权重；G(·)是高斯分布函数；P_i是第i个体的适应度值；P_bestP是最优个体的适应度值；g是随机游走参数，g是模块内部超参数；ε和是相互独立的0到1范围内的随机值；/>是个体历史最优适应度值；

设计移动策略，分别对三个组的个体设计移动策略，对于高适应度值的个体减少随机性，对于低适应度值的个体增加随机性，所用公式如下：

；

式中，Ax、Bx和Cx分别是三个组的个体表示；P_rA、P_rB和P_rC分别是三个组内随机个体的适应度值；Ind是从1和2随机选择的数；是B组个体第d维度的平均位置；/>、/>和/>分别是A组、B组和C组个体在第t+1次迭代时的位置；/>是B组随机个体在第t次迭代时的位置；

搜索判定，预先设有适应度阈值，当存在个体适应度值高于适应度阈值时，搜索结束，基于个体位置设置超参数；若达到最大迭代次数则重新初始化种群位置进行搜索；否则重新划分组迭代搜索。

采用上述方案本发明取得的有益效果如下：

（1）针对一般身体健康评估系统存在样本间关系捕捉能力差，无法准确计算数据维度间相似度，从而导致评估效果差的问题，本方案基于定义高维距离度量函数确定边权重，进而构建拓扑图并基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；提高数据的准确性和处理效率。

（2）针对一般身体健康评估系统存在无法识别离群数据，导致模型鲁棒性低，聚类中心选择不当导致聚类效果差的问题，本方案基于差异指数识别离群样本，基于万有引力系数优化数据集位置，提高算法适应性；基于高维距离度量函数进行聚类，进而提高健康评估系统的精准性。

（3）针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题，本方案基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略，引导优化算法朝着更优解方向移动；克服局部最优解困境，提高系统运行效率。

附图说明

图1为本发明提供的一种基于大数据的身体健康评估系统的示意图；

图2为样本二次切除模块的流程示意图；

图3为超参数设置模块的流程示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1，本发明提供的一种基于大数据的身体健康评估系统，包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块；

所述数据采集模块采集历史数据和实时数据；并将数据发送至样本二次切除模块；

所述样本二次切除模块接收数据采集模块发送的数据；通过定义高维距离度量函数，基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；并将数据发送至数据集优化模块；

所述数据集优化模块接收样本二次切除模块发送的数据；基于万有引力系数优化数据集位置；并将数据发送至聚类处理模块；

所述聚类处理模块通过接收数据集优化模块发送的数据；基于高维距离度量函数进行聚类，基于轮盘赌选择法选择聚类中心，基于簇标签确定身体健康评估结果；并将数据发送至超参数设置模块；

所述超参数设置模块接收聚类处理模块发送的数据；基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略，从而对系统内部参数进行优化。

实施例二，参阅图1，该实施例基于上述实施例，在数据采集模块中，历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息；所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标；生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况；心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平；个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间；历史数据还包括健康评估等级；将身体健康评估等级作为数据标签；实时数据和历史数据共同参与聚类；标签仅作为定义簇标签使用，不参与聚类运算；将采集的数据转换为向量并进行归一化处理。

实施例三，参阅图1和图2，该实施例基于上述实施例，样本二次切除模块具体包括以下内容：

；

通过执行上述操作，针对一般身体健康评估系统存在样本间关系捕捉能力差，无法准确计算数据维度间相似度，从而导致评估效果差的问题，本方案基于定义高维距离度量函数确定边权重，进而构建拓扑图并基于样本权重进行初次剪切，基于样本权重概率密度和自适应权重阈值进行二次剪切；提高数据的准确性和处理效率。

实施例四，参阅图1，该实施例基于上述实施例，数据集优化模块具体包括以下内容：

；

实施例五，参阅图1，该实施例基于上述实施例，聚类处理模块具体包括以下内容：

；

更新聚类中心，所用公式如下：

；

式中，v_j是更新后的第j个聚类中心；

通过执行上述操作，针对一般身体健康评估系统存在无法识别离群数据，导致模型鲁棒性低，聚类中心选择不当导致聚类效果差的问题，本方案基于差异指数识别离群样本，基于万有引力系数优化数据集位置，提高算法适应性；基于高维距离度量函数进行聚类，进而提高健康评估系统的精准性。

实施例六，参阅图1和图3，该实施例基于上述实施例，超参数设置模块具体包括以下内容：

；

设计游走学习权重，所用公式如下：

；

通过执行上述操作，针对一般身体健康评估系统存在参数设计不当导致系统性能过低的问题，本方案基于高斯分布函数和个体适应度值设计游走学习权重；对不同适应度值个体分别设计移动策略，引导优化算法朝着更优解方向移动；克服局部最优解困境，提高系统运行效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于大数据的身体健康评估系统，其特征在于：系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块；

所述数据采集模块采集历史数据和实时数据；

2.根据权利要求1所述的一种基于大数据的身体健康评估系统，其特征在于：所述样本二次切除模块具体包括以下内容：

；

3.根据权利要求1所述的一种基于大数据的身体健康评估系统，其特征在于：所述超参数设置模块具体包括以下内容：

；

设计游走学习权重，所用公式如下：

；

式中，Ax、Bx和Cx分别是三个组的个体表示；P_rA、P_rB和P_rC分别是三个组内随机个体的适应度值；Ind是从1和2随机选择的数；是B组个体第d维度的平均位置；/>、和/>分别是A组、B组和C组个体在第t+1次迭代时的位置；/>是B组随机个体在第t次迭代时的位置；

4.根据权利要求1所述的一种基于大数据的身体健康评估系统，其特征在于：所述数据集优化模块具体包括以下内容：

；

5.根据权利要求1所述的一种基于大数据的身体健康评估系统，其特征在于：所述聚类处理模块具体包括以下内容：

；

更新聚类中心，所用公式如下：

；

式中，v_j是更新后的第j个聚类中心；

6.根据权利要求1所述的一种基于大数据的身体健康评估系统，其特征在于：在数据采集模块中，所述历史数据和实时数据都包括生理指标、生活方式、心理健康数据和个人基本信息；所述生理指标包括血压、心率、血糖水平、血脂水平、体重指数、腰围、肝功能指标和肾功能指标；所述生活方式包括饮食习惯、运动量、吸烟情况和饮酒情况；所述心理健康数据包括焦虑水平、抑郁水平、睡眠质量和压力水平；所述个人基本信息包括年龄、性别、身高、体重、家族病史和数据对应时间；所述历史数据还包括健康评估等级；将身体健康评估等级作为数据标签；实时数据和历史数据共同参与聚类；标签仅作为定义簇标签使用，不参与聚类运算；将采集的数据转换为向量并进行归一化处理。