CN116705337B - 一种健康数据采集及智能分析方法 - Google Patents

一种健康数据采集及智能分析方法 Download PDF

Info

Publication number
CN116705337B
CN116705337B CN202310979723.XA CN202310979723A CN116705337B CN 116705337 B CN116705337 B CN 116705337B CN 202310979723 A CN202310979723 A CN 202310979723A CN 116705337 B CN116705337 B CN 116705337B
Authority
CN
China
Prior art keywords
health data
data
dimension
health
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310979723.XA
Other languages
English (en)
Other versions
CN116705337A (zh
Inventor
张光
王大伟
胡文琦
张晓栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Shandong First Medical University
Original Assignee
First Affiliated Hospital of Shandong First Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Shandong First Medical University filed Critical First Affiliated Hospital of Shandong First Medical University
Priority to CN202310979723.XA priority Critical patent/CN116705337B/zh
Publication of CN116705337A publication Critical patent/CN116705337A/zh
Application granted granted Critical
Publication of CN116705337B publication Critical patent/CN116705337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及健康数据处理技术领域,具体涉及一种健康数据采集及智能分析方法,包括:根据健康数据的分量和健康数据的相关性,进一步获得任意两个维度之间的第一联系性,根据第一联系性进一步获得数值聚类簇,根据数值聚类簇获得任意维度的第二联系性,利用第二联系性对主成分分析算法进行优化,获取用户画像,实现对健康数据的智能分析。本发明实现自适应PCA降维,避免了传统的PCA降维方法中得到的降维结果中包含了较多数据的变化受到其他维度的数据变化影响的维度数据,并且保证了一些具有代表性的维度数据保留,使得计算得到的PCA降维结果更加准确,可以根据健康数据精确的构建用户画像。

Description

一种健康数据采集及智能分析方法
技术领域
本发明涉及健康数据处理技术领域,具体涉及一种健康数据采集及智能分析方法。
背景技术
近年来,健康数据的重要性在医疗和健康管理领域得到了广泛认可。随着技术的进步和智能设备的普及,人们能够方便地收集、存储和分析各种健康数据,如心率、血压、睡眠质量等。这些数据提供了宝贵的信息,可以用于个体化的健康管理、预防疾病和改善生活方式。用户画像是对特定个体的综合描述和分析,包括其特征、需求、行为模式等方面的信息。在健康领域中,用户画像是通过分析个人的健康数据来了解其健康状况、生活方式和特定需求的一种方法。
在用户画像的构建过程,需要对采集的用户的健康数据进行降维处理,将降维后的用户数据的特征向量来作为用户画像的信息。但是由于采集的用户的健康数据中维度数据较复杂,并且这些维度数据中存在一些数据的变化是由于其他维度数据而产生的,因此传统的数据降维过程中会使得一些不重要的健康数据作为构建用户画像过程中所使用的数据;
基于此,本发明提出一种健康数据采集及智能分析方法,通过对用户的健康数据进行自适应PCA降维方法,得到准确的降维结果进而获取准确的用户画像。
发明内容
本发明提供一种健康数据采集及智能分析方法,以解决现有的问题。
本发明的一种健康数据采集及智能分析方法采用如下技术方案:
本发明提供了一种健康数据采集及智能分析方法,该方法包括以下步骤:
获取多个用户的多维度健康数据;
获取任意维度健康数据的若干个分量,获取健康数据的分量与健康数据之间的相关性,根据健康数据的分量与健康数据之间的相关性获得健康数据的分量与其他维度的健康数据之间的相关性参数;根据相关性和相关性参数获得不同维度的健康数据之间的关联性;根据健康数据中数据点的差异,获得健康数据的筛选程度,根据筛选程度的大小,获得用户的基本数据;对所有用户的基本数据进行聚类,获得若干个用户聚类簇,根据用户聚类簇中数据点之间的距离,以及健康数据之间的关联性,获得维度时间的第一联系性;
根据第一联系性的大小获得维度集合,对任意一个用户聚类簇中,任意维度集合中一个维度的健康数据进行聚类,获得若干个数值聚类簇,根据数值聚类簇获得波动变化范围;根据维度的数量和第一联系性获得参数A,利用健康数据和波动变化范围之间的差异,对参数A进行校正,获得维度的第二联系性;
利用第二联系性对主成分分析算法进行校正,获得任意用户的多维度健康数据的降维数据,根据降维数据获取用户画像,实现健康数据的智能分析。
进一步的,所述相关性参数的获取方法为:
首先,利用独立成分分析算法获取任意维度的健康数据对应的若干个独立成分分量,记为健康数据的分量,并获取第个维度的健康数据的第/>个分量与第/>个维度的健康数据之间的皮尔逊相关系数,记为第/>个维度的第/>个分量与第/>个维度的数据之间的相关性,获得用户每天的第/>个维度的第/>个分量与第/>个维度的数据之间的相关性;
然后,以天数作为横轴,以相关性作为纵轴,构建相关性的变化曲线,记为相关性曲线,根据健康数据以及健康数据的分量,获得任意维度的健康数据的分量与其他维度的健康数据之间的相关性参数,具体计算方法为:
其中,表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性参数;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中数据点的数量;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,第/>个数据点的数值;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,所有数据点的均值。
进一步的,所述关联性的获取方法为:
将第个维度的健康数据与第/>个维度的健康数据的所有分量之间的相关性,记为第一特征;
个维度的健康数据的所有分量与第/>个维度的健康数据之间的相关性参数,记为第二特征;
第一特征乘以第二特征,获得第个维度的健康数据与第/>个维度的关联性。
进一步的,所述筛选程度的获取方法为:
获取任意健康数据中各个数据点的斜率;并获取任意健康数据的后向差分序列,记为健康差分序列,获取健康差分序列中连续为0时,数字0对应的数量,记为数值不变间隔,获取健康差分序列中所有的数值不变间隔的平均值,记为健康数据的变化平均间隔;利用指数衰减函数将所有数据点的平均斜率进行归一化处理,获得数值X,将数值X与变化平均间隔的乘积结果,记为对应维度的健康数据的筛选程度。
进一步的,所述基本数据的获取方法为:
对所有维度的健康数据的筛选程度进行线性归一化处理,获取最大的筛选程度对应的健康数据,记为特殊健康数据,获取所有用户的特殊健康数据;
获取所有用户中每个维度下的特殊健康数据的数量,将每个维度下的特殊健康数据的数量,与所有用户的所有健康数据的数量的比值,记为对应维度下健康数据的特殊比值,将特殊比值最大时对应维度的健康数据,记为用户的基本数据。
进一步的,所述第一联系性的获取方法为:
利用DBSCAN聚类算法,对所有用户的基本数据进行聚类,获得若干个聚类簇,记为用户聚类簇;
根据用户聚类簇中数据点之间的距离获得用户聚类簇的聚集性;
将所有用户聚类簇的聚集性,与所有用户聚类簇下所有用户中所有维度中,第个维度的健康数据与第/>个维度的健康数据的平均关联性的乘积结果,记为第/>个维度与第/>个维度的第一联系性。
进一步的,所述聚集性的获取方法为:
利用指数衰减函数,对任意用户聚类簇中所有数据点之间的平均距离,与聚类簇中所有数据点的最大距离治安的比值进行归一化,将归一化结果记为用户聚类簇的聚集性。
进一步的,所述波动变化范围的获取方法为:
步骤(1),获取任意维度的健康数据与其他维度的健康数据之间的第一联系性,将大于预设的第一联系性阈值时的维度,记为对应维度的联系维度,获得任意维度的若干个联系维度形成的集合,记为维度集合;
步骤(2),利用DBSCAN聚类算法对任意一个用户聚类簇中,任意维度集合中任意一个维度的健康数据的所有数据点进行聚类,获得多个聚类簇,记为数值聚类簇;获取任意数值聚类簇中数据点的数量,记为第一数量;获取任意数值聚簇中每个数据点在健康数据中的时间点,记为第一时间点,获取在其他维度的健康数据中所第一时间点对应的数据点,获取相同数值的数据点的数量,记为第二数量,将第二数量与第一数量的比值记为联合分布概率;
步骤(3),根据联合分布概率和健康数据中数据点的数值,获得用户聚类簇中任意用户的第个维度的健康数据,相对第/>个维度的任意数值聚类簇的波动变化范围,具体计算方法为:
其中,表示第/>个维度的健康数据相对第/>个维度的波动变化范围;/>表示第/>个维度的任意数值聚类簇中数据点的数量;/>表示第/>个维度的任意数值聚类簇中的第/>个数据点的时间点,在第/>个维度的健康数据中对应数据点的数量;/>表示第/>个维度的任意数值聚类簇中第/>个数据点,与在第/>个维度的健康数据中对应时间点的第/>个数据点形成的联合分布概率。
进一步的,所述第二联系性的获取方法为:
获取第个维度的健康数据相对所有维度的最大波动变化范围,记为/>,将第/>个维度的健康数据中所有数据点的数值,与最大波动变化范围之间的最小差值绝对值,记为校正系数/>;任意用户的第/>个维度的第二联系性的具体计算方法为:
其中,表示第/>个维度的第二联系性;/>表示除第/>个维度外的其他维度的数量,表示第/>个维度的关联维度的数量;/>表示校正系数,/>表示第/>个维度与对应关联维度中的第/>个维度之间的第一联系性;/>表示以自然常数为底数的指数函数。
进一步的,所述利用第二联系性对主成分分析算法进行校正,获得任意用户的多维度健康数据的降维数据,根据降维数据获取用户画像,实现健康数据的智能分析,包括的具体步骤如下:
首先,利用主成分分析算法对用户的多维度健康数据进行处理,在降维过程中,通过协方差矩阵中获取每个维度的健康数据的特征值,将每个维度的第二联系性与对应的特征值相乘,获得每个维度的健康数据的校正后特征值,完成对多维度健康数据中每一维的健康数据的降维数据;
然后,获得大量不同年龄和不同性别的用户的降维数据,将健康、亚健康以及不健康作为降维数据的人工标签,对用户的降维数据进行打标签,将任意用户的所有带有人工标签的降维数据作为一个样本,则由大量的样本形成训练DNN神经网络的数据集,将数据集作为DNN神经网络,结合交叉熵损失函数,对DNN神经网络进行训练,输出用户的健康状态,将用户的年龄、性别以及健康状态,作为用户画像,用于对用户的健康状态进行描述。
本发明的技术方案的有益效果是:根据单个用户其自身的维度之间的变化分析,并根据维度数据的分布特性,对多个用户之间进行维度数据层面上的分类,在具有较强相似性的用户之间进行分析,进而得到当前维度与其他维度之间的第一联系性。并结合当前维度数据中的具有关联性的维度数据的分布变化,来获取具有关联性数据的联合分布来获取当前维度数据的波动范围,并结合此波动范围来获取当前维度数据的第二联系性值,进而实现自适应PCA降维。避免了传统的PCA降维方法中得到的降维结果中包含了较多数据的变化受到其他维度的数据变化影响的维度数据,并且保证了一些具有代表性的维度数据保留,使得计算得到的PCA降维结果更加准确,可以精确的构建用户画像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种健康数据采集及智能分析方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种健康数据采集及智能分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种健康数据采集及智能分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种健康数据采集及智能分析方法的步骤流程图,该方法包括以下步骤:
步骤S001,获取用户的多维度健康数据。
利用带有多种传感器的智能设备实时采集用户的健康数据,分别为心率、血压、体温以及睡眠质量;
另外,采集用户的非传感器数据,例如包含性别、年龄的用户个人信息,以及包含血常规检测、尿常规检测和心电图数据的相关医学指标,利用词袋模型将采集非传感器数据转换为对应的多维数据,记为第一数据。
需要说明的是,所述传感器有心率传感器、压力传感器、体温传感器、加速度传感器、红外线传感器,其中,心率传感器可以获取用户的心率,体温传感器可以获取用户的体温,压力传感器可以获取用户的血压;压力传感器、加速度传感器和红外线传感器可以检测睡眠期间身体的移动、呼吸和心率等指标,从而评估睡眠的深度和质量,获取用户的睡眠质量。
则由用户的心率、血压、体温、睡眠质量以及第一数据共同形成用户的多维度健康数据。
至此,获得用户的多维健康数据。
步骤S002,根据健康数据的分量和健康数据的相关性,进一步获得任意两个维度之间的第一联系性。
在多维度健康数据中,存在部分维度的健康数据受到其他维度的健康数据变化的影响,例如睡眠质量的变化受到心率、呼吸频率的影响,而部分健康数据的变化不受其他健康数据的影响;
另外,存在部分健康数据发生变化是受到其他维度的健康数据影响而造成的,但是该健康数据具有较强的代表性意义,例如当睡眠质量不好时,但是与其有关的心率的变化较为正常,则该用户的睡眠质量较具有代表性。
因此本实施例的目的为保证健康数据具有代表性,数据点的数值不受其他维度的健康数据的影响,以对用户进行健康评估。
由于用户的健康数据不随主观变化,即健康数据的变化是客观存在的,不同用户之间的不同维度的健康数据所发生的变化可能不相同,因此本实施例在分析任意维度的健康数据与其他维度的健康数据之间的联系时,需要根据单个用户其自身的维度之间的变化分析,并根据维度数据的分布特性,对多个用户之间进行维度数据层面上的分类,在具有较强相似性的用户之间进行分析,进而得到任意维度的健康数据与其他维度的健康数据之间的联系性。
步骤(1),首先,利用独立成分分析算法获取任意维度的健康数据对应的若干个独立成分分量,记为健康数据的分量,并获取第个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的皮尔逊相关系数,记为第/>个维度的第/>个分量与第/>个维度的数据之间的相关性,获得用户每天的第/>个维度的第/>个分量与第/>个维度的数据之间的相关性;
需要说明的是,预设独立成分分析算法的独立成分数量参数为6,可根据实际情况进行调节,本实施例不作具体限定。
然后,以天数作为横轴,以相关性作为纵轴,构建相关性的变化曲线,记为相关性曲线,若相关性曲线的变化较大,即反映了对应的第个维度的第/>个分量与第/>个维度的数据之间的相关性变化较大。
根据健康数据以及健康数据的分量,获得任意维度的健康数据的分量与其他维度的健康数据之间的相关性参数,具体计算方法为:
其中,表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性参数;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中数据点的数量;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,第/>个数据点的数值;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,所有数据点的均值;
表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据的相关性值的权重值,数据点的序数越小,相关性参数的值越不可信,则对应的权重值越小。
最后,获得所有维度的健康数据的任意分量与其他健康数据之间的相关性参数,并利用softmax函数对所有相关性参数进行归一化处理。
需要说明的是,softmax函数为指数归一化函数,为现有的归一化方法,本实施例不过多赘述。
步骤(2),首先,利用线性归一化算法对任意维度的健康数据进行归一化处理,将其量化到同一个数据级;
然后,获取第个维度的健康数据,与其他第/>个维度的关联性/>,具体计算方法为:
其中,表示第/>个维度的健康数据,与第/>个维度的健康数据之间的关联性;/>表示第/>个维度的健康数据所对应分量的数量;/>表示第/>个维度的健康数据,与第/>个维度的健康数据的第/>个分量之间的相关性;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性参数。
步骤(3),由于用户的差异,若仅分析单个用户的多维度健康数据,来获取健康数据之间的关联性会出现较大误差,因此本实施例通过分析多个用户之间关联性,来获取综合的维度数据之间的第一联系性。
用户的相似性根据用户的基本情况数据有关,用户的基本情况数据随着时间的变化较小,因此本实施例需要对健康数据进行筛选,获取变化较小的健康数据;
首先,获取任意健康数据中各个数据点的斜率;并获取任意健康数据的后向差分序列,记为健康差分序列,获取健康差分序列中连续为0时,数字0对应的数量,记为数值不变间隔,获取健康差分序列中所有的数值不变间隔的平均值,记为健康数据的变化平均间隔;根据各数据点的斜率以及变化平均间隔,获取对应维度的健康数据的筛选程度,具体计算方法为:
其中,表示健康数据的筛选程度;/>表示健康数据中所有数据点的平均斜率,/>表示健康数据的变化平均间隔;exp()表示以自然常数为底数的指数函数。
然后,对所有维度的健康数据的筛选程度进行线性归一化处理,获取最大的筛选程度对应的健康数据,记为特殊健康数据,获取所有用户的特殊健康数据,获取所有用户中每个维度下的特殊健康数据的数量,将每个维度下的特殊健康数据的数量,与所有用户的所有健康数据的数量的比值,记为对应维度下健康数据的特殊比值,将特殊比值最大时对应维度的健康数据,记为用户的基本数据;
需要说明的是,当特殊比值的最大值存在多个时,选取特殊比值的最大值对应的每个维度下,所有特殊健康数据的平均筛选程度最大值,所对应维度的健康数据,作为基本数据。
最后,利用DBSCAN聚类算法,对所有用户的基本数据进行聚类,获得若干个聚类簇,记为用户聚类簇;
每个用户聚类簇反映了同一个类别下的用户。
需要说明的是,预设DBSCAN聚类算法的邻域半径为0.5,密度阈值为6,可根据实际情况进行调节,本实施例不作具体限定。
步骤(4),首先,根据用户聚类簇中数据点之间的距离获得用户聚类簇的聚集性,具体计算方法为:
其中,表示第/>个用户聚类簇中数据点之间的平均距离,/>表示第/>个用户聚类簇中所有数据点的最大距离;/>表示以自然常数为底数的指数函数;
需要说明的是,用户聚类簇中的一个数据点,对应一个用户的基本数据。
然后,获取任意用户聚类簇中所有用户的任意维度的健康数据之间的关联性,根据用户聚类簇的聚集性以及用户聚类簇中健康数据的关联性,获得第个维度与第/>个维度的第一联系性,具体计算方法为:
其中,表示第/>个维度与第/>个维度之间的第一联系性;/>表示用户聚类簇的数量,/>表示第/>个用户聚类簇的聚集性;/>表示第/>个用户聚类簇下所有用户中所有维度中,第/>个维度的健康数据与第/>个维度的健康数据的平均关联性。
若用户聚类簇的聚集性较大,则对应用户聚类簇较为离散,用户聚类簇内健康数据之间的第一联系性的波动变化较大,则在获取第一联系性时权重值较小。
至此,获得健康数据之间的第一联系性。
步骤S003,根据第一联系性进一步获得数值聚类簇,根据数值聚类簇获得任意维度的第二联系性。
第一联系性越大,表明对应维度的健康数据易受到其他维度的健康数据的影响,因此获取第一联系性小的健康数据,但是在第一联系性大的部分维度中存在具有代表性的健康数据,例如某个用户的睡眠质量不好,但是与其有关的心率为正常的,则该用户的睡眠质量具有代表性。因此需要结合健康数据中具有关联性的健康数据的分布变化,获取具有关联性健康数据的联合分布,以获取对应维度的健康数据的波动范围,并结合波动范围来获取对应维度的健康数据的第二联系性。
步骤(1),获取任意维度的健康数据与其他维度的健康数据之间的第一联系性,将大于预设的第一联系性阈值时的维度,记为对应维度的联系维度,获得任意维度的若干个联系维度形成的集合,记为维度集合;
步骤(2),首先,利用DBSCAN聚类算法对任意一个用户聚类簇中,任意维度集合中任意一个维度的健康数据的所有数据点进行聚类,获得多个聚类簇,记为数值聚类簇;获取任意数值聚类簇中数据点的数量,记为第一数量;获取任意数值聚簇中每个数据点在健康数据中的时间点,记为第一时间点,获取在其他维度的健康数据中所第一时间点对应的数据点,获取相同数值的数据点的数量,记为第二数量,将第二数量与第一数量的比值记为联合分布概率;
需要说明的是,本实施例中的DBSCAN聚类算法的相关参数均相同。
然后,根据联合分布概率和健康数据中数据点的数值,获得用户聚类簇中任意用户的第个维度的健康数据,相对第/>个维度的任意数值聚类簇的波动变化范围,具体计算方法为:
其中,表示第/>个维度的健康数据相对第/>个维度的波动变化范围;/>表示第/>个维度的任意数值聚类簇中数据点的数量;/>表示第/>个维度的任意数值聚类簇中的第/>个数据点的时间点,在第/>个维度的健康数据中对应数据点的数量;/>表示第/>个维度的任意数值聚类簇中第/>个数据点,与在第/>个维度的健康数据中对应时间点的第/>个数据点形成的联合分布概率;
获得第个维度的健康数据相对第/>个维度的所有聚类簇的波动变化范围,将第/>个维度的健康数据相对第/>个维度的所有聚类簇的波动变化范围的平均值,记为第/>个维度的健康数据相对第/>个维度的波动变化范围;
其中若出现的联合分布概率越大,则在第个维度的数值聚类簇中第/>个数据点,与第/>个维度的健康数据中对应时间点的第/>个数据点的权重值就越大。
步骤(3),获取第个维度的健康数据相对所有维度的最大波动变化范围,记为/>,将第/>个维度的健康数据中所有数据点的数值,与最大波动变化范围之间的最小差值绝对值,记为校正系数;任意用户的第/>个维度的第二联系性的具体计算方法为:
其中,表示第/>个维度的第二联系性;/>表示除第/>个维度外的其他维度的数量,表示第/>个维度的关联维度的数量;/>表示校正系数,/>表示第/>个维度与对应关联维度中的第/>个维度之间的第一联系性;/>表示以自然常数为底数的指数函数;
表示第/>个维度的关联性权重值,若该值越大,则对应与第/>个维度具有关联性的维度越小,则对应的为本实施例中越需要保留的维度数据;/>表示波动权重值,若该波动权重越大,则对应的第/>个维度下的数据的代表性越大,则越需要保留该维度的数据特征。
步骤S004,利用第二联系性对主成分分析算法进行优化,获取用户画像,实现对健康数据的智能分析。
首先,利用主成分分析算法对用户的多维度健康数据进行处理,在降维过程中,通过协方差矩阵中获取每个维度的健康数据的特征值,将每个维度的第二联系性与对应的特征值相乘,获得每个维度的健康数据的校正后特征值,完成对多维度健康数据中每一维的健康数据的降维数据;
然后,获得大量不同年龄和不同性别的用户的降维数据,将健康、亚健康以及不健康作为降维数据的人工标签,由领域内专业人员对用户的降维数据进行打标签,将任意用户的所有带有人工标签的降维数据作为一个样本,则由大量的样本形成训练DNN神经网络的数据集,将数据集作为DNN神经网络,结合交叉熵损失函数,对DNN神经网络进行训练,输出用户的健康状态,将用户的年龄、性别以及健康状态,作为用户画像,用于对用户的健康状态进行描述。
至此实现对用户的健康数据的智能分析。
需要说明的是,主成分分析算法为现有算法,本实施例不过多赘述。
需要说明的是,本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内,具体实施时,可替换成具有同样目的的其他模型,本实施例只是以/>模型为例进行叙述,不对其做具体限定,其中/>是指该模型的输入。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种健康数据采集及智能分析方法,其特征在于,该方法包括以下步骤:
获取多个用户的多维度健康数据;
获取任意维度健康数据的若干个分量,获取健康数据的分量与健康数据之间的相关性,根据健康数据的分量与健康数据之间的相关性获得健康数据的分量与其他维度的健康数据之间的相关性参数;根据相关性和相关性参数获得不同维度的健康数据之间的关联性;根据健康数据中数据点的差异,获得健康数据的筛选程度,根据筛选程度的大小,获得用户的基本数据;对所有用户的基本数据进行聚类,获得若干个用户聚类簇,根据用户聚类簇中数据点之间的距离,以及健康数据之间的关联性,获得维度时间的第一联系性;
根据第一联系性的大小获得维度集合,对任意一个用户聚类簇中,任意维度集合中一个维度的健康数据进行聚类,获得若干个数值聚类簇,根据数值聚类簇获得波动变化范围;根据维度的数量和第一联系性获得参数A,利用健康数据和波动变化范围之间的差异,对参数A进行校正,获得维度的第二联系性;
利用第二联系性对主成分分析算法进行校正,获得任意用户的多维度健康数据的降维数据,根据降维数据获取用户画像,实现健康数据的智能分析;
所述相关性参数的获取方法为:
首先,利用独立成分分析算法获取任意维度的健康数据对应的若干个独立成分分量,记为健康数据的分量,并获取第个维度的健康数据的第/>个分量与第/>个维度的健康数据之间的皮尔逊相关系数,记为第/>个维度的第/>个分量与第/>个维度的数据之间的相关性,获得用户每天的第/>个维度的第/>个分量与第/>个维度的数据之间的相关性;
然后,以天数作为横轴,以相关性作为纵轴,构建相关性的变化曲线,记为相关性曲线,根据健康数据以及健康数据的分量,获得任意维度的健康数据的分量与其他维度的健康数据之间的相关性参数,具体计算方法为:
其中,表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性参数;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中数据点的数量;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,第/>个数据点的数值;/>表示第/>个维度的健康数据的第/>个分量,与第/>个维度的健康数据之间的相关性曲线中,所有数据点的均值;
所述关联性的获取方法为:
将第个维度的健康数据与第/>个维度的健康数据的所有分量之间的相关性,记为第一特征;
个维度的健康数据的所有分量与第/>个维度的健康数据之间的相关性参数,记为第二特征;
第一特征乘以第二特征,获得第个维度的健康数据与第/>个维度的关联性;
所述筛选程度的获取方法为:
获取任意健康数据中各个数据点的斜率;并获取任意健康数据的后向差分序列,记为健康差分序列,获取健康差分序列中连续为0时,数字0对应的数量,记为数值不变间隔,获取健康差分序列中所有的数值不变间隔的平均值,记为健康数据的变化平均间隔;利用指数衰减函数将所有数据点的平均斜率进行归一化处理,获得数值X,将数值X与变化平均间隔的乘积结果,记为对应维度的健康数据的筛选程度;
所述基本数据的获取方法为:
对所有维度的健康数据的筛选程度进行线性归一化处理,获取最大的筛选程度对应的健康数据,记为特殊健康数据,获取所有用户的特殊健康数据;
获取所有用户中每个维度下的特殊健康数据的数量,将每个维度下的特殊健康数据的数量,与所有用户的所有健康数据的数量的比值,记为对应维度下健康数据的特殊比值,将特殊比值最大时对应维度的健康数据,记为用户的基本数据;
所述第一联系性的获取方法为:
利用DBSCAN聚类算法,对所有用户的基本数据进行聚类,获得若干个聚类簇,记为用户聚类簇;
根据用户聚类簇中数据点之间的距离获得用户聚类簇的聚集性;
将所有用户聚类簇的聚集性,与所有用户聚类簇下所有用户中所有维度中,第个维度的健康数据与第/>个维度的健康数据的平均关联性的乘积结果,记为第/>个维度与第/>个维度的第一联系性;
所述聚集性的获取方法为:
利用指数衰减函数,对任意用户聚类簇中所有数据点之间的平均距离,与聚类簇中所有数据点的最大距离之间的比值进行归一化,将归一化结果记为用户聚类簇的聚集性;
所述波动变化范围的获取方法为:
步骤(1),获取任意维度的健康数据与其他维度的健康数据之间的第一联系性,将大于预设的第一联系性阈值时的维度,记为对应维度的联系维度,获得任意维度的若干个联系维度形成的集合,记为维度集合;
步骤(2),利用DBSCAN聚类算法对任意一个用户聚类簇中,任意维度集合中任意一个维度的健康数据的所有数据点进行聚类,获得多个聚类簇,记为数值聚类簇;获取任意数值聚类簇中数据点的数量,记为第一数量;获取任意数值聚簇中每个数据点在健康数据中的时间点,记为第一时间点,获取在其他维度的健康数据中所第一时间点对应的数据点,获取相同数值的数据点的数量,记为第二数量,将第二数量与第一数量的比值记为联合分布概率;
步骤(3),根据联合分布概率和健康数据中数据点的数值,获得用户聚类簇中任意用户的第个维度的健康数据,相对第/>个维度的任意数值聚类簇的波动变化范围,具体计算方法为:
其中,表示第/>个维度的健康数据相对第/>个维度的波动变化范围;/>表示第/>个维度的任意数值聚类簇中数据点的数量;/>表示第/>个维度的任意数值聚类簇中的第/>个数据点的时间点,在第/>个维度的健康数据中对应数据点的数量;/>表示第/>个维度的任意数值聚类簇中第/>个数据点,与在第/>个维度的健康数据中对应时间点的第/>个数据点形成的联合分布概率;
所述第二联系性的获取方法为:
获取第个维度的健康数据相对所有维度的最大波动变化范围,记为/>,将第/>个维度的健康数据中所有数据点的数值,与最大波动变化范围之间的最小差值绝对值,记为校正系数/>;任意用户的第/>个维度的第二联系性的具体计算方法为:
其中,表示第/>个维度的第二联系性;/>表示除第/>个维度外的其他维度的数量,/>表示第/>个维度的关联维度的数量;/>表示校正系数,/>表示第/>个维度与对应关联维度中的第/>个维度之间的第一联系性;/>表示以自然常数为底数的指数函数;
所述利用第二联系性对主成分分析算法进行校正,获得任意用户的多维度健康数据的降维数据,根据降维数据获取用户画像,实现健康数据的智能分析,包括的具体步骤如下:
首先,利用主成分分析算法对用户的多维度健康数据进行处理,在降维过程中,通过协方差矩阵中获取每个维度的健康数据的特征值,将每个维度的第二联系性与对应的特征值相乘,获得每个维度的健康数据的校正后特征值,完成对多维度健康数据中每一维的健康数据的降维数据;
然后,获得大量不同年龄和不同性别的用户的降维数据,将健康、亚健康以及不健康作为降维数据的人工标签,对用户的降维数据进行打标签,将任意用户的所有带有人工标签的降维数据作为一个样本,则由大量的样本形成训练DNN神经网络的数据集,将数据集作为DNN神经网络,结合交叉熵损失函数,对DNN神经网络进行训练,输出用户的健康状态,将用户的年龄、性别以及健康状态,作为用户画像,用于对用户的健康状态进行描述。
CN202310979723.XA 2023-08-07 2023-08-07 一种健康数据采集及智能分析方法 Active CN116705337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310979723.XA CN116705337B (zh) 2023-08-07 2023-08-07 一种健康数据采集及智能分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310979723.XA CN116705337B (zh) 2023-08-07 2023-08-07 一种健康数据采集及智能分析方法

Publications (2)

Publication Number Publication Date
CN116705337A CN116705337A (zh) 2023-09-05
CN116705337B true CN116705337B (zh) 2023-10-27

Family

ID=87841770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310979723.XA Active CN116705337B (zh) 2023-08-07 2023-08-07 一种健康数据采集及智能分析方法

Country Status (1)

Country Link
CN (1) CN116705337B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988165A (zh) * 2021-10-22 2022-01-28 北京京东振世信息技术有限公司 数据采集方法、装置、电子设备和存储介质
CN117150283B (zh) * 2023-10-31 2024-01-12 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种基于大数据分析的突发环境事件安全预警方法
CN117332283B (zh) * 2023-12-01 2024-03-05 山东康源堂药业股份有限公司 一种中药材生长信息采集分析方法及系统
CN117390297B (zh) * 2023-12-13 2024-02-27 天津和光同德科技股份有限公司 一种大规模人才智库信息优化匹配方法
CN117454120B (zh) * 2023-12-20 2024-03-15 山西思极科技有限公司 电力通信系统数据的采集分析方法
CN117542536B (zh) * 2024-01-10 2024-04-12 中国人民解放军海军青岛特勤疗养中心 一种基于体检数据的智能护理方法及系统
CN117612644B (zh) * 2024-01-23 2024-04-09 上海凌泽信息科技有限公司 一种空气安全评价方法及系统
CN117708139B (zh) * 2024-02-05 2024-05-03 北京珺安惠尔健康科技有限公司 一种数字化健康数据库优化存储检索方法
CN117789999B (zh) * 2024-02-27 2024-05-03 济宁医学院附属医院 一种医疗健康大数据优化采集方法
CN117877750B (zh) * 2024-03-13 2024-05-17 北京七心云科技有限公司 一种基于物联网的智慧养老服务管理系统
CN117932311B (zh) * 2024-03-21 2024-05-31 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法
CN118016240B (zh) * 2024-04-09 2024-06-21 西安澎湃跃动电子科技有限公司 一种基于大数据的身体健康评估系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147935A (zh) * 2018-07-19 2019-01-04 山东和合信息科技有限公司 基于人体特征采集识别技术的健康数据平台
CN110363387A (zh) * 2019-06-14 2019-10-22 平安科技(深圳)有限公司 基于大数据的画像分析方法、装置、计算机设备及存储介质
CN112185561A (zh) * 2020-09-28 2021-01-05 平安医疗健康管理股份有限公司 用户画像的生成方法、装置和计算机设备
CN112598090A (zh) * 2021-03-08 2021-04-02 北京冠新医卫软件科技有限公司 健康画像的方法、装置、设备和系统
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备
CN114496264A (zh) * 2022-04-14 2022-05-13 深圳市瑞安医疗服务有限公司 基于多维数据的健康指数分析方法、装置、设备及介质
CN115130006A (zh) * 2022-08-04 2022-09-30 北京富通智康科技有限公司 一种基于健康管理标签的用户画像方法
CN115206523A (zh) * 2022-08-10 2022-10-18 重庆乾坤济实业集团有限公司 一种健康管理评估系统及其方法
CN115619245A (zh) * 2022-08-18 2023-01-17 国家计算机网络与信息安全管理中心 一种基于数据降维方法的画像构建和分类方法及系统
CN115798724A (zh) * 2023-02-13 2023-03-14 深圳市双佳医疗科技有限公司 一种基于人体无创采集数据的人体指标异常分析方法
CN116344050A (zh) * 2023-03-27 2023-06-27 华中科技大学同济医学院附属协和医院 一种基于多维度健康管理模型的评测方法
CN116344046A (zh) * 2023-03-06 2023-06-27 国科大杭州高等研究院 基于多组学数据的个体健康状态内稳性的量化方法
CN116431975A (zh) * 2023-06-12 2023-07-14 陕西巨人商务信息咨询有限公司 一种数据中心的环境监测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380497B2 (en) * 2014-02-13 2019-08-13 Conduent Business Services, Llc Methods and systems for analyzing healthcare data
US10599953B2 (en) * 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
EP3847612A4 (en) * 2018-09-04 2022-06-01 3M Innovative Properties Company VISUALIZATION OF SOCIAL HEALTH DETERMINANTS
CN111180038B (zh) * 2018-11-12 2022-03-11 厦门智汇权科技有限公司 一种基于中医理论的多维度大健康指导系统
US20220068445A1 (en) * 2020-08-31 2022-03-03 Nec Laboratories America, Inc. Robust forecasting system on irregular time series in dialysis medical records

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147935A (zh) * 2018-07-19 2019-01-04 山东和合信息科技有限公司 基于人体特征采集识别技术的健康数据平台
CN110363387A (zh) * 2019-06-14 2019-10-22 平安科技(深圳)有限公司 基于大数据的画像分析方法、装置、计算机设备及存储介质
WO2020248843A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 基于大数据的画像分析方法、装置、计算机设备及存储介质
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备
CN112185561A (zh) * 2020-09-28 2021-01-05 平安医疗健康管理股份有限公司 用户画像的生成方法、装置和计算机设备
CN112598090A (zh) * 2021-03-08 2021-04-02 北京冠新医卫软件科技有限公司 健康画像的方法、装置、设备和系统
CN114496264A (zh) * 2022-04-14 2022-05-13 深圳市瑞安医疗服务有限公司 基于多维数据的健康指数分析方法、装置、设备及介质
CN115130006A (zh) * 2022-08-04 2022-09-30 北京富通智康科技有限公司 一种基于健康管理标签的用户画像方法
CN115206523A (zh) * 2022-08-10 2022-10-18 重庆乾坤济实业集团有限公司 一种健康管理评估系统及其方法
CN115619245A (zh) * 2022-08-18 2023-01-17 国家计算机网络与信息安全管理中心 一种基于数据降维方法的画像构建和分类方法及系统
CN115798724A (zh) * 2023-02-13 2023-03-14 深圳市双佳医疗科技有限公司 一种基于人体无创采集数据的人体指标异常分析方法
CN116344046A (zh) * 2023-03-06 2023-06-27 国科大杭州高等研究院 基于多组学数据的个体健康状态内稳性的量化方法
CN116344050A (zh) * 2023-03-27 2023-06-27 华中科技大学同济医学院附属协和医院 一种基于多维度健康管理模型的评测方法
CN116431975A (zh) * 2023-06-12 2023-07-14 陕西巨人商务信息咨询有限公司 一种数据中心的环境监测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Portrait for Operating Condition of Power Transformers from The Perspective of Multi- Dimensional Capabilities;Yangyang Chen et al;International Conference on High Voltage Engineering and Applications;第1-4页 *
突发公共卫生事件情境下在线健康社区用户画像与分群研究;王帅;《情报科学》;第第40卷卷(第第6期期);第98-107页 *

Also Published As

Publication number Publication date
CN116705337A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN116705337B (zh) 一种健康数据采集及智能分析方法
CN113627518B (zh) 利用迁移学习实现神经网络脑电情感识别模型的方法
Yaman et al. Comparison of bagging and boosting ensemble machine learning methods for automated EMG signal classification
CN108597601B (zh) 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
CN106446765B (zh) 一种基于多维生理大数据深度学习的健康状态评价系统
CN108392211A (zh) 一种基于多信息融合的疲劳检测方法
CN111540471A (zh) 一种基于用户健康数据的健康状态跟踪及预警方法和系统
CN111493828A (zh) 基于全卷积网络的序列到序列的睡眠障碍检测方法
KR102134154B1 (ko) 1-d cnn 기반의 uwb 호흡 데이터 패턴 인식 시스템
Yang Medical multimedia big data analysis modeling based on DBN algorithm
CN112509696A (zh) 基于卷积自编码器高斯混合模型的健康数据检测方法
CN113593697B (zh) 一种基于呼吸气味判断疾病的系统、设备及介质
CN111370124A (zh) 一种基于面手部识别和大数据的健康分析系统及方法
CN112869717B (zh) 一种基于bl-cnn的脉搏特征识别分类系统及方法
CN110916672A (zh) 一种基于一维卷积神经网络的老年人日常活动监测方法
CN113892909B (zh) 一种基于认知状态的慢性疾病智能筛查系统
CN115633957A (zh) 一种基于高阶和分数低阶统计量的血糖预测方法及系统
CN111466877B (zh) 一种基于lstm网络的氧减状态预测方法
CN114847968A (zh) 一种基于长短期记忆网络的脑电信号睡眠分期方法
CN117877736B (zh) 基于机器学习的智能戒指异常健康数据预警方法
CN118141377B (zh) 患者的负性情绪监测系统及方法
Begum et al. Multi-scale entropy analysis and case-based reasoning to classify physiological sensor signals
CN117338313B (zh) 基于堆叠集成技术的多维度特征脑电信号识别方法
CN117224095B (zh) 一种基于智能手表健康监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant