CN117373688A - 慢性病数据处理方法、装置、电子设备和存储介质 - Google Patents

慢性病数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117373688A
CN117373688A CN202311466582.8A CN202311466582A CN117373688A CN 117373688 A CN117373688 A CN 117373688A CN 202311466582 A CN202311466582 A CN 202311466582A CN 117373688 A CN117373688 A CN 117373688A
Authority
CN
China
Prior art keywords
chronic disease
sample
prediction model
attribute
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311466582.8A
Other languages
English (en)
Other versions
CN117373688B (zh
Inventor
肖士诚
李梦阁
陈一龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bioland Technology Shenzhen Co ltd
Original Assignee
Bioland Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bioland Technology Shenzhen Co ltd filed Critical Bioland Technology Shenzhen Co ltd
Priority to CN202311466582.8A priority Critical patent/CN117373688B/zh
Publication of CN117373688A publication Critical patent/CN117373688A/zh
Application granted granted Critical
Publication of CN117373688B publication Critical patent/CN117373688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种慢性病数据处理方法、装置、电子设备和存储介质,该方法包括:将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;对所述属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。本公开提高了复杂慢性病数据处理的效率性和准确性。

Description

慢性病数据处理方法、装置、电子设备和存储介质
技术领域
本公开涉及慢性病数据处理技术领域,尤其涉及一种慢性病数据处理方法、装置、电子设备和存储介质。
背景技术
慢性病是指持续时间较长、进展缓慢、病情波动较小的疾病。慢性病的发病率逐年上升,已成为全球性的公共卫生问题。据统计,慢性病已经成为全球死亡原因的主要因素之一,其对社会和经济的影响也越来越大。对于慢性病的管理,传统的方法主要是依靠医生的经验和专业知识,通过患者的病史、体检和实验室检查等手段来进行诊断和治疗。然而,这种方法存在着许多问题,如数据量庞大、复杂性高、决策效率低下等。因此,为了提高慢性病的管理效率和准确性,需要引入新的技术手段来处理和管理慢性病数据。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种慢性病数据处理方法、装置、电子设备和存储介质,提高了复杂慢性病数据处理的效率性和准确性。
第一方面,本公开实施例提供了一种慢性病数据处理方法,该方法包括:
将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;
对所述属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
第二方面,本公开实施例还提供了一种慢性病数据处理装置,该装置包括:
第一获得模块,用于将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;
最佳属性特征获得模块,用于对属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
最佳降维属性特征获得模块,用于根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
输出模块,用于将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的慢性病数据处理方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的慢性病数据处理方法。
本公开实施例提供的一种慢性病数据处理方法,将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征和预测标签;之后将属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;再将最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;最后将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。本发明将改进决策树算法与跳层连接网络结合构建的慢性病预测模型可以处理和分析大量的、复杂的慢性病数据,并快速地提取关键属性特征进行分类和预测,大大提高了慢性病数据处理的效率和准确性,减少了人力和时间的浪费,并为医生提供更准确的病情评估和治疗建议,为慢性病患者提供更好的医疗服务。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例中的一种慢性病数据处理方法的流程图;
图2为本公开实施例中的一种慢性病数据处理装置的结构示意图;
图3为本公开实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
传统的慢性病诊疗主要是依靠医生的经验和专业知识,通过患者的病史、体检和实验室检查等手段来进行诊断和治疗。然而,这种方法存在着许多问题,如数据量庞大、复杂性高、决策效率低下、存在主观性和片面性的等问题。
近年来,随着机器学习技术的发展,机器学习在医疗领域的应用也越来越广泛。现有的机器学习是简单的神经网络训练的模型,不适于应用复杂的慢性病数据,且效率和准确性也不高,因此,本发明提出了一种慢性病数据处理方法。
图1为本公开实施例中的一种慢性病数据处理方法的流程图。该方法可以由慢性病数据处理装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中。如图1所示,该方法具体可以包括如下步骤:
S110、将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;
具体的,原始慢性病数据为收集和整理的慢性病患者的相关数据,包括身高、体重、血压等生理指标、病史记录、医学图像等信息。属性特征是指通过改进决策树算法提取的身高、体重、血压、病例的特征;预测标签是指通过改进决策树算法预测的身高、体重、血压、病例等属性特征对应的慢性病的患病概率、或者是慢性病风险等级,或者是慢性病的病种类型所对应的编码向量,例如二进制向量。
在将原始慢性病数据输入训练好的慢性病预测模型之前,需要构建慢性病预测模型,并训练慢性病预测模型,以获得训练好的慢性病预测模型。其中慢性病预测模型包括改进决策树算法、特征选择函数、跳层连接网络和全连接网络。首先,需要获得训练好的改进决策树算法,而改进决策树算法一种基于梯度提升决策树的机器学习方法,能够有效地处理高维度、稀疏性和非线性特征的数据。
在一实例中,在训练好的慢性病预测模型中的改进决策树算法之前,包括:
基于慢性病样本数据,构建改进决策树算法的初始预测模型和初始损失函数;
针对所述慢性病样本数据中每个样本,构建样本残差函数;其中,样本包括样本特征和样本标签;
并对每个样本的每个样本特征进行特征分裂,获得分裂残差函数;
根据分裂残差函数,确定每个样本特征的重要性参数;
根据重要性参数,确定对应的样本特征作为重要属性特征,并根据重要属性特征更新初始预测模型;
根据更新后的初始预测模型对应的样本残差函数,更新初始损失函数,并使得初始损失函数的值最小,获得训练好的改进决策树算法。
可以理解,慢性病样本数据主要是为构建和训练改进决策树算法构建的数据集,其中,慢性病样本数据是基于原始慢性病数据经过预处理和标准化得到的数据。通过对原始慢性病数据的处理,更有利于改进决策树算法模型训练,提高数据处理效率。
在一实例中,所述慢性病样本数据,包括:
对原始慢性病数据进行预处理,将预处理后的原始慢性病数据进行标准化处理,获得慢性病样本数据。
具体的,将原始慢性病数据进行预处理,主要是通过去除异常值、缺失值等进行数据清洗,优选的,计算原始慢性病数据中每个数据与所有数据的均值的偏差,并将偏差超过一定阈值的数据视为异常值,将异常值进行删除或者替换处理,同时用原始慢性病数据中数据的中位数填充缺失值,获得预处理后的原始慢性病数据。
再将预处理后的原始慢性病数据进行标准化处理,具体为预处理后的原始慢性病数据缩放到均值为0,方差为1的标准正态分布以得到慢性病样本数据。
本发明实施例通过对原始慢性病数据进行预处理和标准化,得到慢性病样本数据,可以确保慢性病样本数据的质量和一致性,方便后续的数据处理,提高数据处理的效率。
在得到慢性病样本数据后,可以构建慢性病样本数据中的每个样本(患者)的样本特征和样本标签,样本特征与属性特征是一样的,只是数据来源不同,样本特征来源于慢性病样本数据,样本特征来源于原始慢性病数据。样本标签为与预测标签是一样的,只是数据来源不同,样本标签来源于慢性病样本数据,预测标签来源于原始慢性病数据。
具体的,假设慢性病样本数据包含N个样本,每个样本有M个样本特征和样本标签yi,第i个样本的样本特征xi为:
xi=(xi1,xi2,...,xiM)
基于样本特征构建初始预测模型,其表达式为:
其中,ft(x)为初始预测模型,K是改进决策树算法中节点树的数量,htk(x)是第K个节点树对样本x的预测标签。
在基于每个样本的样本特征和样本标签构建初始损失函数,其表达式为:
其中,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签。
在完成改进决策树算法的初始预测模型和初始损失函数的构建后,需要对初始预测模型进行更新,通过对每个样本的样本特征进行迭代更新,进而更新整个初始预测模型。
具体的,基于样本特征和初始预测模型的预测标签构建样本残差函数,其表达式为:
rti=yi-ft(xi)
rti为每个样本在当前节点的样本残差,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签;
再对第i个样本xi的样本特征进行分裂,获得分裂残差函数,其表达式为:
其中,Σ(1-ft-1(xi))(ft-1(xi))表示第i个样本xi在模型ft-1(xi)下的预测概率,Qi是分裂残差函数,表示t-1更新到t时迭代过程中带来的误差,rti是样本xi在当前节点的样本残差;
根据分裂残差函数,计算第i个样本xi每个样本特征的重要性参数,重要性参数的表达式为:
其中,Ej为每个样本特征的重要性参数,splittk是第k个节点树在第t次迭代时分裂的样本特征集合,ΔLtk是第k个节点树在第t次分裂前后初始损失函数的变化量。
在得到重要性参数后,在所有重要性参数中确定最优的重要性参数,将最优的重要性参数所对应的样本特征,确定为重要样本特征,
选择重要样本特征作为新的样本特征,并利用重要样本特征更新初始预测模型,在获得更新后的初始预测模型后,利用更新后的初始预测模型对样本进行预测,获得新的预测结果,将新的预测结果输入样本参数函数,获得新的样本残差值,将新的样本残差值输入初始损失函数,如此反复操作,直到使初始损失函数的值最小,得到最佳的初始预测模型参数,从而得到训练好的改进决策树算法。
具体来说,这个过程可以分为以下几个步骤:首先,我们使用初始预测模型对样本进行预测,并计算每个样本的残差,然后,我们根据重要样本特征选择(当前节点特征)最佳的特征来更新初始预测模型。这个特征通常是能够最好地区分样本类别的特征。接下来,我们使用更新后的模型对样本进行预测,并计算新的残差。这个残差表示更新后的模型对样本预测的误差。接着,我们根据新的残差来更新初始损失函数。这个过程旨在调整模型的参数,使得损失函数的值最小化。最后,我们重复以上步骤,不断更新模型和损失函数,直到损失函数的值达到一个可接受的水平为止。这样,我们就能够获得训练好的改进决策树算法。通过这个过程,我们利用重要样本特征和对应的残差函数来逐步改进初始预测模型,以提高模型的准确性和性能。这种方法可以在迭代的过程中不断优化模型,并找到最佳的模型参数,从而得到训练好的改进决策树算法。
在获得了训练好的改进决策树算法后,将原始慢性病数据输入训练好的改进决策树算法可以输出属性特征和属性特征对应的预测标签。
本发明中通过改进决策树算法、能够自动地学习和提取慢性病数据中的关键特征,并进行分类和预测,为医生提供更准确的病情评估和治疗建议。相比传统的方法,这种机器学习方法在处理复杂数据和提高预测准确性方面具有明显优势,有望成为未来慢性病管理的重要手段。
在上述实施例的基础上,在构建完改进决策树算法后,还需要构建特征选择函数,具体的,根据样本数据、初始损失函数和初始预测模型,构建特征选择函数,其中所述特征选择函数的表达式为:
其中,K(x)为特征选择函数,f0(x)为初始预测模型的初始残差,N为样本数量,xi为第i个样本,yi是第i个样本xi的样本标签,σ表示第i个样本xi的样本特征的方差,τ为超参数,ft(xi)第t次迭代时改进决策树算法对第i个样本xi的预测标签。
具体的,f0(x)为初始预测模型ft(x)在没迭代前,t=0时,初始预测模型的初始残差,可表达为:
其中,N是训练样本的样本数量,yi是样本xi的样本标签。
在根据初始模型的初始残差,样本数据以及初始损失函数确定特征选择函数,在利用特征选择函数计算最佳样本特征。通过特征选择函数可以选择出最佳样本特征,提高数据处理的准确性。
在构建完特征选择函数后,将训练好的改进决策树算法、特征选择函数、跳层连接网络以及全连接网络进行融合并整体进行训练,获得训练好的慢性病预测模型。
在上述实施例的基础上,将改进决策树算法、特征选择函数、跳层连接网络以及全连接网络进行融合,获得初始慢性病预测模型,并根据基于所述分裂残差函数、样本数量和重要性参数构建慢性病预测模型的目标损失函数,采用梯度下降优化算法优化目标损失函数,使得目标损失函数的值最小,获得初始慢性病预测模型;其中,所述目标损失函数的表达式为:
其中,Qi是分裂残差函数,N为样本个数,Ej为每个属性特征的重要性参数。
具体的,在得到由改进决策树算法、特征选择函数、跳层连接网络以及全连接网络构建的初始慢性病预测模型后,还需要对初始慢性病预测模型进行训练,通过使目标损失函数的值最小,将改进决策树算法、特征选择函数、跳层连接网络以及全连接网络的达到一个合理化的水平,进而使初始慢性病预测模型的模型参数达到一个合理化,获得比较合理的初始慢性病预测模型。
在一实施例中,所述获得初始慢性病预测模型之后,包括:
采用交叉验证对初始慢性病预测模型进行评估和调优,获得训练好的慢性病预测模型。
其中,交叉验证是一种用于评估模型性能和选择模型参数的统计学方法。具体而言,交叉验证将数据集分为N个子集(通常为5或10),每次将其中一个子集作为验证集,剩下的N-1个子集作为训练集。然后,重复进行N次训练和验证,每次使用不同的子集作为验证集。最后,将N次验证的结果进行平均,得到最终的模型性能评估指标。交叉验证的目的是通过多次验证来减小模型评估的随机性,判断模型是否过拟合或欠拟合,选择最佳的模型参数,提供更可靠和稳定的模型性能评估结果。
可以理解的是,通过梯度下降优化算法得到的初始慢性病预测模型并不是最优模型,还需要对初始慢性病预测模型进行调优,获得更精确的慢性病预测模型,即采用交叉验证对初始慢性病预测模型进行评估和调优,获得训练好的慢性病预测模型。本实施例通过交叉验证方法可以获得更可靠和稳定的慢性病预测模型(训练好的慢性病预测模型),其慢性病预测模型的参数最佳,有利于慢性病数据的处理的准确性。
S120、对所述属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
可以理解的,在上述实例的基础上,在得到了训练好的慢性病预测模型后,可以将原始慢性病数据输到改进决策算法后,可以输出属性特征,将属性特征进行融合,融合后的属性特征输入经过训练好的慢性病预测模型中特征选择函数对属性特征进行卷积提取,获得最佳属性特征。通过特征选择函数选择最佳属性特征,避免了大量属性特征的后续处理,提高了数据处理效率,并提高了属性特征对应的预测标签的准确性。
S130、根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
其中,跳层连接网络是一种深度神经网络,能够学习和提取数据的高级抽象特征。在上述实例的基础上,得到的最佳属性特征是高维度的特征,需要利用跳层连接网络对高维度的特征进行降维处理,提高慢性病预测模型处理特征的速度,节约算力。
S140、将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征及其对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
进一步,在上述实例的基础上,在得到了训练好的慢性病预测模型后,将基于原始慢性病数据获得的融合后的最佳降维属性特征通过训练好的慢性病预测模型中全连接网络进行输出,输出最佳降维属性特征及其对应的预测标签,并将最佳慢性病预测模型降维属性特征对应的预测标签用于确定慢性病预测结果。
具体的,预测标签为慢性病的患病概率、或者是慢性病风险等级,或者是慢性病的病种类型对应的编码向量,具体可以是二进制向量;慢性病预测结果可以为慢性病的患病概率、或者是慢性病风险等级,或者是慢性病的病种类型,将最佳降维属性特征对应的二进制向量(预测标签)可以用于确定慢性病预测结果,例如,每个病种类型都被表示为一个二进制向量,向量的长度等于所有病种类型的总数。对于每个样本,只有对应的病种类型对应的位置为1,其他位置为0。例如,假设有三种慢性病病种类型:高血压、糖尿病和肥胖症。使用one-hot编码,高血压可以表示为[1,0,0],糖尿病可以表示为[0,1,0],肥胖症可以表示为[0,0,1]。如果一个样本同时患有高血压和肥胖症,那么对应的标签向量可以表示为[1,0,1]。通过one-hot编码,每个病种类型都被独立地表示为一个二进制特征向量,使得慢性病预测模型能够更好处理多类别分类问题。慢性病预测模型可以根据输入特征与对应的one-hot编码标签之间的关联进行学习,并对新原始慢性病数据预测的慢性病的类型。
本发明实施例通过将原始慢性病数据输入到慢性病预测模型中的改进决策树算法中,输出属性特征及其对应的预测标签;对所有属性特征融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;将融合后的最佳降维属性特征基于通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。本发明将改进决策树算法与跳层连接网络结合慢性病预测模型可以处理和分析大量的、复杂的慢性病数据,并快速地提取关键属性特征进行分类和预测,大大提高了慢性病数据处理的效率和准确性,减少了人力和时间的浪费,并为医生提供更准确的病情评估和治疗建议,为慢性病患者提供更好的医疗服务。
图2为本公开实施例中的一种慢性病数据处理装置的结构示意图。如图2所示:该装置包括:
第一获得模块210,用于将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征和预测标签;
最佳属性特征获得模块220,用于对属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
最佳降维属性特征获得模块230,用于根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
输出模块240,用于将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
第一获得模块210,还包括:训练好的慢性病预测模型构建模块,训练好的慢性病预测模型构建模块用于基于慢性病样本数据,构建改进决策树算法的初始预测模型和初始损失函数;
针对所述慢性病样本数据中每个样本,构建样本残差函数;其中,样本包括样本特征和样本标签;
并对每个样本的每个样本特征进行特征分裂,获得分裂残差函数;
根据分裂残差函数,确定每个样本特征的重要性参数;
根据重要性参数,确定对应的样本特征作为重要样本特征,并根据重要样本特征更新初始预测模型;
根据更新后的初始预测模型对应的样本残差函数,更新初始损失函数,并使得初始损失函数的值最小,获得训练好的改进决策树算法。
其中,所述初始预测模型的表达式为:
其中,ft(x)为初始预测模型,K是改进决策树算法中节点树的数量,htk(x)是第K个节点树对样本x的预测标签;
所述初始损失函数的表达式为:
其中,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签;
所述样本残差函数的表达式为:
rti=yi-ft(xi)
其中,rti为每个样本在当前节点的样本残差,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签;
所述分裂残差函数的表达式为:
其中,∑(1-ft-1(xi))(ft-1(xi))表示第i个样本xi在模型ft-1(xi)下的预测概率,Qi是分裂残差函数,表示t-1更新到t时迭代过程中带来的误差,rti是第i个样本xi在当前节点的样本残差;
所述重要性参数的表达式为:
其中,Ej为每个属性特征的重要性参数,splittk是第k个节点树在第t次迭代时分裂的样本特征集合,ΔLtk是第k个节点树在第t次分裂前后初始损失函数的变化量。
训练好的慢性病预测模型构建模块,还用于对原始慢性病数据进行预处理,将预处理后的原始慢性病数据进行标准化处理,获得慢性病样本数据。
在一实例中,训练好的慢性病预测模型构建模块,还用于构建所述特征选择函数包括:
根据样本数据、初始损失函数和初始预测模型,构建特征选择函数,其中所述特征选择函数的表达式为:
其中,K(x)为特征选择函数,f0(x)为初始预测模型的初始残差,N为样本数量,xi为第i个样本,yi是样本xi的样本标签,σ表示样本的样本特征的方差,τ为超参数,ft(xi)第t次迭代时改进决策树算法对第i个样本xi的预测标签。
训练好的慢性病预测模型构建模块,还用于基于所述分裂残差函数、样本数量和重要性参数构建慢性病预测模型的目标损失函数;
采用梯度下降优化算法优化目标损失函数,使得目标损失函数的值最小,获得初始慢性病预测模型;其中,所述目标损失函数的表达式为:
其中,Qi表示分裂残差函数,N为样本个数,Ej为每个属性特征的重要性参数。
并采用交叉验证对初始慢性病预测模型进行评估和调优,获得训练好的慢性病预测模型。
本公开实施例提供的慢性病数据处理装置,可执行本公开方法实施例所提供的慢性病数据处理方法中的步骤,可获得相同的有益效果,此处不再赘述。
图3为本公开实施例中的一种电子设备的结构示意图。下面具体参考图3,其示出了适于用来实现本公开实施例中的电子设备500的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图3所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理以实现如本公开所述的实施例的方法。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上所述的车辆控制方法。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;对所述属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
可选的,当上述一个或者多个程序被该电子设备执行时,该电子设备还可以执行上述实施例所述的其他步骤。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种慢性病数据处理方法,其特征在于,所述方法包括:
将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;
对所述属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
2.根据权利要求1所述的方法,其特征在于,在训练好的慢性病预测模型中的改进决策树算法之前,还包括:
基于慢性病样本数据,构建改进决策树算法的初始预测模型和初始损失函数;
针对所述慢性病样本数据中每个样本,构建样本残差函数;其中,样本包括样本特征和样本标签;
并对每个样本的每个样本特征进行特征分裂,获得分裂残差函数;
根据分裂残差函数,确定每个样本特征的重要性参数;
根据重要性参数,确定对应的样本特征作为重要样本特征,并根据重要样本特征更新初始预测模型;
根据更新后的初始预测模型对应的样本残差函数,更新初始损失函数,并使得初始损失函数的值最小,获得训练好的改进决策树算法。
3.根据权利要求2所述的方法,其特征在于,所述慢性病样本数据,包括:
对原始慢性病数据进行预处理,将预处理后的原始慢性病数据进行标准化处理,获得慢性病样本数据。
4.根据权利要求2所述的方法,其特征在于,所述初始预测模型的表达式为:
其中,ft(x)为初始预测模型,K是改进决策树算法中节点树的数量,htk(x)是第K个节点树对样本x的预测标签;
所述初始损失函数的表达式为:
其中,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签;
所述样本残差函数的表达式为:
rti=yi-ft(xi)
其中,rti为每个样本在当前节点的样本残差,yi是第i个样本xi的样本标签,ft(xi)第t次迭代时初始预测模型对第i个样本xi的预测标签;
所述分裂残差函数的表达式为:
其中,∑(1-ft-1(xi))(ft-1(xi))表示第i个样本xi在模型ft-1(xi)下的预测概率,Qi是分裂残差函数,表示t-1更新到t时迭代过程中带来的误差,rti是样本xi在当前节点的样本残差;
所述重要性参数的表达式为:
其中,Ej为每个样本特征的重要性参数,splittk是第k个节点树在第t次迭代时分裂的样本特征集合,ΔLtk是第k个节点树在第t次分裂前后初始损失函数的变化量。
5.根据权利要求4所述的方法,其特征在于,所述特征选择函数包括:
根据样本数据、初始损失函数和初始预测模型,构建特征选择函数,其中所述特征选择函数的表达式为:
其中,K(x)为特征选择函数,f0(x)为初始预测模型的初始残差,N为样本数量,xi为第i个样本,yi是第i个样本xi的样本标签,σ表示第i个样本xi的样本特征的方差,τ为超参数,ft(xi)第t次迭代时改进决策树算法对第i个样本xi的预测标签。
6.根据权利要求5所述的方法,其特征在于,还包括:
基于所述分裂残差函数、样本数量和重要性参数构建慢性病预测模型的目标损失函数;
采用梯度下降优化算法优化目标损失函数,使得目标损失函数的值最小,获得初始慢性病预测模型;其中,所述目标损失函数的表达式为:
其中,Qi表示分裂残差函数,N为样本个数,Ej为每个样本特征的重要性参数。
7.根据权利要求5所述的方法,其特征在于,所述获得初始慢性病预测模型之后,包括:
采用交叉验证对初始慢性病预测模型进行评估和调优,获得训练好的慢性病预测模型。
8.一种慢性病数据处理装置,其特征在于,包括:
第一获得模块,用于将原始慢性病数据输入训练好的慢性病预测模型中的改进决策树算法,获得属性特征及其对应的预测标签;
最佳属性特征获得模块,用于对属性特征进行融合,将融合后的属性特征通过训练好的慢性病预测模型中特征选择函数进行卷积提取,获得最佳属性特征;
最佳降维属性特征获得模块,用于根据最佳属性特征通过训练好的慢性病预测模型中的跳层连接网络,获得最佳降维属性特征;
输出模块,用于将融合后的最佳降维属性特征通过训练好的慢性病预测模型中的全连接网络输出最佳降维属性特征对应的预测标签,所述最佳降维属性特征对应的预测标签用于确定慢性病预测结果。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202311466582.8A 2023-11-07 2023-11-07 慢性病数据处理方法、装置、电子设备和存储介质 Active CN117373688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311466582.8A CN117373688B (zh) 2023-11-07 2023-11-07 慢性病数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311466582.8A CN117373688B (zh) 2023-11-07 2023-11-07 慢性病数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN117373688A true CN117373688A (zh) 2024-01-09
CN117373688B CN117373688B (zh) 2024-06-04

Family

ID=89392786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311466582.8A Active CN117373688B (zh) 2023-11-07 2023-11-07 慢性病数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN117373688B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
CN111145902A (zh) * 2019-12-06 2020-05-12 江苏大学 一种基于改进人工神经网络的哮喘病诊断方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
US20200211712A1 (en) * 2018-12-28 2020-07-02 China Medical University Hospital Computer-aided recognition system for treatment response of rectal cancer, and its method and computer program product
CN111489827A (zh) * 2020-04-10 2020-08-04 吉林大学 一种基于关联决策树的甲状腺疾病预测建模方法
CN111968748A (zh) * 2020-08-21 2020-11-20 南通大学 一种糖尿病并发症预测模型的建模方法
CN112652361A (zh) * 2020-12-29 2021-04-13 中国医科大学附属盛京医院 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN113796852A (zh) * 2021-09-30 2021-12-17 太原理工大学 一种基于梯度提升决策树模型算法的糖尿病足预测方法
US20220044548A1 (en) * 2018-11-27 2022-02-10 Koninklijke Philips N.V. Predicting critical alarms
CN114974556A (zh) * 2022-03-24 2022-08-30 天津科技大学 一种基于疾病关联学习和疾病语义抽象的疾病预诊断方法
CN115602325A (zh) * 2022-09-30 2023-01-13 易联众云链科技(福建)有限公司(Cn) 一种基于多模型算法的慢性病风险评估方法及其系统
CN116153495A (zh) * 2022-11-29 2023-05-23 厦门大学 一种食管癌患者免疫治疗预后生存预测方法
US20230260651A1 (en) * 2022-02-17 2023-08-17 Wistron Corp. Method, electronic system, and computer program product for establishing decision tree for disease prediction
CN116759067A (zh) * 2023-05-17 2023-09-15 南京航空航天大学 一种基于重建和Tabular数据的肝病诊断方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
US20220044548A1 (en) * 2018-11-27 2022-02-10 Koninklijke Philips N.V. Predicting critical alarms
US20200211712A1 (en) * 2018-12-28 2020-07-02 China Medical University Hospital Computer-aided recognition system for treatment response of rectal cancer, and its method and computer program product
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
CN111145902A (zh) * 2019-12-06 2020-05-12 江苏大学 一种基于改进人工神经网络的哮喘病诊断方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111489827A (zh) * 2020-04-10 2020-08-04 吉林大学 一种基于关联决策树的甲状腺疾病预测建模方法
CN111968748A (zh) * 2020-08-21 2020-11-20 南通大学 一种糖尿病并发症预测模型的建模方法
CN112652361A (zh) * 2020-12-29 2021-04-13 中国医科大学附属盛京医院 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN113796852A (zh) * 2021-09-30 2021-12-17 太原理工大学 一种基于梯度提升决策树模型算法的糖尿病足预测方法
US20230260651A1 (en) * 2022-02-17 2023-08-17 Wistron Corp. Method, electronic system, and computer program product for establishing decision tree for disease prediction
CN114974556A (zh) * 2022-03-24 2022-08-30 天津科技大学 一种基于疾病关联学习和疾病语义抽象的疾病预诊断方法
CN115602325A (zh) * 2022-09-30 2023-01-13 易联众云链科技(福建)有限公司(Cn) 一种基于多模型算法的慢性病风险评估方法及其系统
CN116153495A (zh) * 2022-11-29 2023-05-23 厦门大学 一种食管癌患者免疫治疗预后生存预测方法
CN116759067A (zh) * 2023-05-17 2023-09-15 南京航空航天大学 一种基于重建和Tabular数据的肝病诊断方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIAOMING YUAN等: "A High Accuracy Integrated Bagging-Fuzzy-GBDT Prediction Algorithm for Heart Disease Diagnosis", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》, 13 August 2019 (2019-08-13) *
张大可: "基于机器学习 的肠道微生物对宿主年龄和性别分类的预测", 《中国优秀硕士学位论文全文数据库 基础科学辑》, 15 February 2023 (2023-02-15) *
徐安: "基于机器学习的慢性疾病预测关键技术研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 January 2020 (2020-01-15) *
曲文龙等: "基于深度置信网络与梯度提升决策树的糖尿病检测方法", 《吉林师范大学学报(自然科学版)》, vol. 41, no. 3, 31 August 2020 (2020-08-31) *
胡玉杰: "慢性疾病管理系统的设计与实现", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 January 2022 (2022-01-15) *

Also Published As

Publication number Publication date
CN117373688B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN117253614B (zh) 基于大数据分析的糖尿病风险预警方法
WO2021139279A1 (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN108459955B (zh) 基于深度自编码网络的软件缺陷预测方法
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN111243736A (zh) 一种生存风险评估方法及系统
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN112560948B (zh) 数据偏差下的眼底图分类方法及成像方法
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN115659244A (zh) 故障预测方法、装置及存储介质
CN113743461B (zh) 无人机集群健康度评估方法及装置
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN113516097A (zh) 一种基于改进EfficentNet-V2的植物叶片疾病识别方法
CN109934352B (zh) 智能模型的自动进化方法
CN117373688B (zh) 慢性病数据处理方法、装置、电子设备和存储介质
CN116805534A (zh) 基于弱监督学习的疾病分型方法、系统、介质及设备
CN116842174A (zh) 基于网络数据的农业资源数据库平台搭建方法
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN118072976B (zh) 基于数据分析的儿童呼吸道疾病预测系统及方法
CN118537144B (zh) 一种农业保险核保风险预测方法及系统
CN118468061B (zh) 一种算法自动匹配及参数优化方法及系统
CN118193855B (zh) 一种在线应答方法、装置及计算机设备
Wang Logistic Regression for Stroke Prediction: An Evaluation of its Accuracy and Validity
CN116186251A (zh) 一种基于混合二叉神经树的恶意url检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant