CN113113140B - 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质 - Google Patents

基于自监督dnn的糖尿病预警方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113113140B
CN113113140B CN202110359319.3A CN202110359319A CN113113140B CN 113113140 B CN113113140 B CN 113113140B CN 202110359319 A CN202110359319 A CN 202110359319A CN 113113140 B CN113113140 B CN 113113140B
Authority
CN
China
Prior art keywords
dnn
data set
data
processing
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110359319.3A
Other languages
English (en)
Other versions
CN113113140A (zh
Inventor
林格
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110359319.3A priority Critical patent/CN113113140B/zh
Publication of CN113113140A publication Critical patent/CN113113140A/zh
Application granted granted Critical
Publication of CN113113140B publication Critical patent/CN113113140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了基于自监督DNN的糖尿病预警方法。包括:首先对原始身体指标数据进行数据预处理,包括标签处理、数值化处理、标准化处理、缺失值处理、特征值选择处理;其次设计三个深度神经网络,以处理后的数据作为输入进行模型分批迭代训练;然后将待预测用户的原始身体指标数据进行上述数据处理步骤,输入训练好的模型,进行糖尿病患病风险可视化的预警。本发明还公开了基于自监督DNN的糖尿病预警系统、计算机设备及计算机可读存储介质。本发明的自监督学习的方法,可少量的标签数据挖掘用户健康指标的深度关联,设计的模型可与其它预测任务进行适应,具有可靠性、广泛性等优点。

Description

基于自监督DNN的糖尿病预警方法、系统、设备及存储介质
技术领域
本发明涉及人工智能、大数据医疗等领域,具体涉及基于自监督DNN的糖尿病预警方法、系统、计算机设备及计算机可读存储介质。
背景技术
近年来,我国慢性病患者人数居世界首位,如糖尿病、心血管病等慢性疾病。作为一种常见慢性疾病,糖尿病及其相关并发症是其中重要的一个部分,目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。在糖尿病患病风险的预警系统领域,传统的机器学习方法往往基于简单的树模型进行预测,缺乏对用户健康数据的复杂关联的建模,且强烈依赖大量的有标签数据进行训练。通过将近年来兴起的自监督学习策略结合深度神经网络引入至糖尿病患病风险预测,可充分利用和挖掘已有数据的隐式依赖,仅使用少量患者标签数据即可训练出准确度高、泛化性能强的预测模型。模型可对用户的各项健康指标进行智能分析,得出其患病风险预测,从而提高用户在糖尿病相关的健康管理的效率和精准性。
目前的现有技术之一,专利“一种基于CNN和模型融合的糖尿病血糖预测方法”,包括以下步骤:首先对数据进行预处理,包括空缺值的处理、定量特征的二值化和数据转换;其次,利用CNN对预处理后的数据进行特征提取。最后利用Stacking策略对xgboost、catboost和linearRegression进行模型融合。其缺点是:首先该方案往往大量依赖有标签数据,即预先知道患病用户和不患病用户,然而在现实生活中,往往由于隐私保护、数据采集成本的局限性,难以获得大量的有标签数据;其次该方案往往采用树模型进行预测,是一种基于条件判断的方法,无法探索特征在数值上的复杂关联。
目前的现有技术之二,专利“一种基于传统机器学习的糖尿病患病风险预警方法”,包括以下步骤:首先采集患病用户与不患病用户的各项身体指标数据;其次使用传统的机器学习方法如KNN、SVM等进行分类预测。其缺点是:首先该方案准确度有限,同样依赖于大量的标签;其次该方案缺乏适用性,无法针对不同的数据特性对模型的结构进行调整,无法满足对不同数据分布的预测需要。
发明内容
本发明的目的是克服现有方法的不足,提出了基于自监督DNN的糖尿病预警方法。本发明解决的主要问题:一是如何利用少量的有标签数据进行预测的问题;二是如何使预测结果与用户健康指标深度关联的问题;三是如何针对不同的数据特性进行灵活调整的问题。
为了解决上述问题,本发明提出了基于自监督DNN的糖尿病预警方法,所述方法包括:
从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集;
对所述两个原始数据集进行预处理,包括数值化处理、标准化处理、缺失值处理等,获得处理后的数据集;
以所述处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,获得筛选后的无标签的数据集和有标签的数据集;
以所述筛选后的无标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签;
设计三个深度神经网络表示为DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化;
以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络模型DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络模型DNN1(·)+DNN2(·);
以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络模型DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络模型DNN1(·)+DNN3(·);
对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络模型DNN1(·)+DNN3(·),得到待预测用户的糖尿病患病风险值;
所述糖尿病患病风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
优选地,所述从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集,具体为:
从医院获取授权体检者和患者群体的各项身体指标数据;
对于未知是否患病的用户群体,将所得到的数据整理为原始无标签的数据集;
对于确认患病或不患病的用户群体,将所得到的数据结合是否患病的标签,作为原始有标签的数据集。
优选地,所述对两个原始数据集进行预处理,包括数值化处理、标准化处理、缺失值处理等,获得处理后的数据集,具体为:
对所述两个原始数据集进行数值化处理,具体包含将类别类型的数据进行基于顺序或频率的编码;
数值化处理后进行标准化处理,具体包含将每一个特征在所有样本上进行如下归一化:
Figure GDA0003753269030000041
其中Xij代表第i个用户的第j个归一化特征,Xij代表第i个用户的第j个特征,
Figure GDA0003753269030000042
代表所有用户在j特征上的均值,σj代表所有用户在j特征上的标准差;
数值化处理后进行缺失值的处理,具体包含将缺失值填充为众数或平均数。
优选地,所述以所述处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,分别获得筛选后的数据集,具体为:
数值化处理后的两个数据集进行相同的过滤无关特征的处理;
基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征,去除该特征;
得到过滤无关特征后的两个数据集,进行相同的过滤冗余特征的处理;
基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为冗余特征,去除该特征;
获得筛选后的两个数据集。
优选地,所述以所述筛选后无标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签,具体为:
对所述筛选后的无标签的数据集进行遮蔽处理和标签化处理;
对于所有M个特征,顺序地选取每个特征作为标签,并使用其它M-1个特征作为训练集,生成了共M个子数据集,大小为N×(M-1);
对生成的M个子数据集进行规整化的处理,并在标签所对应的特征位置处补特征0,此时共有M个子数据集,每个子数据集大小为N×M。
优选地,所述设计三个深度神经网络表示为DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化,具体为:
设计深度神经网络DNN1(·),它将一个M维的身体健康指标向量映射为一个d维的用户表征,采取三层全连接层,并使用LeakyRelu作为激活函数;
设计深度神经网络DNN2(·),采取三层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个M维的健康指标向量输出,M维有一维用于损失函数的计算;
设计深度神经网络DNN3(·),采取两层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个一维的患病风险。
优选地,所述以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络模型DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络模型DNN1(·)+DNN2(·),具体为:
以所述M个子数据集作为所述深度神经网络DNN1(·)的输入,映射为表征;
深度神经网络DNN2(·)将表征重构出该用户被遮蔽的身体健康指标;
对所述深度神经网络模型DNN1(·)+DNN2(·)进行分批和迭代训练,采取最小平方均差作为损失函数;
得到训练后的深度神经网络模型DNN1(·)+DNN2(·)。
相应地,本发明还提供了基于自监督DNN的糖尿病预警系统,包括:
数据预处理单元,用于从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集;
构造训练集单元,用于将所述两个原始数据集进行预处理,包括数值化处理、标准化处理、缺失值处理等,再进行特征值选择处理,获得筛选后的数据集,再进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,用于后续的模型训练;
模型训练单元,用于所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络模型进行分批和迭代地训练,以所述筛选后的有标签的数据集输入所述训练后的深度神经网络进行预测,得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络模型的参数,得到训练好的深度神经网络模型。
风险预警显示单元,用于对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络模型,得到待预测用户的糖尿病患病风险值,并将风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基于自监督DNN的糖尿病预警方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于自监督DNN的糖尿病预警方法的步骤。
实施本发明,具有如下有益效果:
第一,本发明通过引入自监督学习的方法,更充分地利用少量的标签数据,充分地挖掘用户健康指标的深度关联,实现对用户糖尿病的患病风险的提早预测,做到疾病的提早预防;第二,本方法设计了一种适用于自监督学习特点的训练方法,为尚处空白状态的医疗大数据的自监督学习与糖尿病患病风险预警提供了具有可靠性解决方案;第三,本方法提出使用深度神经网络对糖尿病患病风险进行预测,针对其它不同的场景,可通过灵活调整深度神经网络的结构对其它预测任务进行适应,具有更强的实用性、泛化性和可拓展性。
附图说明
图1是本发明实施例的基于自监督DNN的糖尿病预警方法总体流程图;
图2是本发明实施例的基于自监督DNN的糖尿病预警系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于自监督DNN的糖尿病预警方法的总体流程图,如图1所示,该方法包括:
S1,从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集;
S2,对所述两个原始数据集进行预处理,包括数值化处理、标准化处理、缺失值处理等,获得处理后的数据集;
S3,以所述处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,获得筛选后的无标签的数据集和有标签的数据集;
S4,以所述筛选后的无标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签;
S5,设计三个深度神经网络表示为DNN1(·),DNN2(·),DNN3(·),对其参数进行初始;
S6,以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络模型DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络模型DNN1(·)+DNN2(·);
S7,以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络模型DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络模型DNN1(·)+DNN3(·);
S8,对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络模型DNN1(·)+DNN3(·),得到待预测用户的糖尿病患病风险值;
S9,所述糖尿病患病风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
步骤S1,具体如下:
S1-1:从医院获取授权体检者和患者群体的各项身体指标数据,具体包含:
性别、年龄、舒张压、天门东氨酸转移酶、丙氨酸氨基转移酶、碱性磷酸酶、r-谷氨酰基转移酶、淋巴细胞总数、总蛋白、白蛋白、球蛋白、白球比例、甘油三酯、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、尿素、肌酐、尿酸、乙肝表面抗体、乙肝表面抗原、乙肝e抗原、乙肝抗体、乙肝核心抗体、白细胞计数、红细胞计数、血红蛋白、红细胞压积、红细胞平均体积、红细胞平均血红蛋白量、红细胞平均血红蛋白浓度、红细胞体积分布宽度、血小板计数、血小板平均体积、血小板体积分布宽度、血小板比积、中性粒细胞%、淋巴细胞%、单核细胞%、嗜酸细胞%、嗜碱细胞%、氯、二氧化碳、钠、钾、钙、镁、磷、尿胆红素、直接胆红素、总胆红素、胆碱酯酶、乳酸脱氢酶、总胆汁酸、胱抑素C、血管紧张素转换酶、超氧化物歧化酶、肌酸激酶同工酶MB、a-羟丁酸脱氢酶、肌酸激酶、超敏C反应蛋白、淀粉酶、载脂蛋白E、免疫球蛋白M、免疫球蛋白A、免疫球蛋白C、免疫球蛋白G、肝胆酸、游离脂肪酸、同型半胱氨酸、转铁蛋白、腺苷脱氨酶、心电图、心率。
S1-2:对于未知是否患病的用户群体,将其S1所得到的数据整理为原始无标签的数据集。
S1-3:对于确认患病或不患病的用户群体,将其S1所得到的数据结合是否患病的标签,作为原始有标签的数据集。
步骤S2,具体如下:
S2-1:对S1-2和S1-3得到的两个数据集进行数值化处理,具体包含将类别类型的数据进行基于顺序或频率的编码。
S2-2:对S2-1得到的两个数据集进行标准化处理,具体包含将每一个特征在所有样本上进行如下归一化:
Figure GDA0003753269030000101
其中X′ij代表第i个用户的第j个特征,Xj代表所有用户在j特征上的均值,σj代表所有用户在j特征上的标准差。
S2-3:对S2-1得到的两个数据集进行缺失值的处理,具体包含将缺失值填充为众数或平均数。
步骤S3,具体如下:
S3-1:对S2-1得到的两个数据集进行相同的过滤无关特征的处理。具体地,基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征,去除该特征。
S3-2:对S3-1得到的两个数据集进行相同的过滤冗余特征的处理。具体地,基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征,去除该特征。
步骤S4,具体如下:
S4-1:对S3-1至S3-2处理后的无标签的数据集进行遮蔽处理。对于所有特征来说,共有M个特征。顺序地选取每个特征作为标签,并使用其它M-1个特征作为训练集。此时生成了共M个子数据集,大小为N×(M-1)。
S4-2:对S4-1生成的M个子数据集进行规整化的处理,并在标签所对应的特征位置处补特征0。此时共有M个子数据集,每个子数据集大小为N×M。
步骤S5,具体如下:
S5-1:设计深度神经网络DNN1(·),它将一个M维的身体健康指标向量映射为一个d维的用户表征。我们这里采取三层全连接层,并使用LeakyRelu作为激活函数。
S5-2:设计深度神经网络DNN2(·),它将一个d维的用户表征映射回一个M维的健康指标向量。我们这里采取三层全连接层,并使用LeakyRelu作为激活函数。值得注意的是,此时的输出尽管具有M维,但只有一维用于损失函数的计算。当使用S4-1生成的第k个子数据集时,DNN2(·)以这个数据集中的M-1个特征以及补0的空白特征作为输入,试图在输出层重构出该空白特征,进而学习中其他M-1个特征与该特征的隐式关联。
S5-3:设计深度神经网络DNN3(·),它将一个d维的用户表征映射回一个一维的患病风险。我们这里采取两层全连接层,并使用LeakyRelu作为激活函数。
步骤S6,具体如下:
S6-1:结合S5-1和S5-2设计的两个网络DNN1(·)+DNN2(·),结合这两个神经网络网络模块可以将每个用户的身体健康指标映射为该用户的表征,并从用户表征重构出该用户被遮蔽的身体健康指标。
S6-2:使用S4-2生成的M个子数据集依次输入至S6-2中的网络中,并进行学习和训练。此处采取最小化平方均差作为损失函数。
步骤S7,具体如下:
S7-1:结合S5-1和S5-3设计的两个网络DNN1(·)+DNN3(·),结合这两个神经网络网络模块可以将每个用户的完整的(未被遮蔽的)身体健康指标映射为该用户的表征,并从用户表征预测出该用户的糖尿病患病风险。
S7-2:使用S3-1至S3-2处理后生成的有标签的数据集输入至S7-1设计的网络模块,计算神经网络的预测和实际情况的误差,并进行学习和训练。此处采取最小化平方均差作为损失函数。
步骤S8,具体如下:
S8-1:经过如上步骤,模型可训练完毕。在进行预测时,对每一个新用户的数据可进行S2-1至S3-2的处理,并输入至模型DNN1(·)+DNN3(·)中,可输出每一个新用户的糖尿病患病风险。
步骤S9,具体如下:
S9-1:将S8得到的用户的患病风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
相应地,本发明还提供了基于自监督DNN的糖尿病预警系统,如图2所示,包括:
数据预处理单元1,用于从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集。
具体地,需要从医院获取授权体检者和患者群体的各项身体指标数据;对于未知是否患病的用户群体,将所得到的数据整理为原始无标签的数据集;对于确认患病或不患病的用户群体,将所得到的数据结合是否患病的标签,作为原始有标签的数据集。
构造训练集单元2,用于将所述两个原始数据集进行预处理,包括数值化处理、标准化处理、缺失值处理等,再进行特征值选择处理,获得筛选后的数据集,再进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,用于后续的模型训练。
具体地,需要对所述两个原始数据集进行数值化处理、标准化处理和缺失值的处理,数值化处理后的两个数据集进行相同的过滤无关特征的处理后再进行过滤冗余特征的处理,基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征和冗余特征,去除该特征;获得筛选后的数据集,对所述筛选后的无标签的数据集进行遮蔽处理和标签化处理,对于所有M个特征,顺序地选取每个特征作为标签,并使用其它M-1个特征作为训练集,生成了共M个子数据集,大小为N×(M-1),对生成的M个子数据集进行规整化的处理,并在标签所对应的特征位置处补特征0,此时共有M个子数据集,每个子数据集大小为N×M。
模型训练单元3,用于所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络模型进行分批和迭代地训练,以所述筛选后的有标签的数据集输入所述训练后的深度神经网络进行预测,得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络模型的参数,得到训练好的深度神经网络模型。
具体地,需要设计三个深度神经网络表示为DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化;以所述M个子数据集作为所述深度神经网络DNN1(·)的输入,映射为表征,深度神经网络DNN2(·)将表征重构出该用户被遮蔽的身体健康指标,对所述深度神经网络模型DNN1(·)+DNN2(·)进行分批和迭代训练,采取最小平方均差作为损失函数,得到训练后的深度神经网络模型DNN1(·)+DNN2(·);以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络模型DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络模型DNN1(·)+DNN3(·)。
风险预警显示单元4,用于对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络模型,得到待预测用户的糖尿病患病风险值,并将风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
具体地,需要对待预测用户的原始身体指标数据,经过数据预处理单元处理后,输入到所述训练好的深度神经网络模型DNN1(·)+DNN3(·),得到待预测用户的糖尿病患病风险值,风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警。
因此,本发明可以通过引入自监督学习的方法,更充分地利用少量的标签数据,充分地挖掘用户健康指标的深度关联,实现对用户糖尿病的患病风险的提早预测,做到疾病的提早预防。同时为尚处空白状态的医疗大数据的自监督学习与糖尿病患病风险预警提供了具有可靠性解决方案。本发明提出使用深度神经网络对糖尿病患病风险进行预测。针对其它不同的场景,可通过灵活调整深度神经网络的结构对其它预测任务进行适应,具有更强的实用性、泛化性和可拓展性。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于自监督DNN的糖尿病预警方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述船舶识别方法的步骤。
以上对本发明实施例所提供的基于自监督DNN的糖尿病预警方法、系统、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.基于自监督DNN的糖尿病预警方法,其特征在于,所述方法包括:
从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集;
对所述原始无标签的数据集和原始有标签的数据集进行预处理,包括数值化处理、标准化处理、缺失值处理,获得处理后的数据集;
以所述处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,获得筛选后的无标签的数据集和有标签的数据集;
以所述筛选后的无标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签;
设计三个深度神经网络DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化;
以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络DNN1(·)+DNN2(·);
以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络DNN1(·)+DNN3(·);
对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络DNN1(·)+DNN3(·),得到待预测用户的糖尿病患病风险值;
所述糖尿病患病风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警;
其中,所述设计三个深度神经网络DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化,具体为:
设计深度神经网络DNN1(·),它将一个M维的身体健康指标向量映射为一个d维的用户表征,采取三层全连接层,并使用LeakyRelu作为激活函数;
设计深度神经网络DNN2(·),采取三层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个M维的健康指标向量输出,M维有一维用于损失函数的计算;
设计深度神经网络DNN3(·),采取两层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个一维的患病风险。
2.如权利要求1所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集,具体为:
从医院获取授权体检者和患者群体的各项身体指标数据;
对于未知是否患病的用户群体,将所得到的数据整理为原始无标签的数据集;
对于确认患病或不患病的用户群体,将所得到的数据结合是否患病的标签,作为原始有标签的数据集。
3.如权利要求1所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述对原始无标签的数据集和原始有标签的数据集进行预处理,包括数值化处理、标准化处理、缺失值处理,获得处理后的数据集,具体为:
对所述原始无标签的数据集和原始有标签的数据集进行数值化处理,具体包含将类别类型的数据进行基于顺序或频率的编码;
数值化处理后进行标准化处理,具体包含将每一个特征在所有样本上进行如下归一化:
Figure FDA0003759244220000031
其中Xij代表第i个用户的第j个归一化特征,X′ij代表第i个用户的第j个特征,
Figure FDA0003759244220000032
代表所有用户在j特征上的均值,σj代表所有用户在j特征上的标准差;
数值化处理后进行缺失值的处理,具体包含将缺失值填充为众数或平均数。
4.如权利要求1所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述以所述处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,分别获得筛选后的数据集,具体为:
数值化处理后的两个数据集进行相同的过滤无关特征的处理;
基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征,去除该特征;
得到过滤无关特征后的两个数据集,进行相同的过滤冗余特征的处理;
基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为冗余特征,去除该特征;
获得筛选后的两个数据集。
5.如权利要求1所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述以所述筛选后的有标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签,具体为:
对所述筛选后的无标签的数据集进行遮蔽处理和标签化处理;
对于所有M个特征,顺序地选取每个特征作为标签,并使用其它M-1个特征作为训练集,生成了共M个子数据集,大小为N×(M-1);
对生成的M个子数据集进行规整化的处理,并在标签所对应的特征位置处补特征0,此时共有M个子数据集,每个子数据集大小为N×M。
6.如权利要求5所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络DNN1(·)+DNN2(·),具体为:
以所述M个子数据集作为所述深度神经网络DNN1(·)的输入,映射为表征;
深度神经网络DNN2(·)将表征重构出该用户被遮蔽的身体健康指标;
对所述深度神经网络DNN1(·)+DNN2(·)进行分批和迭代训练,采取最小平方均差作为损失函数;
得到训练后的深度神经网络DNN1(·)+DNN2(·)。
7.如权利要求1所述的基于自监督DNN的糖尿病预警方法,其特征在于,所述以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络DNN1(·)+DNN3(·),具体为:
以所述筛选后的有标签的数据集作为所述训练后的深度神经网络DNN1(·)的输入,得到有标签用户的体检数据的映射后表征;
将映射后表征输入所述深度神经网络DNN3(·),得到所述原始有标签数据集的用户预测的患病风险;
将预测的患病风险与真实的情况比较,其差异用于优化深度神经网络DNN1(·)+DNN3(·)的参数,采取最小化平方均差作为损失函数;
得到训练好的深度神经网络DNN1(·)+DNN3(·)。
8.基于自监督DNN的糖尿病预警系统,其特征在于,所述系统包括:
数据预处理单元,用于从医院获取体检者群体和患者的体检数据,分别作为原始无标签的数据集和原始有标签的数据集;
构造训练集单元,用于对所述原始无标签的数据集和原始有标签的数据集进行预处理,包括数值化处理、标准化处理、缺失值处理,获得处理后的数据集;以处理后的数据集进行特征值选择处理,包括去除冗余特征和无关特征,获得筛选后的无标签的数据集和有标签的数据集;以筛选后的无标签的数据集进行遮蔽处理和标签化处理,生成遮蔽后的训练数据集和验证数据集,每个数据集均包含训练集和训练标签;
模型训练单元,用于设计三个深度神经网络DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化;以所述遮蔽后的训练数据集和验证数据集,输入所述深度神经网络DNN1(·)+DNN2(·)进行分批和迭代地训练,得到训练后的深度神经网络DNN1(·)+DNN2(·);以所述筛选后的有标签的数据集输入所述训练后的深度神经网络DNN1(·)进行预测,得到有标签用户的体检数据的映射后表征,将映射后的表征输入所述深度神经网络DNN3(·),得到有标签用户预测的患病风险,比较其与真实情况的差异,共同优化深度神经网络DNN1(·)+DNN3(·)的参数,得到训练好的深度神经网络DNN1(·)+DNN3(·);
风险预警显示单元,用于对待预测用户的原始身体指标数据,进行所述预处理与所述特征值选择处理后,输入到所述训练好的深度神经网络DNN1(·)+DNN3(·),得到待预测用户的糖尿病患病风险值,并将风险值以可视化的形式进行展示,当其超过阈值时,进行患病风险预警;
其中,所述模型训练单元中,所述设计三个深度神经网络DNN1(·),DNN2(·),DNN3(·),对其参数进行初始化,具体为:设计深度神经网络DNN1(·),它将一个M维的身体健康指标向量映射为一个d维的用户表征,采取三层全连接层,并使用LeakyRelu作为激活函数;设计深度神经网络DNN2(·),采取三层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个M维的健康指标向量输出,M维有一维用于损失函数的计算;设计深度神经网络DNN3(·),采取两层全连接层,并使用LeakyRelu作为激活函数,它将一个d维的用户表征映射回一个一维的患病风险。
9.如权利要求8所述的基于自监督DNN的糖尿病预警系统,其特征在于,所述数据预处理单元,需要从医院获取授权体检者和患者群体的各项身体指标数据;对于未知是否患病的用户群体,将所得到的数据整理为原始无标签的数据集;对于确认患病或不患病的用户群体,将所得到的数据结合是否患病的标签,作为原始有标签的数据集。
10.如权利要求8所述的基于自监督DNN的糖尿病预警系统,其特征在于,所述构造训练集单元,需要对所述原始无标签的数据集和原始有标签的数据集进行数值化处理、标准化处理和缺失值的处理,数值化处理后的两个数据集进行相同的过滤无关特征的处理后再进行过滤冗余特征的处理,基于皮尔森相关系数计算每个特征和标签之间的相似度,设定某阈值,低于阈值的视为无关特征和冗余特征,去除该特征;获得筛选后的数据集,对所述筛选后的无标签的数据集进行遮蔽处理和标签化处理,对于所有M个特征,顺序地选取每个特征作为标签,并使用其它M-1个特征作为训练集,生成了共M个子数据集,大小为N×(M-1),对生成的M个子数据集进行规整化的处理,并在标签所对应的特征位置处补特征0,此时共有M个子数据集,每个子数据集大小为N×M。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110359319.3A 2021-04-02 2021-04-02 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质 Active CN113113140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110359319.3A CN113113140B (zh) 2021-04-02 2021-04-02 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110359319.3A CN113113140B (zh) 2021-04-02 2021-04-02 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113113140A CN113113140A (zh) 2021-07-13
CN113113140B true CN113113140B (zh) 2022-09-23

Family

ID=76713744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110359319.3A Active CN113113140B (zh) 2021-04-02 2021-04-02 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113113140B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808744A (zh) * 2021-09-22 2021-12-17 河北工程大学 一种糖尿病风险预测方法、装置、设备及存储介质
CN114662698A (zh) * 2022-02-11 2022-06-24 南京英锐祺科技有限公司 工业互联网多模态机器学习数据处理方法
CN114974580B (zh) * 2022-04-22 2023-05-23 上海铂桐医疗科技有限公司 骨折风险检测数据的处理方法及系统
CN114565613B (zh) * 2022-04-29 2022-08-23 之江实验室 基于有监督深度子空间学习的胰腺术后糖尿病预测系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932517A (zh) * 2018-06-28 2018-12-04 中山大学 一种基于精细化网络模型的多标签服装解析方法
CN109378072A (zh) * 2018-10-13 2019-02-22 中山大学 一种基于集成学习融合模型的异常空腹血糖值预警方法
CN110197728A (zh) * 2019-03-12 2019-09-03 平安科技(深圳)有限公司 糖尿病的预测方法、装置及计算机设备
WO2020234388A1 (en) * 2019-05-22 2020-11-26 F. Hoffmann-La Roche Ag Propensity score based assessment of patient data
CN111968741B (zh) * 2020-07-15 2023-07-18 华南理工大学 基于深度学习与集成学习的糖尿病并发症高危预警系统
CN112232416B (zh) * 2020-10-16 2021-09-14 浙江大学 一种基于伪标签加权的半监督学习方法
CN112420123A (zh) * 2020-11-30 2021-02-26 上海商汤智能科技有限公司 自监督学习模型的训练方法和装置、设备以及存储介质

Also Published As

Publication number Publication date
CN113113140A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113113140B (zh) 基于自监督dnn的糖尿病预警方法、系统、设备及存储介质
Chittora et al. Prediction of chronic kidney disease-a machine learning perspective
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
CN114023449A (zh) 基于深度自编码器的糖尿病风险预警方法与系统
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
Pal et al. Deep learning techniques for prediction and diagnosis of diabetes mellitus
CN113470816A (zh) 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置
CN111951965A (zh) 基于时序知识图谱的全景式健康动态监测与预测系统
CN116682557A (zh) 一种基于小样本深度学习的慢性病并发症早期风险预警方法
Barhate et al. Analysis of classifiers for prediction of type ii diabetes mellitus
CN113160986A (zh) 用于预测全身炎症反应综合征发展的模型构建方法及系统
CN111261278A (zh) 一种基于三维图像的深度学习模型的心脏疾病检测方法
CN113080993A (zh) 一种基于改进多基分类器集成的自动心律失常分析方法
CN114358169B (zh) 一种基于XGBoost的结直肠癌检测系统
Li et al. Arrhythmia classification using biased dropout and morphology-rhythm feature with incremental broad learning
Mahmoud et al. Heart disease prediction using modified version of LeNet-5 model
Hossen et al. Examining the risk factors of liver disease: a machine learning approach
CN110853764B (zh) 一种糖尿病证候预测系统
Wu et al. Multi-feature map integrated attention model for early prediction of type 2 diabetes using irregular health examination records
CN113679393B (zh) 基于对比预测编码的ecg数据特征生成模型
CN114613497A (zh) 基于gbdt样例级的病患样本的智能医学辅助诊断方法
CN114582497A (zh) 基于图卷积神经网络的中医证型分类方法
Arab et al. Artificial intelligence for diabetes mellitus type II: forecasting and anomaly detection
CN113990502A (zh) 一种基于异构图神经网络的icu心衰预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant