CN111312401B - 一种基于多标签学习的体检后慢性疾病预后系统 - Google Patents

一种基于多标签学习的体检后慢性疾病预后系统 Download PDF

Info

Publication number
CN111312401B
CN111312401B CN202010038223.2A CN202010038223A CN111312401B CN 111312401 B CN111312401 B CN 111312401B CN 202010038223 A CN202010038223 A CN 202010038223A CN 111312401 B CN111312401 B CN 111312401B
Authority
CN
China
Prior art keywords
data
physical examination
prediction
module
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010038223.2A
Other languages
English (en)
Other versions
CN111312401A (zh
Inventor
李劲松
周天舒
吴承凯
张莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202010038223.2A priority Critical patent/CN111312401B/zh
Publication of CN111312401A publication Critical patent/CN111312401A/zh
Priority to PCT/CN2021/071826 priority patent/WO2021143780A1/zh
Priority to US17/543,736 priority patent/US11735321B2/en
Application granted granted Critical
Publication of CN111312401B publication Critical patent/CN111312401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于多标签学习的体检后慢性疾病预后系统,该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;数据获取模块用于获取体检用户的体检数据;基础预测模型构建模块用于构建针对体检场景的多标签学习模型;本地预测模块包括本地模型训练单元和预测单元,本地模型训练单元将训练好的本地预测模型固化至本地预测模块内,预测单元输出对多个慢性疾病发生情况的预测预后指数,最终获得慢病未来预期发生时间。本发明系统使用多标签学习方法,能够对慢性疾病并发情况下的内部关系进行提取,更加符合慢性疾病高并发性的特点,能够更好地完成对未来慢性疾病发生情况的准确预测。

Description

一种基于多标签学习的体检后慢性疾病预后系统
技术领域
本发明属于医疗及机器学习技术领域,尤其涉及一种基于多标签学习的体检后慢性疾病预后系统。
背景技术
包括糖尿病、心脏病、冠心病、慢性肾病在内的各类慢性疾病已成为目前全球范围内造成民众生活质量明显下降、医疗经济负担大幅提升的最主要疾病类别。慢性疾病具有前期隐蔽性高、知晓率低,后期危害性大、可根治率极低的特点,根据世界卫生组织(WHO)的统计,全球与2012年因心血管疾病与糖尿病造成的死亡人数为1700万,占到了非传染性疾病死亡人数的50.2%。在2015年的慢性疾病防控报告中,WHO指出针对慢性疾病的防治工作在全球范围内效果明显低于预期。
早期知晓与预警对慢性疾病的防治具有非常重要的意义,慢性疾病一般能够在早期预警后通过控制作息、饮食、运动等方式进行防治,但一旦患者已经出现器质性病变,便无法真正根治。慢性疾病的另一防治难点在于各项疾病间常并发产生,根据2011年的Lehnert等人汇总35项研究产生的综述报告,个人所患有慢病的数量(MCCs)与所产生的诊疗花费常呈正相关或指数相关。因此,在已知患有少量慢性疾病或相关异常生理指标的前提下,预测其他慢性疾病的发生可能并进行有效干预,对提升慢性疾病控制效果,大幅降低医疗负担具有重大意义。
体检作为健康人群与非健康人群均可选择进行的一项医疗手段,对慢性疾病的可能发生具有很好的前瞻性预测能力。然而,目前的体检体系主要根据当次检验指标确定患者在当前时刻是否具有特定的疾病,缺少系统性的技术手段通过目前体检者的检验数据与现有慢性疾病状态,对未来几年内的慢性疾病发生情况进行预后。
现有应用传统单标签机器学习方法对各个疾病进行预测的体检临床决策支持系统无法提取不同慢性疾病之间的并发相关性,从而导致预测的准确度下降,多个疾病预测结果间可能存在突出的医学逻辑性矛盾。目前采用多标签机器学习的体检临床决策支持系统极少,且相关研究仅能够对当前时间节点上的患病情况进行辅助诊断,而无法对体检者未来的慢性疾病发生进行预后。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多标签学习的体检后慢性疾病预后系统。该系统的各模块围绕针对体检场景的多标签学习模型,充分提取现有医疗数据内体检时间点与后续慢性疾病发生间的时序信息,从而完成对未来1~5年内慢性疾病发生情况进行预测。该系统可以更好的挖掘单次体检可带来的医疗价值,使公众能够通过体检对目前与未来个人身体状态有更好的了解,提升体检对慢性疾病早期知晓的实际效果。
本发明的目的是通过以下技术方案来实现的:一种基于多标签学习的体检后慢性疾病预后系统,该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;
所述数据获取模块用于获取体检用户的体检数据,所述体检数据包括基本生理指标和常规化验指标,所述基本生理指标包括身高、体重、血压等可以直接测量得到的指标;所述常规化验指标包括血常规、尿常规等通过样本化验方式得到的指标;将体检用户所有上述指标表示为特征向量X=[x1,x2,…xp]T,p为指标总数;记录当次体检的发生时间t0;提取该用户体检前后在电子病历中存在的慢疾病诊断数据中各类慢病(例如糖尿病、高血压、冠心病、慢性肾病等)诊断最早发生时间数据T=[t1,t2,…tq]T,q为系统预设的慢病种类数;以上数据中,X,t0为必需数据,T中的各个分量在诊断不存在时设置为null。
所述数据预处理模块的处理过程具体如下:
对X中各分量xi做基于该分量的标准化处理φi,使该分量上所有数据的标准差为1,均值为0;将标准化处理后的特征向量记为X′=[x′1,x′2,…x′p]T
Figure BDA0002366783980000021
其中xi′为标准化后的数据,λi为分量xi上所有数据的均值,σi为分量xi上所有数据的标准差;
对T基于底数α(0<α<1)进行指数化操作,从而生成预后指数向量Y=[y1,y2,…yq]T
Figure BDA0002366783980000022
所述基础预测模型构建模块用于构建针对体检场景的多标签学习模型,构建过程如下:
(1)构建多层神经网络,通过多层神经网络完成从输入到输出的数据处理,网络的具体超参数包括:网络层数K、每层网络的节点个数n1,n2,…nK、相邻两层间的激活函数{ReLU,sigmoid,Tanh},其中n1=p,nK=q;将相邻两层间的传递权矩阵记为W1,W2,…WK-1;将最后一层的节点输出值记为预测预后指数=[c1,c2,…cq]T
(2)设计损失函数E,损失函数是使模型能够适应性学习各慢性疾病发生状态与发生顺序,从而对体检者未来慢性疾病进行预后的关键定义;
Figure BDA0002366783980000031
该损失函数可以看作是为三项不同目的而设置的损失函数的加权平均值,其中,N表示单批次梯度下降中使用的数据样本量,
Figure BDA0002366783980000032
的上标k表示该损失函数分量通过该批次梯度下降中第k个样本计算获得,
Figure BDA0002366783980000033
表示三类损失函数各自的权重值;
a)E0为单标签损失函数,表征疾病预测的预后指数ci与实际预后指数yi的差异:
Figure BDA0002366783980000034
b)E1为间距损失函数,表征两种不同慢性疾病的预测预后指数差值Δci,j与实际预后指数差值Δyi,j间的差异:
Figure BDA0002366783980000035
c)E2为排序损失函数,表征两种不同慢性疾病的预测发生顺序与实际发生顺序间的差异:
Figure BDA0002366783980000036
通过该损失函数,可以同时在模型训练时兼顾学习疾病的实际发生时间、疾病间发生逻辑关系以及疾病间的发生时间间距,从而能够基于单次体检数据更好的预测未来多个疾病的发生情况。
(3)参数学习:针对样本医疗机构的体检数据,通过矩阵式超参数扫描(即扫描模型的超参数:网络层数K、中间层网络的节点个数n2,…nK-1、相邻两层间的激活函数)构建若干个模型M1,M2,…ML,基于小批量梯度下降(MBGD)对各个模型进行参数学习,并通过多折交叉验证(k-fold cross validation)确定最优参数,将最优模型作为向其他医疗机构迁移的基础预测模型Mbest,并将Mbest固化至基础预测模型构建模块内。
所述本地预测模块布置在某具体医疗机构中,包括本地模型训练单元和预测单元;
所述本地模型训练单元:通过基础预测模型构建模块已经得到了经过样本医疗机构真实数据调参的最优的基础预测模型Mbest,但由于不同医疗机构所使用检验仪器、方法不同,需要基于某一具体医疗机构的体检数据,对参数进行适应性调整,确定针对该医疗机构的最优预测模型
Figure BDA0002366783980000037
所述本地模型训练单元接收基础预测模型构建模块提供的最优预测模型
Figure BDA0002366783980000038
通过数据采集模块获取该医疗机构的体检数据X,t0,T,通过数据预处理模块生成X′,Y;以Mbest的模型参数为初始参数,基于X′,Y进行与Mbest训练方法相同的模型训练,并在参数收敛后将训练好的本地预测模型
Figure BDA0002366783980000039
固化至本地预测模块内。
所述预测单元:该单元基于新体检者的体检数据,根据本地预测模型
Figure BDA0002366783980000041
进行慢性疾病预后,输出对多个慢性疾病发生情况的预测预后指数C=[c1,c2,…cq]T,之后,通过y(ti)的反函数t′i=y-1(ci)获得所对应慢病的未来预期发生时间t′i,对发生时间大于截断时间tcutoff的疾病,认为短期内发病风险较小;通过自然语言生成的方式将预测的慢病发生时间反馈给体检者,使其了解未来的高发疾病有哪些,从而为其有针对性调整生活习惯,更好防治高发疾病提供参照。
进一步地,医疗机构将体检数据以.csv文件存储在本地;选定样本医疗机构,通过样本医疗机构的体检数据生成封装基础预测模型Mbest;本地医疗机构的体检数据通过接口服务发送至本地预测模块,并通过接口响应返回对应慢病的未来预期发生时间。
本发明的有益效果是:本发明系统使用多标签学习方法,能够对慢性疾病并发情况下的内部关系进行提取,更加符合慢性疾病高并发性的特点,能够更好地完成对未来慢性疾病发生情况的准确预测。同时完成了从数据获取、数据预处理、基础预测模型构建和本地预测输出的一整套方案。
附图说明
图1为基于多标签学习的体检后慢性疾病预后系统结构示意图;
图2为多层神经网络示意图;
图3为基础预测模型构建模块结构示意图;
图4为本地预测模块结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于多标签学习的体检后慢性疾病预后系统,该系统能够基于当前时间节点上体检者的体检数据对未来包括并发症情况在内的慢性疾病发生情况提供预后信息。以下给出本系统实现的一个示例,但不限于此:
该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;
所述数据获取模块用于获取体检用户的体检数据,所述体检数据包括基本生理指标和常规化验指标,所述基本生理指标包括身高、体重、BMI、收缩压、舒张压;所述常规化验指标包括血常规(总蛋白、白蛋白、球蛋白、白球蛋白比例、谷丙转氨酶、谷草转氨酶、碱性磷酸酶、胆碱酯酶、总胆汁酸、总胆红素、直接胆红素、间接胆红素、腺苷酸脱氨酶、谷氨酰转肽酶、肾小球滤过率、肌酐、尿素、尿酸、膀抑素C、甘油三酯、总胆固醇、高密度脂蛋白-C、低密度脂蛋白-C、极低密度脂蛋白-C、空腹血糖、钾、钠、氯、总钙、无机磷、甘铺二肽氨基肽酶、α-岩藻糖苷酶)、尿常规(尿蛋白质、尿酮体、尿糖、尿沉渣红细胞、尿胆红素、尿沉渣白细胞、尿沉渣红细胞、尿胆原、尿酸度);将体检用户所有上述指标表示为特征向量X=[x1,x2,…xp]T,p=46为指标总数;记录当次体检的发生时间t0;提取该用户体检前后在电子病历中存在的慢疾病诊断数据中各类慢病(糖尿病、高血压、高脂血症、高尿酸血症、脂肪肝、冠心病、慢性肾病)诊断最早发生时间数据T=[t1,t2,…tq]T,q=7为系统预设的慢病种类数;以上数据中,X,t0为必需数据,T中的各个分量在诊断不存在时设置为null;
所述数据预处理模块具体如下:
对X中各分量xi做基于该分量的标准化处理φi,使该分量上所有数据的标准差为1,均值为0;将标准化处理后的特征向量记为X′=[x′1,x′2,…x′p]T
Figure BDA0002366783980000051
其中xi′为标准化后的数据,λi为分量xi上所有数据的均值,σi为分量xi上所有数据的标准差;
对T基于底数α(0<α<1)进行指数化操作,从而生成预后指数向量Y=[y1,y2,…yq]T
Figure BDA0002366783980000052
所述基础预测模型构建模块用于构建针对体检场景的多标签学习模型,如图3所示,构建过程如下:
(1)构建多层神经网络,如图2所示,通过多层神经网络完成从输入到输出的数据处理,网络的具体超参数包括:网络层数K、每层网络的节点个数n1,n2,…nK、相邻两层间的激活函数{ReLU,sigmoid,Tanh},其中n1=p=46,nK=q=7;将相邻两层间的传递权矩阵记为W1,W2,…WK-1;将最后一层的节点输出值记为预测预后指数C=[c1,c2,…cq]T
(2)设计损失函数E,损失函数是使模型能够适应性学习各慢性疾病发生状态与发生顺序,从而对体检者未来慢性疾病进行预后的关键定义。
Figure BDA0002366783980000053
该损失函数可以看作是为三项不同目的而设置的损失函数的加权平均值,其中,N=20表示单批次梯度下降中使用的数据样本量,
Figure BDA0002366783980000054
的上标k表示该损失函数分量通过该批次梯度下降中第k个样本计算获得,
Figure BDA0002366783980000055
表示三类损失函数各自的权重值,本实例中使用
Figure BDA0002366783980000056
Figure BDA0002366783980000057
a)E0为单标签损失函数,表征疾病预测的预后指数ci与实际预后指数yi的差异:
Figure BDA0002366783980000061
b)E1为间距损失函数,表征两种不同慢性疾病的预测预后指数差值Δci,j与实际预后指数差值Δyi,j间的差异:
Figure BDA0002366783980000062
c)E2为排序损失函数,表征两种不同慢性疾病的预测发生顺序与实际发生顺序间的差异:
Figure BDA0002366783980000063
通过该损失函数,可以同时在模型训练时兼顾学习疾病的实际发生时间、疾病间发生逻辑关系以及疾病间的发生时间间距,从而能够基于单次体检数据更好的预测未来多个疾病的发生情况。
(3)参数学习:针对样本医疗机构的体检数据,通过矩阵式超参数扫描(即扫描模型的超参数:网络层数K∈{3,4,5,6}、中间层网络的节点个数n2,…nK-1∈{50,30,20,10}、相邻两层间的激活函数∈{ReLU,sigmoid,Tanh})构建若干个模型M1,M2,…ML,基于小批量梯度下降(MBGD)对各个模型进行参数学习,并通过折数为10的多折交叉验证(k-foldcross validation)确定最优参数,将最优模型作为向其他医疗机构迁移的基础预测模型Mbest,并将Mbest固化至基础预测模型构建模块内。
所述本地预测模块布置在某具体医疗机构中,如图4所示,包括本地模型训练单元和预测单元;
所述本地模型训练单元:通过基础预测模型构建模块已经得到了经过样本医疗机构真实数据调参的最优的基础预测模型Mbest,但由于不同医疗机构所使用检验仪器、方法不同,需要基于某一具体医疗机构的体检数据,对参数进行适应性调整,确定针对该医疗机构的最优预测模型
Figure BDA0002366783980000064
所述本地模型训练单元接收基础预测模型构建模块提供的最优预测模型
Figure BDA0002366783980000065
通过数据采集模块获取该医疗机构的体检数据X,t0,T,通过数据预处理模块生成X′,Y;以Mbest的模型参数为初始参数,基于X′,Y进行与Mbest训练方法相同的模型训练,并在参数收敛后将训练好的本地预测模型
Figure BDA0002366783980000066
固化至本地预测模块内;
所述预测单元:该单元基于新体检者的体检数据,根据本地预测模型
Figure BDA0002366783980000067
进行慢性疾病预后,输出对多个慢性疾病发生情况的预测预后指数C=[c1,c2,…cq]T,之后,通过y(ti)的反函数t′i=y-1(ci)获得所对应慢病的未来预期发生时间t′i,对发生时间大于截断时间tcutoff=5年的疾病,认为短期内发病风险较小;通过自然语言生成的方式将预测的慢病发生时间反馈给体检者,使其了解未来的高发疾病有哪些,从而为其有针对性调整生活习惯,更好防治高发疾病提供参照。
进一步地,医疗机构将体检数据以.csv文件存储在本地;选定样本医疗机构,通过样本医疗机构的体检数据生成封装基础预测模型Mbest;本地医疗机构的体检数据通过接口服务发送至本地预测模块,并通过接口响应返回对应慢病的未来预期发生时间。
以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种基于多标签学习的体检后慢性疾病预后系统,其特征在于,该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;
所述数据获取模块用于获取体检用户的体检数据,所述体检数据包括基本生理指标和常规化验指标;将体检用户所有上述指标表示为特征向量X=[x1,x2,...xp]T,p为指标总数;记录当次体检的发生时间t0;提取该用户体检前后在电子病历中存在的慢疾病诊断数据中各类慢病诊断最早发生时间数据T=[t1,t2,...tq]T,q为系统预设的慢病种类数;以上数据中,X,t0为必需数据,T中的各个分量在诊断不存在时设置为null;
所述数据预处理模块的处理过程具体如下:
对X中各分量xi做基于该分量的标准化处理φi,使该分量上所有数据的标准差为1,均值为0;将标准化处理后的特征向量记为X′=[x′1,x′2,...x′p]T
Figure FDA0003300678340000011
其中xi′为标准化后的数据,λi为分量xi上所有数据的均值,σi为分量xi上所有数据的标准差;
对T基于底数α进行指数化操作,0<α<1,从而生成预后指数向量Y=[y1,y2,...yq]T
Figure FDA0003300678340000012
所述基础预测模型构建模块用于构建针对体检场景的多标签学习模型,构建过程如下:
(1)构建多层神经网络,通过多层神经网络完成从输入到输出的数据处理,网络的具体超参数包括:网络层数K、每层网络的节点个数n1,n2,...nK、相邻两层间的激活函数,其中n1=p,nK=q;将相邻两层间的传递权矩阵记为W1,W2,...WK-1;将最后一层的节点输出值记为预测预后指数C=[c1,c2,...cq]T
(2)设计损失函数E:
Figure FDA0003300678340000013
该损失函数可以看作是为三项不同目的而设置的损失函数的加权平均值,其中,N表示单批次梯度下降中使用的数据样本量,
Figure FDA0003300678340000014
的上标k表示该损失函数分量通过该批次梯度下降中第k个样本计算获得,
Figure FDA0003300678340000015
表示三类损失函数各自的权重值;
a)E0为单标签损失函数,表征疾病预测的预后指数ci与实际预后指数yi的差异:
Figure FDA0003300678340000021
b)E1为间距损失函数,表征两种不同慢性疾病的预测预后指数差值Δci,j与实际预后指数差值Δyi,j间的差异:
Figure FDA0003300678340000022
c)E2为排序损失函数,表征两种不同慢性疾病的预测发生顺序与实际发生顺序间的差异:
Figure FDA0003300678340000023
(3)参数学习:针对样本医疗机构的体检数据,通过矩阵式超参数扫描构建若干个模型M1,M2,...ML,基于小批量梯度下降对各个模型进行参数学习,并通过多折交叉验证确定最优参数,将最优预测模型作为向其他医疗机构迁移的基础预测模型Mbest,并将Mbest固化至基础预测模型构建模块内;
所述本地预测模块布置在某具体医疗机构中,包括本地模型训练单元和预测单元;
所述本地模型训练单元:接收基础预测模型构建模块提供的最优预测模型Mbest,通过数据采集模块获取该医疗机构的体检数据X,t0,T,通过数据预处理模块生成X′,Y;以Mbest的模型参数为初始参数,基于X′,Y进行与Mbest训练方法相同的模型训练,并在参数收敛后将训练好的本地预测模型
Figure FDA0003300678340000024
固化至本地预测模块内;
所述预测单元:该单元基于新体检者的体检数据,根据本地预测模型
Figure FDA0003300678340000025
进行慢性疾病预后,输出对多个慢性疾病发生情况的预测预后指数C=[c1,c2,...cq]T,之后,通过y(ti)的反函数t′i=y-1(ci)获得所对应慢病的未来预期发生时间t′i
2.根据权利要求1所述的一种基于多标签学习的体检后慢性疾病预后系统,其特征在于,医疗机构将体检数据以.csv文件存储在本地;选定样本医疗机构,通过样本医疗机构的体检数据生成封装基础预测模型Mbest;本地医疗机构的体检数据通过接口服务发送至本地预测模块,并通过接口响应返回对应慢病的未来预期发生时间。
CN202010038223.2A 2020-01-14 2020-01-14 一种基于多标签学习的体检后慢性疾病预后系统 Active CN111312401B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010038223.2A CN111312401B (zh) 2020-01-14 2020-01-14 一种基于多标签学习的体检后慢性疾病预后系统
PCT/CN2021/071826 WO2021143780A1 (zh) 2020-01-14 2021-01-14 一种基于多标签学习的体检后慢性疾病预后系统
US17/543,736 US11735321B2 (en) 2020-01-14 2021-12-07 System for the prognostics of the chronic diseases after the medical examination based on the multi-label learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038223.2A CN111312401B (zh) 2020-01-14 2020-01-14 一种基于多标签学习的体检后慢性疾病预后系统

Publications (2)

Publication Number Publication Date
CN111312401A CN111312401A (zh) 2020-06-19
CN111312401B true CN111312401B (zh) 2021-12-17

Family

ID=71160218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038223.2A Active CN111312401B (zh) 2020-01-14 2020-01-14 一种基于多标签学习的体检后慢性疾病预后系统

Country Status (3)

Country Link
US (1) US11735321B2 (zh)
CN (1) CN111312401B (zh)
WO (1) WO2021143780A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312401B (zh) * 2020-01-14 2021-12-17 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统
CN113539394A (zh) * 2020-12-31 2021-10-22 内蒙古卫数数据科技有限公司 一种基于医学检验数据的多病种预测方法
CN113053535B (zh) * 2021-04-20 2022-07-22 四川大学华西医院 一种医疗信息预测系统及医疗信息预测方法
CN113611411B (zh) * 2021-10-09 2021-12-31 浙江大学 一种基于假阴性样本识别的体检辅助决策系统
CN116469576B (zh) * 2023-03-27 2023-10-27 中关村科学城城市大脑股份有限公司 纠纷事件识别方法、装置、电子设备和计算机可读介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096104A1 (en) * 2016-10-05 2018-04-05 MED Inc. Disease management system
JP6280997B1 (ja) * 2016-10-31 2018-02-14 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
CN106599913B (zh) * 2016-12-07 2019-08-06 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
US20180211010A1 (en) * 2017-01-23 2018-07-26 Ucb Biopharma Sprl Method and system for predicting refractory epilepsy status
CN108520780B (zh) * 2018-03-07 2021-08-06 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
US10949968B2 (en) * 2018-05-07 2021-03-16 Zebra Medical Vision Ltd. Systems and methods for detecting an indication of a visual finding type in an anatomical image
US11756667B2 (en) * 2018-05-30 2023-09-12 Siemens Healthcare Gmbh Decision support system for medical therapy planning
CN108804718B (zh) * 2018-06-11 2021-12-14 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109036553B (zh) * 2018-08-01 2022-03-29 北京理工大学 一种基于自动抽取医疗专家知识的疾病预测方法
GB201818237D0 (en) * 2018-11-08 2018-12-26 Polyal A dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system
CN110090012A (zh) * 2019-03-15 2019-08-06 上海图灵医疗科技有限公司 一种基于机器学习的人体疾病检测方法及检测产品
US20200303075A1 (en) * 2019-03-18 2020-09-24 Kundan Krishna System and a method to predict occurrence of a chronic diseases
CN111312401B (zh) * 2020-01-14 2021-12-17 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统

Also Published As

Publication number Publication date
WO2021143780A1 (zh) 2021-07-22
US20220093257A1 (en) 2022-03-24
CN111312401A (zh) 2020-06-19
US11735321B2 (en) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111312401B (zh) 一种基于多标签学习的体检后慢性疾病预后系统
CN111524602B (zh) 一种老年人记忆及认知功能评估筛查预警系统
LaFreniere et al. Using machine learning to predict hypertension from a clinical dataset
JP7170145B2 (ja) 情報処理装置、プログラム、学習済みモデル、診断支援装置、学習装置及び予測モデルの生成方法
CN110246577B (zh) 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
WO2021190300A1 (zh) Ai慢性肾病风险筛查建模方法、慢性肾病风险筛查方法及系统
WO2023056918A1 (zh) 一种基于假阴性样本识别的体检辅助决策系统
CN116386860A (zh) 基于多模态的糖尿病及其并发症智能辅助预测与诊断平台
CN113160986A (zh) 用于预测全身炎症反应综合征发展的模型构建方法及系统
CN112991320A (zh) 脑出血患者血肿扩大风险预测系统及方法
CN112869697A (zh) 同时识别糖尿病视网膜病变的分期和病变特征的判断方法
CN114300126A (zh) 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统
KR20050043869A (ko) 적응 퍼지-뉴럴 네트워크를 이용한 유방암 자동 진단기의개발
Min et al. Application of the neural network in diagnosis of breast cancer based on levenberg-marquardt algorithm
Bhalla et al. A novel method for medical disease diagnosis using artificial neural networks based on backpropagation algorithm
CN114864097A (zh) 一种主动脉夹层病人术后死亡预测模型的建立方法和装置
Sancar et al. Body mass index estimation by using an adaptive neuro fuzzy inference system
Spiridon et al. Computerised decision system for diabetes mellitus and associated complications—CODES
TW202143248A (zh) 生醫資料預測風險系統與方法
CN116487038B (zh) 轻度认知障碍向阿尔茨海默发展的预测系统和存储介质
Franchuk et al. Prediction of subclinical gouty nephropathy by using neural networks
Ji et al. The Risk Prediction of Type 2 Diabetes based on XGBoost
Ramkumar et al. An Undertaken Report For Heart Disease Prediction And Identification Using Machine Learning Methods
Chen et al. An Explainable Intelligent Approach for Cardiovascular Disease Diagnosis from High-Dimensional Laboratory Test Results
Singla et al. 2 A medical intelligent system for diagnosis of chronic kidney disease using adaptive neuro-fuzzy inference system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant