CN111816310A - 一种骨髓血液疾病危险因素贡献率计算及风险预测系统 - Google Patents

一种骨髓血液疾病危险因素贡献率计算及风险预测系统 Download PDF

Info

Publication number
CN111816310A
CN111816310A CN202010687329.5A CN202010687329A CN111816310A CN 111816310 A CN111816310 A CN 111816310A CN 202010687329 A CN202010687329 A CN 202010687329A CN 111816310 A CN111816310 A CN 111816310A
Authority
CN
China
Prior art keywords
bone marrow
risk
disease
marrow blood
risk factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010687329.5A
Other languages
English (en)
Inventor
薛付忠
季晓康
丁荔洁
王永超
杨帆
李云霞
赵红玉
王睿
王京彦
朱俊奉
韩君铭
杨伟浩
徐聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangping Medical Health Co ltd
Shandong University
Sunshine Insurance Group Co Ltd
Original Assignee
Kangping Medical Health Co ltd
Shandong University
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangping Medical Health Co ltd, Shandong University, Sunshine Insurance Group Co Ltd filed Critical Kangping Medical Health Co ltd
Priority to CN202010687329.5A priority Critical patent/CN111816310A/zh
Publication of CN111816310A publication Critical patent/CN111816310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种骨髓血液疾病危险因素贡献率计算及风险预测系统,包括危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解;危险因素贡献率计算模块,针对各个危险因素,依次计算不具有该危险因素时的骨髓血液疾病发病概率,结合患病概率预测请求模块得到的患病概率,得到每个危险因素对患骨髓血液疾病事件的贡献率。本发明不仅能够实现骨髓血液疾病发病概率的预测,还能对影响患病概率的危险因素的影响程度进行分析,能够更好的为用户健康提供引导。

Description

一种骨髓血液疾病危险因素贡献率计算及风险预测系统
技术领域
本发明属于医疗大数据处理技术领域,尤其涉及一种骨髓血液疾病危险因素贡献率计算及风险预测系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
疾病风险预测对于医疗机构、保险机构和个体而言,都具有重要作用,根据疾病风险预测结果,医疗机构能够辅助疾病的确诊;保险机构能够根据不同群体的健康水平开发差异化定价的保险产品,使得保险客户能够体验到更为合理的费率;个体用户能够提前注意自身的身体状况,有利于提前预防。
包括红细胞疾病、白细胞疾病等在内的骨髓血液疾病,其中白血病、骨髓瘤等均属于重大疾病,目前已出现针对各类骨髓血液疾病的风险预测模型,但发明人发现,目前的疾病预测模型所采用的指标主要根据临床经验获取,包括临床化验指标和体检指标,例如利用ATRA和甾体类新药诱导髓系白血病HL60细胞,构建白血病细胞粒细胞系和单核细胞系分化模型,采用双向电泳技术,分离HL60细胞向粒细胞系、单细胞系分化前后差异表达蛋白质分子,经MALDI-TOF MS鉴定,对EF1A1、TLE1、NME3这3个差异表达蛋白质分子进行RT-PCR和WB验证,在白血病患者骨髓细胞中的表达情况,分析发现细胞分化前后NME3蛋白质表达下降;但是,该模型仅分析了蛋白质NME3蛋白质在白血病患者骨髓中的表达分析,通过标记物预测的方法首先局限性较大,成本较高,不易推广,普适性较低;而对于骨髓瘤风险评估的研究主要集中于对患者体液因子的种类及含量变化的检测;并且,临床化验指标需要当事人化验才能得到,而通常人们在有相关症状之前,或者购买保险之前,不会去医院针对骨髓血液疾病进行化验。而常规的体检数据尽管获取容易,但难以与骨髓血液疾病建立关系。
此外,对于个人而言,目前的模型预测结果仅是给出一个整体的概率数值,得到的仅是是否发病的两种情况,对于用户的指引作用、防护策略有限,而对于发病概率是受哪种或哪几种指标的影响,各个指标的影响程度或重要程度的排名,现有模型均无法给出指引。
发明内容
为克服上述现有技术的不足,本发明提供了一种骨髓血液疾病危险因素贡献率计算及风险预测系统,基于获取的骨髓血液疾病相关疾病变量,通过逐步筛选方法得到危险因素以及危险因素的重要程度排名,根据贡献率计算方法得到每个危险因素对患骨髓血液疾病事件的贡献率,即能够实现每个危险因素在风险预测中的影响程度,通过常见、经济且伤害较小的指标来预测,实现了骨髓血液疾病发病概率的预测。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种骨髓血液疾病危险因素贡献率计算系统,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解;
危险因素贡献率计算模块,针对各个危险因素,依次计算不具有该危险因素时的骨髓血液疾病发病概率,结合患病概率预测请求模块得到的患病概率,得到每个危险因素对患骨髓血液疾病事件的贡献率。
进一步地,所述骨髓血液疾病相关变量基于骨髓血液疾病大数据队列得到,所述骨髓疾病大数据队列包括具有骨髓血液疾病历史的用户就医、体检、医保数据,对于已过世用户,还包括死因数据。
进一步地,还针对骨髓血液疾病大数据队列,根据病例纳入标准进行病例筛选。
进一步地,所述逐步筛选方法包括:
将各骨髓血液疾病相关变量与骨髓血液疾病结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;
采用贝叶斯网络对骨髓血液疾病相关变量进行单因素分析,将单因素分析结果中与患骨髓血液疾病事件相关性最大的骨髓血液疾病相关疾病变量定义为一级危险因素;
取任意一个其他骨髓血液疾病相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患骨髓血液疾病事件相关性最大的其他骨髓血液疾病相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
进一步地,骨髓血液疾病患病概率预测模型采用多因素logistic回归分析与Gail模型相结合的方法进行构建。
进一步地,所述贡献率计算方法为:采用骨髓血液疾病患病风险预测模型,依次为各危险因素赋值为0并计算患病概率,得到不具有该危险因素时的患病概率,将其与患病概率预测请求模块计算的患病概率作差,得到每个危险因素对患病事件的贡献率。
进一步地,所述系统还包括可视化模块,获取患骨髓血液疾病事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告。
进一步地,所述骨髓血液疾病包括白血病、骨髓瘤和非霍奇金淋巴瘤。
进一步地,白血病的危险因素包括平均血小板体积、中性粒细胞数、红细胞压积、单核细胞数、淋巴细胞数、白细胞数和血小板计数;骨髓男性危险因素有结核、乙肝、胸腔积液、Ⅱ型糖尿病和慢性胃炎;骨髓女性危险因素有肾盂肾炎、乙肝、Ⅱ型糖尿病和慢性胃炎;非霍奇金淋巴瘤男性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘和贫血,非霍奇金淋巴瘤女性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘、糖尿病、淋巴结肿大和贫血。
一个或多个实施例提供了一种骨髓血液疾病风险预测系统,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
疾病患病概率预测模块,基于危险因素构建骨髓血液疾病患病概率预测模型;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解。以上一个或多个技术方案存在以下有益效果:
本发明不仅能够实现骨髓血液疾病发病概率的预测,还能对影响患病概率的危险因素的影响程度进行分析,能够更好的为用户健康提供引导。
本发明对指标选取基于骨髓血液疾病大数据队列,依次借助相关分析、贝叶斯网络以及逐步建模分析,优化指标选取结果,弥补了传统骨髓血液疾病预测模型建模只通过化验数据或只通过体检数据进行指标筛选的不足,保证了危险因素不被遗漏。
本发明考虑了骨髓血液疾病与其他疾病同时存在时,相关因素不一定指向骨髓血液疾病的情形,在骨髓血液疾病大数据队列中除纳入历史体检、化验、病例数据外,还纳入死亡数据,通过病例纳入标准最大限度的保证了病例数据的准确性,即保证各病例数据均是与骨髓血液疾病相关的数据。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的骨髓血液疾病危险因素贡献率计算系统架构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
一个或多个实施例公开了一种骨髓血液疾病危险因素贡献率计算系统,如图1所示,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
疾病患病概率预测模块,基于危险因素构建骨髓血液疾病患病概率预测模型;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解;
危险因素贡献率计算模块,针对各个危险因素,依次计算不具有该危险因素时的骨髓血液疾病发病概率,结合患病概率预测请求模块得到的患病概率,得到每个危险因素对患骨髓血液疾病事件的贡献率。
其中,所述骨髓血液疾病相关变量基于骨髓血液疾病大数据队列得到,所述骨髓疾病大数据队列包括具有骨髓血液疾病历史的用户就医、体检、医保数据,对于已过世用户,还包括死因数据。
所述逐步筛选方法包括:
(1)将各骨髓血液疾病相关变量与骨髓血液疾病结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;可以理解的,可通过矩阵的方法进行筛选,具体为:根据是否具有危险因素和是否发生骨髓血液疾病结局事件,构建二值化危险因素矩阵X、二值化骨髓血液疾病矩阵Y,将二值化危险因素矩阵X的每一列与矩阵Y进行相关性分析,得到相关性矩阵R,矩阵R中的各元素表示各危险因素与骨髓血液疾病的相关性,将相关性大于设定阈值的危险因素作为候选危险因素;
基于筛选的危险因素采用logistic回归模型进行单因素分析,通过逐步筛选法选择骨髓血液疾病的独立预测因子。检验水准α=0.05。
logistic回归模型的公式如下:
Figure BDA0002588047470000061
其中β0为常数项,β12,…,βp为回归系数,X1,X2,…,Xp为自变量,P为预测值。
(2)采用贝叶斯网络对骨髓血液疾病相关变量进行单因素分析,将单因素分析结果中与患骨髓血液疾病事件相关性最大的骨髓血液疾病相关疾病变量定义为一级危险因素;
(3)取任意一个其他骨髓血液疾病相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患骨髓血液疾病事件相关性最大的其他骨髓血液疾病相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
另外,本实施例中对模型进行优化:每次多引入一个新的危险指标,通过净重新分类指数(Net Reclassification Index,NRI)衡量模型的预测性能,得到预测性能最好的最终预测模型。
具体地,首先基于每个危险因素分别进行单因素建模,得到预测性能最好的初始预测模型,相应的危险因素即为最重要因素;然后,在该初始预测模型的基础上,引入其他危险因素中的一个,进行两因素建模,得到预测性能最好的两因素预测模型,新引入的危险因素即为次重要因素;依次类推,依次引入新的危险指标,直至预测模型的性能不再增强。本实施例模型的构建采用每次引入一个危险因素的方式,逐步确定与骨髓血液疾病最相关的危险因素,且保证了预测的准确度,同时对筛选得到的危险因素的重要性进行了排序。
基于危险因素构建骨髓血液疾病患病概率预测模型包括:
本实施例使用巢式病例对照研究和Gail模型相结合的方法计算骨髓血液疾病绝对发病风险。
根据接收队列纳入排除标准和对照组匹配规则,从健康管理体检人群队列中获取骨髓血液疾病病例和对照组数据,开展巢式病例对照研究;巢式病例对照研究设计排除基线患骨髓血液疾病和死亡人群以及随访期间患癌的人群后,筛选出随访期间的患病人群,然后按照1:4的比例根据年龄性别为其匹配相应的对照,随机抽取2/3队列人群作为训练组,其余1/3人群作为验证组进行内部验证。
由于骨髓血液疾病可能与其他疾病同时存在,此类情况就无法保证所得到的指标均是与骨髓血液疾病相关的,因此,本实施例引入了病例纳入标准:骨髓血液疾病初次诊断时间在2012年1月1日到2016年12月31日,期间至少有一次骨髓血液疾病诊断记录且无重要信息丢失的个体,骨髓血液疾病定义通过ICD10编码及诊断名称确定,根据年龄和性别,按设定比例为病例样本匹配对照组。
将最终获取的危险因素进行多因素logistic回归分析,结合Gail模型,建立骨髓血液疾病预测模型。
Gail模型是基于山东全人群全生命周期大数据队列人群中骨髓血液疾病的发病风险、竞争事件风险以及多因素非条件logistic回归模型结果,将个体发生骨髓血液疾病的相对风险值转化为绝对风险值,是一种发病风险计算的数学模型。
Gail模型的公式如下:
Figure BDA0002588047470000071
其中
Figure BDA0002588047470000072
Figure BDA0002588047470000073
为年龄别骨髓血液疾病发病率,F(t)=1-AR,AR为人群归因危险度。r(t)为相对风险,
Figure BDA0002588047470000074
是生存到t岁的竞争风险概率。
所述系统还包括可视化模块,获取患骨髓血液疾病事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告,发送至用户终端进行显示。
作为以上内容的补充,骨髓血液疾病队列基于疾病大数据队列获取,从疾病大数据队列中检索与骨髓血液疾病相关的疾病名称;由于骨髓血液疾病相关的表达形式较多,此处需进行同义词扩展,本领域技术人员可以理解,还可以通过构造逻辑表达式进行检索;首先经由客户端由用户对检索得到的骨髓血液疾病相关疾病名称进行审核;然后根据骨髓血液疾病相关疾病名称,从疾病大数据队列中匹配身份证号、性别、地域等数据,得到骨髓血液疾病大数据队列。
所述疾病大数据队列获取模块,从分布式数据库系统调取:
步骤2.1:根据预设的与疾病有关的字段,查找数据库系统中包含这些字段的数据表;
步骤2.2:基于查找到的数据表,抽取身份证号、疾病、疾病编码、患病时间等字段,并记录该疾病的数据来源,例如源地市、源数据表,在数据表中的ID等,生成疾病大数据队列。
所述分布式数据库系统包括布设在各地市的医疗信息数据库。本实施例中,医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。
在本实施例中,还包括对对疾病大数据队列进行数据标准化的数据标准化模块:
步骤3.1:从疾病大数据队列中筛选样本数据集,将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化;
其中,所述将样本数据中的疾病名称进行标准化包括:创建标准化名称字段,依次按照以下步骤执行标准化:
(1)名称相同对照:获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据,将原疾病名称写入标准化名称字段。
(2)名称相似对照:获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据,将原疾病名称写入标准化名称字段;所述相似性度量可采用余弦相似度、欧氏距离等现有文本相似度方法,在此不做限定。
(3)包含对照:获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据,例如“前列腺炎(非手术治疗)”和“前列腺炎”,将原疾病名称写入标准化名称字段。
(4)经由客户端由用户对样本数据的标准化名称进行人工审核。具体地,人工审核时可按频数将疾病名称进行排序,优先审核频数大的疾病名称。
步骤3.2:对于疾病大数据队列中未标准化的数据,将疾病名称与样本数据中的原疾病名称进行对照,完成部分疾病名称的标准化;
其中,所述对照方式与步骤2.1相同。具体地,对于疾病名称与样本数据中的原疾病名称满足名称相同、名称相似度大于设定阈值或存在包含关系的数据,将样本数据中原疾病名称对应的标准化名称写入标准化字段。
步骤3.3:对于疾病大数据队列中剩余未标准化的数据,将疾病编码与疾病分类标准中的编码进行对照,对于编码对照成功的数据,将疾病分类标准中的编码相应的疾病名称写入标准化字段。
具体地,将疾病编码与疾病分类标准中的编码进行对照分阶段进行:首先与疾病分类标准中的编码全部6位进行对照,其次与前4位进行对照,最后与前2位进行对照。疾病分类标准采用ICD10编码。
步骤3.4:经由客户端由用户对疾病大数据队列中的标准化名称进行人工审核,由于待标准化的数据量大,此处可按频数将疾病名称进行排序,仅审核频数较大的疾病名称;
步骤3.5:统计对照率,若对照率超过设定阈值,标准化结束。
本实施例针对来源复杂的医疗大数据,基于多个层级的文本匹配方式,获取样本数据的标准化数据,依次按照名称和编码匹配的方式,完成海量的数据标准化,相较于全部医疗大数据之间与标准数据直接匹配的方式,能够得到更高的标准化率和准确率,且兼顾了标准化的效率。
一个或多个实施例提供一种白血病风险预测系统,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
疾病患病概率预测模块,基于危险因素构建骨髓血液疾病患病概率预测模型;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解。
其中,具体实现过程参见上述贡献率计算系统。
实施例1
本实施例公开了一种白血病危险因素贡献率计算系统,包括:
危险因素筛选模块,基于获取的白血病相关变量,与患白血病事件进行相关性分析,通过逐步筛选方法得到危险因素以及危险因素的重要程度排名;
危险因素贡献率计算模块,根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算白血病发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患白血病事件的贡献率。
所述危险因素筛选模块中,根据白血病结局事件统计相关危险因素并进行筛选,具体地:
(1)将各白血病相关变量与白血病结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;白血病结局事件:白血病ICD-10编码包括C92、C90.1、C95、C93、C91、C94。
在本实施例中,所述白血病相关变量包括白细胞数、淋巴细胞数、单核细胞数、中性粒细胞数、血小板计数、平均血小板体积、平均血小板体积和红细胞压积。
(2)对白血病相关变量进行单因素分析,将单因素分析结果中与患白血病事件相关性最大的白血病相关疾病变量定义为一级危险因素;
(3)取任意一个其他白血病相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患白血病事件相关性最大的其他白血病相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
在本实施例中,筛选出的危险因素包括平均血小板体积、中性粒细胞数、红细胞压积、单核细胞数、淋巴细胞数、白细胞数和血小板计数。根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算白血病发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患白血病事件的贡献率。
所述系统还包括可视化模块,获取患白血病事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告,发送至用户终端进行显示。
实施例2
本实施例公开了一种骨髓瘤危险因素贡献率计算系统,包括:
危险因素筛选模块,基于获取的骨髓瘤相关变量,与患骨髓瘤事件进行相关性分析,通过逐步筛选方法得到危险因素以及危险因素的重要程度排名;
危险因素贡献率计算模块,根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算骨髓瘤发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患骨髓瘤事件的贡献率。
所述危险因素筛选模块中,根据骨髓瘤结局事件统计相关危险因素并进行筛选,具体地:
(1)将各骨髓瘤相关变量与骨髓瘤结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素。
在本实施例中,所述骨髓瘤相关变量包括肾盂肾炎、骨髓炎、结核、乙肝、骨髓纤维化、胸腔积液、辐射、Ⅱ型糖尿病、慢性胃炎和慢性肺炎。
(2)对骨髓瘤相关变量进行单因素分析,将单因素分析结果中与患骨髓瘤事件相关性最大的骨髓瘤相关疾病变量定义为一级危险因素;
(3)取任意一个其他骨髓瘤相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患骨髓瘤事件相关性最大的其他骨髓瘤相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
在本实施例中,本实施例最终选择的危险因素包括:纳入男性骨髓瘤险预测模型的预测因子有结核、乙肝、胸腔积液、Ⅱ型糖尿病和慢性胃炎;纳入女性骨髓瘤险预测模型的预测因子有肾盂肾炎、乙肝、Ⅱ型糖尿病和慢性胃炎。根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算骨髓瘤发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患骨髓瘤事件的贡献率。
所述系统还包括可视化模块,获取患骨髓瘤事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告,发送至用户终端进行显示。
实施例3
如图1所示,本实施例公开了一种非霍奇淋巴瘤危险因素贡献率计算系统,包括:
危险因素筛选模块,基于获取的非霍奇淋巴瘤相关变量,与患非霍奇淋巴瘤事件进行相关性分析,通过逐步筛选方法得到危险因素以及危险因素的重要程度排名;
危险因素贡献率计算模块,根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算非霍奇淋巴瘤发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患非霍奇淋巴瘤事件的贡献率。
在本实施例中,所述非霍奇淋巴瘤相关变量包括男性相关疾病变量和女性相关疾病变量,所述男性相关疾病变量包括幽门螺旋杆菌、乙肝、银屑病、湿疹、支气管哮喘、贫血;所述女性相关疾病变量包括幽门螺旋杆菌、乙肝、干燥综合征、风湿性关节炎、EB病毒感染、银屑病、湿疹、支气管哮喘、糖尿病、淋巴结肿大和贫血。
所述危险因素筛选模块中,根据非霍奇淋巴瘤结局事件统计相关危险因素并进行筛选,具体地:
(1)将各非霍奇淋巴瘤相关变量与非霍奇淋巴瘤结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素。
(2)对非霍奇淋巴瘤相关变量进行单因素分析,将单因素分析结果中与患非霍奇淋巴瘤事件相关性最大的非霍奇淋巴瘤相关疾病变量定义为一级危险因素;
(3)取任意一个其他非霍奇淋巴瘤相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患非霍奇淋巴瘤事件相关性最大的其他非霍奇淋巴瘤相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
在本实施例中,本实施例最终选择的危险因素包括男性危险因素和女性危险因素,所述男性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘和贫血;所述女性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘、糖尿病、淋巴结肿大和贫血。根据接收的发病风险预测请求中包含的危险因素,依次为其赋值为0并计算非霍奇淋巴瘤发病概率,得到不具有该危险因素时的发病概率,将其与实际发病概率作差,得到每个危险因素对患非霍奇淋巴瘤事件的贡献率。
所述系统还包括可视化模块,获取患非霍奇淋巴瘤事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告,发送至用户终端进行显示。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解;
危险因素贡献率计算模块,针对各个危险因素,依次计算不具有该危险因素时的骨髓血液疾病发病概率,结合患病概率预测请求模块得到的患病概率,得到每个危险因素对患骨髓血液疾病事件的贡献率。
2.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,所述骨髓血液疾病相关变量基于骨髓血液疾病大数据队列得到,所述骨髓疾病大数据队列包括具有骨髓血液疾病历史的用户就医、体检、医保数据,对于已过世用户,还包括死因数据。
3.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,还针对骨髓血液疾病大数据队列,根据病例纳入标准进行病例筛选。
4.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,所述逐步筛选方法包括:
将各骨髓血液疾病相关变量与骨髓血液疾病结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;
采用贝叶斯网络对骨髓血液疾病相关变量进行单因素分析,将单因素分析结果中与患骨髓血液疾病事件相关性最大的骨髓血液疾病相关疾病变量定义为一级危险因素;
取任意一个其他骨髓血液疾病相关变量与一级危险因素进行多因素分析,将多因素分析结果中与患骨髓血液疾病事件相关性最大的其他骨髓血液疾病相关变量定义为二级危险因素;依次逐步筛选,直至相关性达到预设阈值。
5.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,骨髓血液疾病患病概率预测模型采用多因素logistic回归分析与Gail模型相结合的方法进行构建。
6.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,所述贡献率计算方法为:采用骨髓血液疾病患病风险预测模型,依次为各危险因素赋值为0并计算患病概率,得到不具有该危险因素时的患病概率,将其与患病概率预测请求模块计算的患病概率作差,得到每个危险因素对患病事件的贡献率。
7.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,所述系统还包括可视化模块,获取患骨髓血液疾病事件的危险因素、危险因素的重要程度排名及各危险因素的贡献率,生成可视化健康报告。
8.如权利要求1所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,所述骨髓血液疾病包括白血病、骨髓瘤和非霍奇金淋巴瘤。
9.如权利要求8所述的一种骨髓血液疾病危险因素贡献率计算系统,其特征在于,白血病的危险因素包括平均血小板体积、中性粒细胞数、红细胞压积、单核细胞数、淋巴细胞数、白细胞数和血小板计数;骨髓男性危险因素有结核、乙肝、胸腔积液、Ⅱ型糖尿病和慢性胃炎;骨髓女性危险因素有肾盂肾炎、乙肝、Ⅱ型糖尿病和慢性胃炎;非霍奇金淋巴瘤男性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘和贫血,非霍奇金淋巴瘤女性危险因素包括幽门螺旋杆菌、乙肝、湿疹、支气管哮喘、糖尿病、淋巴结肿大和贫血。
10.一种骨髓血液疾病风险预测系统,其特征在于,包括:
危险因素筛选模块,基于获取的骨髓血液疾病相关变量,通过逐步筛选方法得到危险因素;
疾病患病概率预测模块,基于危险因素构建骨髓血液疾病患病概率预测模型;
患病概率预测请求模块,接收用户的患病概率预测请求,调取所述用户危险因素相应的取值,基于骨髓血液疾病患病概率预测模型进行求解。
CN202010687329.5A 2020-07-16 2020-07-16 一种骨髓血液疾病危险因素贡献率计算及风险预测系统 Pending CN111816310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010687329.5A CN111816310A (zh) 2020-07-16 2020-07-16 一种骨髓血液疾病危险因素贡献率计算及风险预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010687329.5A CN111816310A (zh) 2020-07-16 2020-07-16 一种骨髓血液疾病危险因素贡献率计算及风险预测系统

Publications (1)

Publication Number Publication Date
CN111816310A true CN111816310A (zh) 2020-10-23

Family

ID=72865311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010687329.5A Pending CN111816310A (zh) 2020-07-16 2020-07-16 一种骨髓血液疾病危险因素贡献率计算及风险预测系统

Country Status (1)

Country Link
CN (1) CN111816310A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835316A (zh) * 2021-01-06 2021-05-25 重庆医科大学 新生儿败血症休克预测系统及监控设备
CN113314222A (zh) * 2021-03-30 2021-08-27 零氪智慧医疗科技(天津)有限公司 适用于肿瘤患者的骨髓抑制风险预测方法、装置及存储介质
CN114974598A (zh) * 2022-06-29 2022-08-30 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测系统
CN115602328A (zh) * 2022-11-16 2023-01-13 深圳技术大学(Cn) 急性白血病的预警方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198211A (zh) * 2013-03-08 2013-07-10 北京理工大学 2型糖尿病发病危险因素对血糖影响的定量分析方法
CN107085666A (zh) * 2017-05-24 2017-08-22 山东大学 疾病风险评估与个性化健康报告生成系统及方法
CN107153774A (zh) * 2017-05-24 2017-09-12 山东大学 慢性病风险评估双曲线模型的构建及应用该模型的疾病预测系统
CN110782989A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 数据分析方法、装置、设备及计算机可读存储介质
CN111243753A (zh) * 2020-02-27 2020-06-05 西安交通大学 一种面向医疗数据的多因素相关性交互式分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198211A (zh) * 2013-03-08 2013-07-10 北京理工大学 2型糖尿病发病危险因素对血糖影响的定量分析方法
CN107085666A (zh) * 2017-05-24 2017-08-22 山东大学 疾病风险评估与个性化健康报告生成系统及方法
CN107153774A (zh) * 2017-05-24 2017-09-12 山东大学 慢性病风险评估双曲线模型的构建及应用该模型的疾病预测系统
CN110782989A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 数据分析方法、装置、设备及计算机可读存储介质
CN111243753A (zh) * 2020-02-27 2020-06-05 西安交通大学 一种面向医疗数据的多因素相关性交互式分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛付忠: "大数据背景下整合健康保险&健康维护的理论方法体系", 《山东大学学报(医学版)》, vol. 57, no. 9, pages 1 - 19 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835316A (zh) * 2021-01-06 2021-05-25 重庆医科大学 新生儿败血症休克预测系统及监控设备
CN112835316B (zh) * 2021-01-06 2022-04-19 重庆医科大学 新生儿败血症休克预测系统及监控设备
CN113314222A (zh) * 2021-03-30 2021-08-27 零氪智慧医疗科技(天津)有限公司 适用于肿瘤患者的骨髓抑制风险预测方法、装置及存储介质
CN114974598A (zh) * 2022-06-29 2022-08-30 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测系统
CN114974598B (zh) * 2022-06-29 2024-04-16 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测系统
CN115602328A (zh) * 2022-11-16 2023-01-13 深圳技术大学(Cn) 急性白血病的预警方法及装置

Similar Documents

Publication Publication Date Title
CN111816310A (zh) 一种骨髓血液疾病危险因素贡献率计算及风险预测系统
Harron et al. Challenges in administrative data linkage for research
Hammond et al. Using machine-coded event data for the micro-level study of political violence
Doyle et al. Finding undiagnosed patients with hepatitis C infection: an application of artificial intelligence to patient claims data
Aliabadi et al. Electronic health record–based disease surveillance systems: a systematic literature review on challenges and solutions
Manrique-Vallier et al. 9 Multiple Systems Estimation Techniques for Estimating
Carlson et al. Value-of-information analysis within a stakeholder-driven research prioritization process in a US setting: an application in cancer genomics
CN113934895A (zh) 一种辅助建立患者主索引的方法
Idnay et al. A systematic review on natural language processing systems for eligibility prescreening in clinical research
CN111883253A (zh) 基于医学知识库的疾病数据分析方法和肺癌风险预测系统
Haunschild et al. Field-and time-normalization of data with many zeros: an empirical analysis using citation and Twitter data
CN115330569A (zh) 用于儿童肿瘤疾病的负担差异与医疗资源的自动平衡方法
Mancini et al. Marked point process models for the admissions of heart failure patients
CN118197535A (zh) 一种抗生素联合用药推荐模型及其应用
Cannon-Albright et al. Creation of a national resource with linked genealogy and phenotypic data: the Veterans Genealogy Project
Grannis et al. Evaluation of real-world referential and probabilistic patient matching to advance patient identification strategy
Yon et al. Research protocol for systematic review and meta-analysis of elder abuse prevalence studies
CN111816316A (zh) 一种疾病数据调度管理方法和骨癌风险预测系统
CN111816318A (zh) 一种心脏疾病数据队列生成方法和风险预测系统
Kavanagh et al. Optimizing a literature surveillance strategy to retrieve sound overall prognosis and risk assessment model papers
CN116721699A (zh) 一种基于肿瘤基因检测结果的智能推荐方法
Velummailum et al. Data challenges for externally controlled trials
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
Rizzoli et al. Validity of cluster headache diagnoses in an electronic health record data repository
RU2723674C1 (ru) Способ прогнозирования диагноза на основе обработки данных, содержащих медицинские знания

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination