CN114464310A - 一种用于提高痛风患者分型判断准确率的方法 - Google Patents
一种用于提高痛风患者分型判断准确率的方法 Download PDFInfo
- Publication number
- CN114464310A CN114464310A CN202011250717.3A CN202011250717A CN114464310A CN 114464310 A CN114464310 A CN 114464310A CN 202011250717 A CN202011250717 A CN 202011250717A CN 114464310 A CN114464310 A CN 114464310A
- Authority
- CN
- China
- Prior art keywords
- gout
- patient
- uric acid
- typing
- blood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种用于提高痛风患者分型判断准确率的方法,属于基因检测技术领域,本发明包括:步骤1:采集病人的病历数据和特定基因数据;步骤2:计算痛风患者为尿酸排泄低下型的概率;步骤3:经过多次交叉验证后,对多次结果取平均值,最终获得概率P,将P与选定的阈值Y进行对比;如果P>Y,判断此患者为尿酸排泄低下型;如果P<Y,则判断此患者非尿酸排泄低下型。本发明通过特定基因数据的判定,并结合病人的相关的病历数据,通过SGD模型的多次运算,从而获得该病人的痛风分型概率,判断准确率高;且由于只需要做相应的基因检测即可获得痛风分型判断的依据,检测时间短,具有优良广泛的应用前景。
Description
技术领域
本发明涉及计算机医疗技术,尤其涉及一种用于提高痛风患者分型判断准确率的方法,属于医疗检测技术领域。
背景技术
随着近年来生活条件的提高,痛风的发病率越来越高,成为继高血压、高血脂、糖尿病后的第四高。从不同时间、不同地区报道的痛风患病情况来看,目前我国痛风的患病率为1%~3%,并呈逐年上升趋势。全球的痛风病患者也在不断增加。痛风常合并其他疾病,可诱发和加重心血管疾病、糖尿病、肾脏病等疾病,痛风带来的致残、致死率,大大增加了社会公共医疗卫生负担。
痛风为多基因遗传性疾病,其发生是遗传因素和环境因素相互作用及共同作用的结果。参与尿酸排泄和代谢的基因共同作用的结果将导致肝尿酸的合成增加和(或)肾尿酸的排泄减少,引起高尿酸血症,而高尿酸是痛风发病的重要生化基础。另外,内环境因素包括高血压、高血糖、脂代谢紊乱和食物等分别通过影响尿酸的合成和(或)排泄,诱发或加重高尿酸血症,增加痛风的发生风险。
痛风的发病机制非常复杂,目前临床上按照病因痛风的分型包括尿酸排泄减少型、尿酸合成增多型、混合型和肾尿酸排泄正常型。区分尿酸排泄减少或尿酸生成增多对痛风的临床分型和指导用药十分重要,既往大多以24h尿尿酸定量测定来简单区分,但此种方法受饮食、饮水、尿量及血尿酸的影响,而采用尿酸排泄分数(fractionexcretionofuricacid,FEUA)代替24h尿尿酸定量法,该指标消除了血尿酸波动、尿量等混杂因素的影响,更为准确可靠。尿酸排泄分数指经肾小球滤过的尿酸最终从尿中排出的百分率。计算公式为FEUA%=(血肌酐×尿尿酸)/(尿肌酐×血尿酸)×100。正常值为5%~10%。痛风患者中,尿酸排泄分数<5.5%的患者为尿酸排泄减少型,约占65%,尿酸排泄分数≥5.5%的患者为尿酸合成增多型。
前期研究结果显示,在肾尿酸排泄减少型患者中使用促尿酸排泄药物(苯溴马隆等)比使用抑制尿酸合成药物(别嘌呤醇、非布司他等)降尿酸疗效更显著,而在尿酸生成增多型患者中使用抑制尿酸合成药物降尿酸比尿酸排泄减少型疗效更佳,提示根据病因分型选择降尿酸药物是更高效,更经济的治疗策略。区分尿酸排泄减少或尿酸生成增多对痛风的临床分型和指导用药十分重要,指导痛风的个体化治疗,实现痛风的精准诊疗。
基于尿酸排泄分数对痛风患者进行分型更为准确可靠。现有技术中,为了测量尿酸排泄分数,传统痛风病因分型方法需要患者进行两周的低嘌呤饮食,停用影响尿酸排泄的所有药物,在第14天时采集24小时内的所有尿液。并且,采集患者静脉血后,检测血生化、尿生化,计算尿酸排泄分数FEUA。现有技术中的这种分型方法,不仅操作步骤繁琐,非常不便,而且患者配合度不高(患者配合时间过长且难以坚持低嘌呤饮食),容易造成结果的重大偏差,从而使治疗策略出现错误。
因此,研发一种准确、快速的痛风分型方法是本领域技术人员函待解决的技术问题。
发明内容
本发明提供一种新的用于提高痛风患者分型判断准确率的方法,通过选定的单核苷酸多态性位点数据结合其它临床诊疗数据,从而构建数学模型,加以运算后即可获得预测结果,以解决提高痛风分型的速度和准确率的技术问题。
本发明提供一种用于提高痛风患者分型判断准确率的方法,用于区分痛风患者是否属于肾尿酸排泄减少型;本发明包括以下步骤:
步骤一:采集病人的病历数据和特定基因数据;
其中,所述特定基因包括:rs3775948、rs2231142、rs11231463和rs504915四个SNP位点基因型;所述病历数据包括:患者年龄、是否有肾结石、是否高血压、空腹血糖、血尿素氮、血肌酐和血尿酸;
年龄设定为A、血糖设定为B、血尿素氮设定为C、血肌酐设定为D、血尿酸设定为E;是否肾结石设定为F,F为0或1;是否高血压设定为G,G为0或1;
同时设定基因型rs504915为H、rs2231142为I、rs3775948为J和rs11231463为K;H、I、J、K均可选择0或1;
步骤二:计算痛风患者为尿酸排泄低下型的概率;
其中,年龄数据经归一化处理,(A-15)/(83-15)=A0,从而获得A0;
血糖经过归一化为(B-4)/(10.68-4),从而获得B0;
血尿素氮经过归一化为(C-2)/(15.6-2),从而获得C0;
血肌酐经过归一化为(D-239)/(856-239),从而获得D0;
血尿酸经过归一化为(E-51)/(182-51),从而获得E0;
将数据分成训练集和测试集,训练集进行多次交叉验证,使用随机梯度下降法的线性分类器逻辑回归作为拟合模型,得到SGD模型根据训练集学习到的线性函数的系数、截距和逻辑回归方程f(x)=1/[1+e(-x)];
步骤三:经过多次交叉验证后,对多次结果取平均值,最终获得概率P,将P与选定的阈值Y进行对比;
如果P>Y,判断此患者为尿酸排泄低下型;如果P<Y,则判断此患者非尿酸排泄低下型。
在本发明另一实施例中,所述Y的取值为0.8501788655371646。
在本发明另一实施例中,其中,患肾结石,则F=1,否则为0;患高血压,则G=1,否则为0;
同时,rs504915基因中,AA型则H=1,TT、AT型H=0;
rs2231142基因中,GG型则I=1,TT、GT型则I=0;
rs3775948基因中,GG型则J=1,CC、GC型则J=0;
rs11231463基因中,GG型则K=1,AA、GA型则K=0。
在本发明另一实施例中,所述步骤二中,交叉运算的次数为十次;所述步骤三中,经过多次交叉验证后,对十次结果取平均值以获得最终概率P。
在本发明另一实施例中,所述尿酸排泄低下型的判定标准为24小时尿酸排泄分数FEUA<5.5%。
在本发明另一实施例中,所述步骤一中,所述病历数据中的每一项均采用LASSO算法(Least absolute shrinkage and selection operator,套索算法)筛选后以获得;
其中,所述LASSO算法的筛选过程如下:
步骤a:将所有病人的病历数据和特定基因数据,按照5:1的比例分为训练集和测试集;
步骤b:训练集和测试集的所有变量都被归一化为最小-最大归一化;在训练集中,使用最小绝对收缩选择算子对病历数据进行特征选择,得到有效的变量最少的模型;
步骤c:通过步骤b获得筛选后的病历数据的特定数据,以形成所述步骤一种所采取的具体病历数据。
在本发明另一实施例中,所述步骤a中,使用20%的缺失值作为阈值来去除不完整的所述病历数据的其中一项特征;对缺失值的特征进行填充,采用R填充包中的k近邻填充算法。
在本发明另一实施例中,所述步骤b中,通过将系数的l1范数作为惩罚项加到损失函数上构造一个一阶惩罚函数,实现参数缩减执行特征选择,使结果向量产生稀疏性,最终通过将一些弱变量所对应的系数压缩为0执行特征筛选。
在本发明另一实施例中,所述步骤c中,在建立痛风患者分型的模型的过程中,逻辑回归通过使用其固有的logistic函数估计概率,来衡量因变量与一个或多个自变量之间的关系;该模型超参数设置为alpha=0.001,l1_ratio=1.0,loss='log',penalty='elasticnet'。
在本发明另一实施例中,每次交叉验证过程中所采用的系数,均是通过SGD模型根据训练集学习到的线性函数而获得。
本发明通过特定基因数据的判定,并结合病人的相关的病历数据,通过SGD模型的多次运算,从而获得该病人的痛风分型概率,判断准确率高;且由于只需要做相应的基因检测即可获得痛风分型判断的依据,检测时间短,具有优良广泛的应用前景。
附图说明
图1为本发明实施例的用于提高痛风患者分型判断准确率的方法的模型比对曲线示意图。
具体实施方式
本发明实施例一种用于提高痛风患者分型判断准确率的方法的优点在于:
本发明提供一种用于提高痛风患者分型判断准确率的方法,用于区分痛风患者是否属于肾尿酸排泄减少型;本发明包括以下步骤:
步骤一:采集病人的病历数据和特定基因数据;
其中,所述特定基因包括:rs3775948、rs2231142、rs11231463和rs504915四个SNP位点基因型;所述病历数据包括:患者年龄、是否有肾结石、是否高血压、空腹血糖、血尿素氮、血肌酐和血尿酸;
年龄设定为A、血糖设定为B、血尿素氮设定为C、血肌酐设定为D、血尿酸设定为E;是否肾结石设定为F,F为0或1;是否高血压设定为G,G为0或1;
同时设定基因型rs504915为H、rs2231142为I、rs3775948为J和rs11231463为K;H、I、J、K均可选择0或1;
步骤二:计算痛风患者为尿酸排泄低下型的概率;
其中,年龄数据经归一化处理,(A-15)/(83-15)=A0,从而获得A0;
血糖经过归一化为(B-4)/(10.68-4),从而获得B0;
血尿素氮经过归一化为(C-2)/(15.6-2),从而获得C0;
血肌酐经过归一化为(D-239)/(856-239),从而获得D0;
血尿酸经过归一化为(E-51)/(182-51),从而获得E0;
将数据分成训练集和测试集,训练集进行多次交叉验证,使用随机梯度下降法的线性分类器逻辑回归作为拟合模型,得到SGD模型根据训练集学习到的线性函数的系数、截距和逻辑回归方程f(x)=1/[1+e(-x)];
步骤三:经过多次交叉验证后,对多次结果取平均值,最终获得概率P,将P与选定的阈值Y进行对比;
如果P>Y,判断此患者为尿酸排泄低下型;如果P<Y,则判断此患者非尿酸排泄低下型。
一般情况下,Y的取值范围为0.5到0.851之间;优选的,所述Y的取值为0.8501788655371646。
在模型效果评估中,真阳性率(灵敏度)越大越好,假阳性率越小越好,所以只要能够得到不同阈值条件下的真阳性率和假阳性率,计算之间的差值,结果值最大的就是最佳阈值。所以本模型将最优阈值定为0.8501788655371646。
在本发明实施例中,其中,患肾结石,则F=1,否则为0;患高血压,则G=1,否则为0;
同时,rs504915基因中,AA型则H=1,TT、AT型H=0;
rs2231142基因中,GG型则I=1,TT、GT型则I=0;
rs3775948基因中,GG型则J=1,CC、GC型则J=0;
rs11231463基因中,GG型则K=1,AA、GA型则K=0。
SGD使用线性分类器逻辑回归作为拟合模型,逻辑回归是使用sigmoid函数将Y映射为[0,1]。我们将类别分为1,0,令p为类别1的概率,那么我们把p/1-p叫做胜率(odds)或者优势比,胜率是指事件发生的概率与事件不发生概率的比值。胜率和变量的系数是线性关系。如果只是定性地来看的话,在特征都已经标准化(或者归一化)的情况下,系数的绝对值越大,说明这个特征越重要。若系数为正,这个特征与目标值为1的概率正相关;若系数为负,这个特征与目标值为0的概率正相关。以系数β1为例,如果x1是连续变量,当x1变化一个单位且其他变量保持不变时,新的胜率变成了原来的eβ1倍。因此,可以近似认为在特征都已标准化的情况下(统一量纲),逻辑回归的系数可以看成胜率的权重(eβ)。
梯度下降法(SGD)是一个简单有效的方法,主要用于凸损失函数下线性分类器的判别式学习(例如logistic回归),用于对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。SGD是一系列采用了梯度下降来求解参数的算法的集合,这里的SGD模型--随机梯度下降法(Stochasticgradient descent,SGD),使用线性分类器逻辑回归作为拟合模型。模型的学习速率会随着迭代地进行而减小。正则化是损失函数中的惩罚项,该惩罚会将参数向零向量压缩,罚项可以是平方的欧式2范数,也可以是绝对值1范数,还可以两者的结合,这里使用L2范数和L1范数的组合作为惩罚项。
系数和截距就是SGD模型根据训练集学习到的线性函数
在本发明实施例中,所述步骤二中,交叉运算的次数为十次;所述步骤三中,经过多次交叉验证后,对十次结果取平均值以获得最终概率P。
在本发明实施例中,所述尿酸排泄低下型的判定标准为24小时尿酸排泄分数FEUA<5.5%。
在本发明实施例中,所述步骤一中,所述病历数据中的每一项均采用LASSO算法筛选后以获得;
其中,所述LASSO算法的筛选过程如下:
步骤a:将所有病人的病历数据和特定基因数据,按照5:1的比例分为训练集和测试集;
步骤b:训练集和测试集的所有变量都被归一化为最小-最大归一化;在训练集中,使用最小绝对收缩选择算子对病历数据进行特征选择,得到有效的变量最少的模型;
步骤c:通过步骤b获得筛选后的病历数据的特定数据,以形成所述步骤一种所采取的具体病历数据。
在本发明实施例中,所述步骤a中,使用20%的缺失值作为阈值来去除不完整的所述病历数据的其中一项特征;对缺失值的特征进行填充,采用R填充包中的k近邻填充算法。
在本发明实施例中,所述步骤b中,通过将系数的l1范数作为惩罚项加到损失函数上构造一个一阶惩罚函数,实现参数缩减执行特征选择,使结果向量产生稀疏性,最终通过将一些弱变量所对应的系数压缩为0执行特征筛选。
在本发明实施例中,所述步骤c中,在建立痛风患者分型的模型的过程中,逻辑回归通过使用其固有的logistic函数估计概率,来衡量因变量与一个或多个自变量之间的关系;该模型超参数设置为alpha=0.001,l1_ratio=1.0,loss='log',penalty='elasticnet'。
在本发明实施例中,每次交叉验证过程中所采用的系数,均是通过SGD模型根据训练集学习到的线性函数而获得。
为了避免过度拟合,在训练集上使用了10倍交叉验证。在验证和测试集中,使用AUC、灵敏度、特异性、准确度和精确-召回(PR)曲线对最终模型进行评估。
本发明通过标志物组合及数据挖掘算法的联合应用来建立基因标志物组合模型,利用多组学预测模型区分痛风亚型,本发明中的方法通过以下方式可以获得:
1、通过收集1220例痛风样品的临床诊疗数据和与并结合痛风亚型密切相关的四个基因单核苷酸多态性位点数据,首先将样本按照训练集:测试集=5:1执行随机分割;其中,四个痛风亚型密切相关基因为本发明首次提出且发现其应用价值。
肾脏尿酸排泄低下是导致痛风患者高尿酸血症的主要原因,遗传因素对肾脏尿酸排泄有很大的影响。据估计,尿酸排泄分数(fractional excretion of uric acid,FEUA)的遗传度在46%-96%之间。在既往GWAS研究中报道了一些与FEUA相关的遗传变异位点,其中大部分SNP编码转运体参与肾尿酸排泄。因此,这些转运蛋白的遗传变异对FEUA影响重大。
rs2231142所在的ABCG2基因转录出的是一种ATP结合转运蛋白,在近端肾小管表达的ABCG2主要负责肾小管尿酸的分泌,国内外大量研究资料显示,该基因功能与血尿酸水平密切相关,rs2231142位点变异直接影响人体尿酸排泄。
rs504915所在的SLC22A12编码尿酸盐阴离子交换体URAT1,在近端肾小管负责尿酸重吸收,其基因变异与血尿酸浓度升高、尿尿酸排泄减少密切相关,是目前临床常用降尿酸药物(苯溴马隆)的作用靶点。
rs3775948所在的SLC2A9编码的GLUT9,是一种在近端肾小管细胞和肝脏中高表达的葡萄糖转运载体家族成员,也是高效的尿酸转运体,参与体内尿酸盐的重吸收。
rs11231463所在的SLC22A9编码有机阴离子转运体7OAT7,影响肝脏尿酸盐摄取活性。
鉴于这些基因对血尿酸水平、尿酸排泄的影响,选取这四个基因对FEUA进行预测,即可实现对痛风患者精准分型。
大量对尿酸盐稳态调节机制的遗传学研究显示,ABCG2、GLUT9、URAT1对尿酸在肾脏中的分泌、重吸收的作用影响最大,这三个基因的变异可解释5%尿酸盐水平的变化,超过了迄今发现的其他变异的总和。因其对于尿尿酸排泄、血尿酸水平影响重大,联合OAT7,这些基因有望成为预测尿酸排泄分数[(血肌酐×尿尿酸)/(尿肌酐×血尿酸)×100]的重要标志物。
2、在训练集中,本发明利用lasso算法从年龄、性别、血压、血糖、实验室检查、家族史、单核苷酸多态性位点等多种信息中,通过将系数的l1范数作为惩罚项加到损失函数上构造一个一阶惩罚函数,实现参数缩减执行特征选择,使结果向量产生稀疏性,最终通过将一些弱变量所对应的系数压缩为0执行特征筛选。
最终筛选出7个与痛风亚型密切相关的特征,分别为患者年龄、是否有肾结石、是否高血压、空腹血糖、血尿素氮、血肌酐和血尿酸。
3、本发明使用支持向量机,逻辑回归,随机梯度下降算法建立模型。支持向量机是一种二类分类模型,其学习策略是的间隔最大化,最终可转化为一个凸二次规划问题的求解。
本实施例选择支持向量机的一个线性核函数,通过将数据映射到高维空间,解决在原始空间中线性不可分的问题。逻辑回归通过使用其固有的logistic函数估计概率,来衡量因变量与一个或多个自变量之间的关系,在本文中设置此模型超参数为C=1.0,penalty='l1'。随机梯度下降是一种用于在线性分类器下的线性分类器的判别学习方法,通过每次迭代都随机从训练集中抽取出一定量的样本,从而获得一个损失值在可接受范围之内的模型,在本文中此模型的超参数设置为alpha=0.001,l1_ratio=1.0,loss='log',penalty='elasticnet'。
4、最后,使用受试者工作特征曲线下的面积、敏感性、特异性、准确性和PR曲线来评估所有应用模型的识别能力。受试者工作特征曲线,即ROC曲线,它是根据一系列设定阈值,以真阳性率TPR(灵敏度)为纵坐标,伪阳性率FPR(1-特异度)为横坐标绘制的曲线,反映在不同阈值下,TPR以及FPR的变化,曲线越靠近左上角,表明模型的分类性能越好;灵敏度是模型中正确预测的比例,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;准确度描述了分类器对整体数据的判断能力,能将正的判定为正,负的判定为负;正确率是最常见的评价指标,是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;特异性表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;PR(precision recall)曲线表现的是precision和recall之间的关系,是以Recall为X轴,Precision为Y轴绘制图像,是当处理一些高度不均衡的数据集时,PR曲线能表现出更多的信息,PR曲线在正负样本比例悬殊较大时更能反映分类的性能。
该模型的有效性验证:采用某队列数据验证结果证明预测性能良好,受试者工作特征曲线下可以很好的识别痛风亚群。
本发明通过特定基因数据的判定,并结合病人的相关的病历数据,通过SGD模型的多次运算,从而获得该病人的痛风分型概率,判断准确率高;且由于只需要做相应的基因检测即可获得痛风分型判断的依据,检测时间短,具有优良广泛的应用前景。
本发明首次采用以上基因的相关SNP,经多种数学模型(如SGD、LG和SVC)测算;其结果都比较理想。
三种模型SGD、LG、SVC所测算的结果如下表所示
通过上表即可看出,单纯四个基因即可具有痛风分型的应用价值。且7个与痛风亚型密切相关的特征结合四个基因即可能够获得极高的AUC、灵敏度、特异性和准确率。
本发明的用于提高痛风患者分型判断准确率的方法其实际应用如下几个实施例。
第一具体实施例中,一名痛风患者年龄为36,没有新发肾结石,没有高血压,血糖(以下用GLU简化代指)值为5.92,血尿素氮(以下用BUN简化代指)值为5.2,血肌酐(以下用UA简化代指)值为580,血尿酸(以下用CREA简化代指)值为87,检测四个SNP位点(rs504915.AA,rs2231142.GG,rs3775948.GG,rs11231463.GG)分型情况为0,0,0,0,通过我们的模型进行如下计算:
特征:age=36,肾结石=0,高血压=0,GLU=5.92,BUN=5.2,UA=580,CREA=87,rs504915.AA=0,rs2231142.GG=0,rs3775948.GG=0,rs11231463.GG=0计算公式:f(x)=1/[1+e(-x)]
注:此例患者年龄为36,15岁为群体最小年龄,83岁为群体最大年龄,(36-15)/(83-15)操作为年龄的归一化过程;此例患者GLU值为5.92,GLU经过归一化为(5.92-4)/(10.68-4);此例患者BUN值为5.2,BUN经过归一化为(5.2-2)/(15.6-2);此例患者UA值为580,UA经过归一化为(580-239)/(856-239);此例患者CREA值为87,CREA经过归一化为(87-51)/(182-51)。
1-cv:第一次交叉验证模型
系数:[[-0.90765346 -0.51260935 -0.54116454 -3.0810441 -2.032278654.16927475
-2.10595601 -0.36857588 0.15639811 -0.94010012 -0.51056364]]系数是通过训练集学习出的模型就直接给出
截距:[2.31828433]
第1次交叉验证结果:
X=-0.90765346*(36-15)/(83-15)
-0.51260935*0-0.54116454*0-3.0810441*(5.92-4)/(10.68-4)-2.03227865*(5.2-2)/(15.6-2)+4.16927475*(580-239)/(856-239)-2.10595601*(87-51)/(182-51)-0.36857588*0+0.15639811*0-0.94010012*0-0.51056364*0+2.31828433=2.399741522
f=1/[1+exp(-2.399741522)]=0.916807591
2-cv:第二次交叉验证模型
系数:[[-0.59697533 -0.44713309 -0.51904862 -2.93353462 -2.416553293.99007871
-2.67966274 -0.74406901 0.22102817 -0.81551026 -0.36441399]]
截距:[2.78791813]
第2次交叉验证结果:
X=-0.59697533*(36-15)/(83-15)
-0.44713309*0-0.51904862*0-2.93353462*(5.92-4)/(10.68-4)-2.41655329*(5.2-2)/(15.6-2)+3.99007871*(580-239)/(856-239)-2.67966274*(87-51)/(182-51)-0.74406901*0+0.22102817*0-0.81551026*0-0.36441399*0+2.78791813=2.660603512
f=1/[1+exp(-2.660603512)]=0.934661532
3-cv:
系数:[[-0.7655531 -0.57647055 -0.58908225 -3.30576783 -1.844390984.55152157
-3.07389524 -0.40034612 0.23637881 -0.91875306 -0.48503917]]
截距:[2.62923009]
第3次交叉验证结果:
X=-0.7655531*(36-15)/(83-15)
-0.57647055*0-0.58908225*0-3.30576783*(5.92-4)/(10.68-4)-1.84439098*(5.2-2)/(15.6-2)+4.55152157*(580-239)/(856-239)-3.07389524*(87-51)/(182-51)-0.40034612*0+0.23637881*0-0.91875306*0-0.48503917*0+2.62923009=2.679448228
f=1/[1+exp(-2.679448228)]=0.935802983
4-cv:
系数:[[-0.62799107 -0.41883181 -0.52738287 -3.34686252 -2.213747494.52308127
-3.87873776 -0.81149625 0.04179361 -1.06616349 0.]]
截距:[2.80165321]
第4次交叉验证结果:
X=-0.62799107*(36-15)/(83-15)
-0.41883181*0-0.52738287*0-3.34686252*(5.92-4)/(10.68-4)-2.21374749*(5.2-2)/(15.6-2)+4.52308127*(580-239)/(856-239)-3.87873776*(87-51)/(182-51)-0.81149625*0+0.04179361*0-1.06616349*0-0*0+2.80165321=2.55873836
f=1/[1+exp(-2.55873836)]=0.928158377
5-cv:
系数:[[-1.04659147 -0.34860374 -0.48256978 -3.22439531 -0.81679944.50199468
-3.49159914 -0.77939353 0.25498829 -0.9049369 0.]]
截距:[2.71063891]
第5次交叉验证结果:
X=-1.04659147*(36-15)/(83-15)
-0.34860374*0-0.48256978*0-3.22439531*(5.92-4)/(10.68-4)-0.8167994*(5.2-2)/(15.6-2)+4.50199468*(580-239)/(856-239)-3.49159914*(87-51)/(182-51)-0.77939353*0+0.25498829*0-0.9049369*0+0*0+2.7106389=2.797079456
f=1/[1+exp(-2.797079456)]=0.942517799
6-cv:
系数:[[-0.73580497 -0.55454626 -0.50942581 -3.01971031 -2.154287235.03464866
-3.21388304-0.62599592 0.36168646 -0.79870413 -0.54089583]]
截距:[2.28341956]
第6次交叉验证结果:
X=-0.73580497*(36-15)/(83-15)
-0.55454626*0-0.50942581*0-3.01971031*(5.92-4)/(10.68-4)-2.15428723*(5.2-2)/(15.6-2)+5.03464866*(580-239)/(856-239)-3.21388304*(87-51)/(182-51)-0.62599592*0+0.36168646*0-0.79870413*0-0.54089583*0+2.28341956=2.580669944
f=1/[1+exp(-2.580669944)]=0.929607121
7-cv:
系数:[[-1.13157617 -0.37512326 -0.50818722 -2.22590543 -2.360398914.65385234
-3.46255587 -0.62531519 0.12948498 -1.02927979 -0.43736697]]
截距:[2.34853289]
第7次交叉验证结果:
X=-1.13157617*(36-15)/(83-15)
-0.37512326*0-0.50818722*0-2.22590543*(5.92-4)/(10.68-4)-2.36039891*(5.2-2)/(15.6-2)+4.65385234*(580-239)/(856-239)-3.46255587*(87-51)/(182-51)-0.62531519*0+0.12948498*0-1.02927979*0-0.43736697*0+2.34853289=2.424428551
f=1/[1+exp(-2.424428551)]=0.918671235
8-cv:
系数:[[-1.00021808 -0.62730189 -0.71082045 -3.32576563 -1.522838064.06986614
-3.87491195 -0.7075802 0.25536127 -0.95357884 -0.44342562]]
截距:[2.81589688]
第8次交叉验证结果:
X=-1.00021808*(36-15)/(83-15)
-0.62730189*0-0.71082045*0-3.32576563*(5.92-4)/(10.68-4)-1.52283806*(5.2-2)/(15.6-2)+4.06986614*(580-239)/(856-239)-3.87491195*(87-51)/(182-51)-0.7075802*0+0.25536127*0-0.95357884*0-0.44342562*0+2.81589688=2.377231317
f=1/[1+exp(-2.377231317)]=0.915074518
9-cv:
系数:[[-1.05138347 -0.33934801 -0.66481536 -3.60236095 -0.269051584.51167267
-3.51715026 -0.66334003 0.13603654 -1.19729734 -0.22200436]]
截距:[2.85141396]
第9次交叉验证结果:
X=-1.05138347*(36-15)/(83-15)
-0.33934801*0-0.66481536*0-3.60236095*(5.92-4)/(10.68-4)-0.26905158*(5.2-2)/(15.6-2)+4.51167267*(580-239)/(856-239)-3.51715026*(87-51)/(182-51)-0.66334003*0+0.13603654*0-1.19729734*0-0.22200436*0+2.85141396=2.954946727
f=1/[1+exp(-2.954946727)]=0.950496764
10-cv:
系数:[[-1.20359792 -0.35435645 -0.53270176 -3.42198439 0.3.97760734
-3.35996761 -0.48153689 0.2189597 -0.75752342 -0.49509627]]
截距:[2.92745419]
第10次交叉验证结果:
X=-1.20359792*(36-15)/(83-15)
-0.35435645*0-0.53270176*0-3.42198439*(5.92-4)/(10.68-4)+0*(5.2-2)/(15.6-2)+3.97760734*(580-239)/(856-239)-3.35996761*(87-51)/(182-51)-0.48153689*0+0.2189597*0-0.75752342*0-0.49509627*0+2.92745419=2.847161
f=1/[1+exp(-2.847161)]=0.9451717
经过10折交叉验证后,对10次概率取平均值,得到预测为feua-group的概率P=0.93169697,0.93169697与阈值0.8501788655371646做比较,0.93169697>0.8501788655371646,判断此患者为feua-1类,即FEUA小于5.5%。若<0.8501788655371646,则患者为feua-0类即FEUA大于5.5%。
第二具体实施例中,一名痛风患者年龄为63,没有新发肾结石,没有高血压,GLU值为5.06,BUN值为5.4,UA值为391,CREA值为95,检测四个SNP位点(rs504915.AA,rs2231142.GG,rs3775948.GG,rs11231463.GG)分型情况为0,0,0,0,通过我们的模型进行如下计算:
特征:age=63,肾结石=0,高血压=0,GLU=5.06,BUN=5.4,UA=391,CREA=95,rs504915.AA=0,rs2231142.GG=0,rs3775948.GG=0,rs11231463.GG=0
计算公式:f(x)=1/[1+e(-x)]
注:此例患者年龄为63,15岁为群体最小年龄,83岁为群体最大年龄,(63-15)/(83-15)操作为年龄的归一化过程;此例患者GLU值为5.06,GLU经过归一化为(5.06-4)/(10.68-4);此例患者BUN值为5.4,BUN经过归一化为(5.4-2)/(15.6-2);此例患者UA值为391,UA经过归一化为(391-239)/(856-239);此例患者CREA值为95,CREA经过归一化为(95-51)/(182-51)。
1-cv:第一次交叉验证模型
系数:[[-0.90765346 -0.51260935 -0.54116454 -3.0810441 -2.032278654.16927475
-2.10595601 -0.36857588 0.15639811 -0.94010012 -0.51056364]]系数是通过训练集学习出的模型就直接给出,
截距:[2.31828433]
第1次交叉验证结果:
X=-0.90765346*(63-15)/(83-15)
-0.51260935*0-0.54116454*0-3.0810441*(5.06-4)/(10.68-4)-2.03227865*(5.4-2)/(15.6-2)+4.16927475*(391-239)/(856-239)-2.10595601*(95-51)/(182-51)-0.36857588*0+0.15639811*0-0.94010012*0-0.51056364*0+2.31828433=1.000380596
f=1/[1+exp(-1.000380596)]=0.731133402
2-cv:第二次交叉验证模型
系数:[[-0.59697533 -0.44713309 -0.51904862 -2.93353462 -2.416553293.99007871
-2.67966274 -0.74406901 0.22102817 -0.81551026 -0.36441399]]
截距:[2.78791813]
第2次交叉验证结果:
X=-0.59697533*(63-15)/(83-15)
-0.44713309*0-0.51904862*0-2.93353462*(5.06-4)/(10.68-4)-2.41655329*(5.4-2)/(15.6-2)+3.99007871*(391-239)/(856-239)-2.67966274*(95-51)/(182-51)-0.74406901*0+0.22102817*0-0.81551026*0-0.36441399*0+2.78791813=1.379814208
f=1/[1+exp(-1.379814208)]=0.79896116
3-cv:
系数:[[-0.7655531 -0.57647055 -0.58908225 -3.30576783 -1.844390984.55152157
-3.07389524 -0.40034612 0.23637881 -0.91875306 -0.48503917]]
截距:[2.62923009]
第3次交叉验证结果:
X=-0.7655531*(63-15)/(83-15)
-0.57647055*0-0.58908225*0-3.30576783*(5.06-4)/(10.68-4)-1.84439098*(5.4-2)/(15.6-2)+4.55152157*(391-239)/(856-239)-3.07389524*(95-51)/(182-51)-0.40034612*0+0.23637881*0-0.91875306*0-0.48503917*0+2.62923009=1.192003071
f=1/[1+exp(-1.192003071)]=0.76709912
4-cv:
系数:[[-0.62799107 -0.41883181 -0.52738287 -3.34686252 -2.213747494.52308127
-3.87873776 -0.81149625 0.04179361 -1.06616349 0.]]
截距:[2.80165321]
第4次交叉验证结果:
X=-0.62799107*(63-15)/(83-15)
-0.41883181*0-0.52738287*0-3.34686252*(5.06-4)/(10.68-4)-2.21374749*(5.4-2)/(15.6-2)+4.52308127*(391-239)/(856-239)-3.87873776*(95-51)/(182-51)-0.81149625*0+0.04179361*0-1.06616349*0-0*0+2.80165321=1.085333511
f=1/[1+exp(-1.085333511)]=0.747501973
5-cv:
系数:[[-1.04659147 -0.34860374 -0.48256978 -3.22439531 -0.81679944.50199468
-3.49159914 -0.77939353 0.25498829 -0.9049369 0.]]
截距:[2.71063891]
第5次交叉验证结果:
X=-1.04659147*(63-15)/(83-15)
-0.34860374*0-0.48256978*0-3.22439531*(5.06-4)/(10.68-4)-0.8167994*(5.4-2)/(15.6-2)+4.50199468*(391-239)/(856-239)-3.49159914*(95-51)/(182-51)-0.77939353*0+0.25498829*0-0.9049369*0+0*0+2.7106389=1.192343559
f=1/[1+exp(-1.192343559)]=0.767159946
6-cv:
系数:[[-0.73580497 -0.55454626 -0.50942581 -3.01971031 -2.154287235.03464866
-3.21388304 -0.62599592 0.36168646 -0.79870413 -0.54089583]]
截距:[2.28341956]
第6次交叉验证结果:
X=-0.73580497*(63-15)/(83-15)
-0.55454626*0-0.50942581*0-3.01971031*(5.06-4)/(10.68-4)-2.15428723*(5.4-2)/(15.6-2)+5.03464866*(391-239)/(856-239)-3.21388304*(95-51)/(182-51)-0.62599592*0+0.36168646*0-0.79870413*0-0.54089583*0+2.28341956=0.90711068
f=1/[1+exp(-0.90711068)]=0.712408555
7-cv:
系数:[[-1.13157617 -0.37512326 -0.50818722 -2.22590543 -2.360398914.65385234
-3.46255587 -0.62531519 0.12948498 -1.02927979 -0.43736697]]
截距:[2.34853289]
第7次交叉验证结果:
X=-1.13157617*(63-15)/(83-15)
-0.37512326*0-0.50818722*0-2.22590543*(5.06-4)/(10.68-4)-2.36039891*(5.4-2)/(15.6-2)+4.65385234*(391-239)/(856-239)-3.46255587*(95-51)/(182-51)-0.62531519*0+0.12948498*0-1.02927979*0-0.43736697*0+2.34853289=0.589957097
f=1/[1+exp(-0.589957097)]=0.643355302
8-cv:
系数:[[-1.00021808 -0.62730189 -0.71082045 -3.32576563 -1.522838064.06986614
-3.87491195 -0.7075802 0.25536127 -0.95357884 -0.44342562]]
截距:[2.81589688]
第8次交叉验证结果:
X=-1.00021808*(63-15)/(83-15)
-0.62730189*0-0.71082045*0-3.32576563*(5.06-4)/(10.68-4)-1.52283806*(5.4-2)/(15.6-2)+4.06986614*(391-239)/(856-239)-3.87491195*(95-51)/(182-51)-0.7075802*0+0.25536127*0-0.95357884*0-0.44342562*0+2.81589688=0.902537723
f=1/[1+exp(-0.902537723)]=0.711470726
9-cv:
系数:[[-1.05138347 -0.33934801 -0.66481536 -3.60236095 -0.269051584.51167267
-3.51715026 -0.66334003 0.13603654 -1.19729734 -0.22200436]]
截距:[2.85141396]
第9次交叉验证结果:
X=-1.05138347*(63-15)/(83-15)
-0.33934801*0-0.66481536*0-3.60236095*(5.06-4)/(10.68-4)-0.26905158*(5.4-2)/(15.6-2)+4.51167267*(391-239)/(856-239)-3.51715026*(95-51)/(182-51)-0.66334003*0+0.13603654*0-1.19729734*0-0.22200436*0+2.85141396=1.400498541
f=1/[1+exp(-1.400498541)]=0.802262988
10-cv:
系数:[[-1.20359792 -0.35435645 -0.53270176 -3.42198439 0.3.97760734
-3.35996761 -0.48153689 0.2189597 -0.75752342 -0.49509627]]
截距:[2.92745419]
第10次交叉验证结果:
X=-1.20359792*(63-15)/(83-15)
-0.35435645*0-0.53270176*0-3.42198439*(5.06-4)/(10.68-4)+0*(5.4-2)/(15.6-2)+3.97760734*(391-239)/(856-239)-3.35996761*(95-51)/(182-51)-0.48153689*0+0.2189597*0-0.75752342*0-0.49509627*0+2.92745419=1.386204204
f=1/[1+exp(-1.386204204)]=0.799985574
经过10折交叉验证后,对10次概率取平均值,得到预测为feua-group的概率P=0.748133875,0.748133875与阈值0.8501788655371646做比较,0.748133875<0.8501788655371646,判断此患者为feua-0类,即FEUA大于5.5%。
第三具体实施例中,一名痛风患者年龄为52,有新发肾结石,有高血压,GLU值为5.89,BUN值为3.3,UA值为606,CREA值为86,检测四个SNP位点(rs504915.AA,rs2231142.GG,rs3775948.GG,rs11231463.GG)分型情况为0,0,0,0,通过我们的模型进行如下计算:
特征:age=52,肾结石=1,高血压=1,GLU=5.89,BUN=3.3,UA=606,CREA=86,rs504915.AA=0,rs2231142.GG=0,rs3775948.GG=0,rs11231463.GG=0
计算公式:f(x)=1/[1+e(-x)]
注:此例患者年龄为52,15岁为群体最小年龄,83岁为群体最大年龄,(52-15)/(83-15)操作为年龄的归一化过程;此例患者GLU值为5.89,GLU经过归一化为(5.89-4)/(10.68-4);此例患者BUN值为3.3,BUN经过归一化为(3.3-2)/(15.6-2);此例患者UA值为606,UA经过归一化为(606-239)/(856-239);此例患者CREA值为86,CREA经过归一化为(86-51)/(182-51)。
1-cv:第一次交叉验证模型
系数:[[-0.90765346 -0.51260935 -0.54116454 -3.0810441 -2.032278654.16927475
-2.10595601 -0.36857588 0.15639811 -0.94010012 -0.51056364]]系数是通过训练集学习出的模型就直接给出,
截距:[2.31828433]
第1次交叉验证结果:
X=-0.90765346*(52-15)/(83-15)
-0.51260935*1-0.54116454*1-3.0810441*(5.89-4)/(10.68-4)-2.03227865*(3.3-2)/(15.6-2)+4.16927475*(606-239)/(856-239)-2.10595601*(86-51)/(182-51)-0.36857588*0+0.15639811*0-0.94010012*0-0.51056364*0+2.31828433=1.621927088
f=1/[1+exp(-1.621927088)]=0.835060727
2-cv:第二次交叉验证模型
系数:[[-0.59697533 -0.44713309 -0.51904862 -2.93353462 -2.416553293.99007871
-2.67966274 -0.74406901 0.22102817 -0.81551026 -0.36441399]]
截距:[2.78791813]
第2次交叉验证结果:
X=-0.59697533*(52-15)/(83-15)
-0.44713309*1-0.51904862*1-2.93353462*(5.89-4)/(10.68-4)-2.41655329*(3.3-2)/(15.6-2)+3.99007871*(606-239)/(856-239)-2.67966274*(86-51)/(182-51)-0.74406901*0+0.22102817*0-0.81551026*0-0.36441399*0+2.78791813=2.093333185
f=1/[1+exp(-2.093333185)]=0.890253509
3-cv:
系数:[[-0.7655531 -0.57647055 -0.58908225 -3.30576783 -1.844390984.55152157
-3.07389524 -0.40034612 0.23637881 -0.91875306 -0.48503917]]
截距:[2.62923009]
第3次交叉验证结果:
X=-0.7655531*(52-15)/(83-15)
-0.57647055*1-0.58908225*1-3.30576783*(5.89-4)/(10.68-4)-1.84439098*(3.3-2)/(15.6-2)+4.55152157*(606-239)/(856-239)-3.07389524*(86-51)/(182-51)-0.40034612*0+0.23637881*0-0.91875306*0-0.48503917*0+2.62923009=1.821546984
f=1/[1+exp(-1.821546984)]=0.860751649
4-cv:
系数:[[-0.62799107 -0.41883181 -0.52738287 -3.34686252 -2.213747494.52308127
-3.87873776 -0.81149625 0.04179361 -1.06616349 0.]]
截距:[2.80165321]
第4次交叉验证结果:
X=-0.62799107*(52-15)/(83-15)
-0.41883181*1-0.52738287*1-3.34686252*(5.89-4)/(10.68-4)-2.21374749*(3.3-2)/(15.6-2)+4.52308127*(606-239)/(856-239)-3.87873776*(86-51)/(182-51)-0.81149625*0+0.04179361*0-1.06616349*0-0*0+2.80165321=2.009273986
f=1/[1+exp(-2.009273986)]=0.881767353
5-cv:
系数:[[-1.04659147 -0.34860374 -0.48256978 -3.22439531 -0.81679944.50199468
-3.49159914-0.77939353 0.25498829-0.9049369 0.]]
截距:[2.71063891]
第5次交叉验证结果:
X=-1.04659147*(52-15)/(83-15)
-0.34860374*1-0.48256978*1-3.22439531*(5.89-4)/(10.68-4)-0.8167994*(3.3-2)/(15.6-2)+4.50199468*(606-239)/(856-239)-3.49159914*(86-51)/(182-51)-0.77939353*0+0.25498829*0-0.9049369*0+0*0+2.7106389=2.064606329
f=1/[1+exp(-2.064606329)]=0.887415208
6-cv:
系数:[[-0.73580497 -0.55454626 -0.50942581 -3.01971031 -2.154287235.03464866
-3.21388304 -0.62599592 0.36168646 -0.79870413 -0.54089583]]
截距:[2.28341956]
第6次交叉验证结果:
X=-0.73580497*(52-15)/(83-15)
-0.55454626*1-0.50942581*1-3.01971031*(5.89-4)/(10.68-4)-2.15428723*(3.3-2)/(15.6-2)+5.03464866*(606-239)/(856-239)-3.21388304*(86-51)/(182-51)-0.62599592*0+0.36168646*0-0.79870413*0-0.54089583*0+2.28341956=1.894785917
f=1/[1+exp(-1.894785917)]=0.869300255
7-cv:
系数:[[-1.13157617 -0.37512326 -0.50818722 -2.22590543 -2.360398914.65385234
-3.46255587-0.62531519 0.12948498 -1.02927979 -0.43736697]]
截距:[2.34853289]
第7次交叉验证结果:
X=-1.13157617*(52-15)/(83-15)
-0.37512326*1-0.50818722*1-2.22590543*(5.89-4)/(10.68-4)-2.36039891*(3.3-2)/(15.6-2)+4.65385234*(606-239)/(856-239)-3.46255587*(86-51)/(182-51)-0.62531519*0+0.12948498*0-1.02927979*0-0.43736697*0+2.34853289=1.837165244
f=1/[1+exp(-1.837165244)]=0.862613101
8-cv:
系数:[[-1.00021808 -0.62730189 -0.71082045 -3.32576563 -1.522838064.06986614
-3.87491195 -0.7075802 0.25536127 -0.95357884 -0.44342562]]
截距:[2.81589688]
第8次交叉验证结果:
X=-1.00021808*(52-15)/(83-15)
-0.62730189*1-0.71082045*1-3.32576563*(5.89-4)/(10.68-4)-1.52283806*(3.3-2)/(15.6-2)+4.06986614*(606-239)/(856-239)-3.87491195*(86-51)/(182-51)-0.7075802*0+0.25536127*0-0.95357884*0-0.44342562*0+2.81589688=1.232530188
f=1/[1+exp(-1.232530188)]=0.774261109
9-cv:
系数:[[-1.05138347 -0.33934801 -0.66481536 -3.60236095 -0.269051584.51167267
-3.51715026 -0.66334003 0.13603654 -1.19729734 -0.22200436]]
截距:[2.85141396]
第9次交叉验证结果:
X=-1.05138347*(52-15)/(83-15)
-0.33934801*1-0.66481536*1-3.60236095*(5.89-4)/(10.68-4)-0.26905158*(3.3-2)/(15.6-2)+4.51167267*(606-239)/(856-239)-3.51715026*(86-51)/(182-51)-0.66334003*0+0.13603654*0-1.19729734*0-0.22200436*0+2.85141396=1.974133
f=1/[1+exp(-1.97413295)]=0.87805434
10-cv:
系数:[[-1.20359792 -0.35435645 -0.53270176 -3.42198439 0.3.97760734
-3.35996761 -0.48153689 0.2189597 -0.75752342 -0.49509627]]
截距:[2.92745419]
第10次交叉验证结果:
X=-1.20359792*(52-15)/(83-15)
-0.35435645*1-0.53270176*1-3.42198439*(5.89-4)/(10.68-4)+0*(3.3-2)/(15.6-2)+3.97760734*(606-239)/(856-239)-3.35996761*(86-51)/(182-51)-0.48153689*0+0.2189597*0-0.75752342*0-0.49509627*0+2.92745419=1.885534658
f=1/[1+exp(-1.885534658)]=0.868245556
经过10折交叉验证后,对10次概率取平均值,得到预测为feua-group的概率P=0.860772281,0.860772281与阈值0.8501788655371646做比较,0.860772281>0.8501788655371646,判断此患者为feua-1类,即FEUA小于5.5%。若>0.8501788655371646,则FEUA大于5.5%。
第四具体实施例中,一名痛风患者年龄为38,无新发肾结石,有高血压,GLU值为5.08,BUN值为3.8,UA值为535,CREA值为88,检测四个SNP位点(rs504915.AA,rs2231142.GT,rs3775948.GG,rs11231463.GG)分型情况为1,0,1,1,通过我们的模型进行如下计算:
特征:age=38,肾结石=0,高血压=1,GLU=5.08,BUN=3.8,UA=535,CREA=88,rs504915.AA=1,rs2231142.GG=0,rs3775948.GG=1,rs11231463.GG=1
计算公式:f(x)=1/[1+e(-x)]
注:此例患者年龄为38,15岁为群体最小年龄,83岁为群体最大年龄,(38-15)/(83-15)操作为年龄的归一化过程;此例患者GLU值为5.08,GLU经过归一化为(5.08-4)/(10.68-4);此例患者BUN值为3.8,BUN经过归一化为(3.8-2)/(15.6-2);此例患者UA值为535,UA经过归一化为(535-239)/(856-239);此例患者CREA值为88,CREA经过归一化为(88-51)/(182-51)。
1-cv:第一次交叉验证模型
系数:[[-0.90765346 -0.51260935 -0.54116454 -3.0810441 -2.032278654.16927475
-2.10595601 -0.36857588 0.15639811 -0.94010012 -0.51056364]]系数是通过训练集学习出的模型就直接给出,
截距:[2.31828433]
第1次交叉验证结果:
X=-0.90765346*(38-15)/(83-15)
-0.51260935*0-0.54116454*1-3.0810441*(5.08-4)/(10.68-4)-2.03227865*(3.8-2)/(15.6-2)+4.16927475*(535-239)/(856-239)-2.10595601*(88-51)/(182-51)-0.36857588*1+0.15639811*0-0.94010012*1-0.51056364*1+2.31828433=0.748916724
f=1/[1+exp(-0.748916724)]=0.571782513
2-cv:第二次交叉验证模型
系数:[[-0.59697533 -0.44713309 -0.51904862 -2.93353462 -2.416553293.99007871
-2.67966274 -0.74406901 0.22102817 -0.81551026 -0.36441399]]
截距:[2.78791813]
第2次交叉验证结果:
X=-0.59697533*(38-15)/(83-15)
-0.44713309*0-0.51904862*1-2.93353462*(5.08-4)/(10.68-4)-2.41655329*(3.8-2)/(15.6-2)+3.99007871*(535-239)/(856-239)-2.67966274*(88-51)/(182-51)-0.74406901*1+0.22102817*0-0.81551026*1-0.36441399*1+2.78791813=0.602789087
f=1/[1+exp(-0.602789087)]=0.623912409
3-cv:
系数:[[-0.7655531 -0.57647055 -0.58908225 -3.30576783 -1.844390984.55152157
-3.07389524 -0.40034612 0.23637881 -0.91875306 -0.48503917]]
截距:[2.62923009]
第3次交叉验证结果:
X=-0.7655531*(38-15)/(83-15)
-0.57647055*0-0.58908225*1-3.30576783*(5.08-4)/(10.68-4)-1.84439098*(3.8-2)/(15.6-2)+4.55152157*(535-239)/(856-239)-3.07389524*(88-51)/(182-51)-0.40034612*1+0.23637881*0-0.91875306*1-0.48503917*1+2.62923009=0.5981899
f=1/[1+exp(-0.5981899)]=0.625707872
4-cv:
系数:[[-0.62799107 -0.41883181 -0.52738287 -3.34686252 -2.213747494.52308127
-3.87873776-0.81149625 0.04179361 -1.06616349 0.]]
截距:[2.80165321]
第4次交叉验证结果:
X=-0.62799107*(38-15)/(83-15)
-0.41883181*0-0.52738287*1-3.34686252*(5.08-4)/(10.68-4)-2.21374749*(3.8-2)/(15.6-2)+4.52308127*(535-239)/(856-239)-3.87873776*(88-51)/(182-51)-0.81149625*1+0.04179361*0-1.06616349*1-0*1+2.80165321=0.654109121
f=1/[1+exp(-0.654109121)]=0.604555037
5-cv:
系数:[[-1.04659147 -0.34860374 -0.48256978 -3.22439531 -0.81679944.50199468
-3.49159914 -0.77939353 0.25498829-0.9049369 0.]]
截距:[2.71063891]
第5次交叉验证结果:
X=-1.04659147*(38-15)/(83-15)
-0.34860374*0-0.48256978*1-3.22439531*(5.08-4)/(10.68-4)-0.8167994*(3.8-2)/(15.6-2)+4.50199468*(535-239)/(856-239)-3.49159914*(88-51)/(182-51)-0.77939353*1+0.25498829*0-0.9049369*1+0*1+2.7106389=0.480012839
f=1/[1+exp(-0.480012839)]=0.675669814
6-cv:
系数:[[-0.73580497 -0.55454626 -0.50942581 -3.01971031 -2.154287235.03464866
-3.21388304-0.62599592 0.36168646 -0.79870413 -0.54089583]]
截距:[2.28341956]
第6次交叉验证结果:
X=-0.73580497*(38-15)/(83-15)
-0.55454626*0-0.50942581*1-3.01971031*(5.08-4)/(10.68-4)-2.15428723*(3.8-2)/(15.6-2)+5.03464866*(535-239)/(856-239)-3.21388304*(88-51)/(182-51)-0.62599592*1+0.36168646*0-0.79870413*1-0.54089583*1+2.28341956=0.745449722
f=1/[1+exp(-0.745449722)]=0.57291825
7-cv:
系数:[[-1.13157617 -0.37512326 -0.50818722 -2.22590543 -2.360398914.65385234
-3.46255587 -0.62531519 0.12948498 -1.02927979 -0.43736697]]
截距:[2.34853289]
第7次交叉验证结果:
X=-1.13157617*(38-15)/(83-15)
-0.37512326*0-0.50818722*1-2.22590543*(5.08-4)/(10.68-4)-2.36039891*(3.8-2)/(15.6-2)+4.65385234*(535-239)/(856-239)-3.46255587*(88-51)/(182-51)-0.62531519*1+0.12948498*0-1.02927979*1-0.43736697*1+2.34853289=1.053343561
f=1/[1+exp(-1.053343561)]=0.487010561
8-cv:
系数:[[-1.00021808 -0.62730189 -0.71082045 -3.32576563 -1.522838064.06986614
-3.87491195 -0.7075802 0.25536127 -0.95357884 -0.44342562]]
截距:[2.81589688]
第8次交叉验证结果:
X=-1.00021808*(38-15)/(83-15)
-0.62730189*0-0.71082045*1-3.32576563*(5.08-4)/(10.68-4)-1.52283806*(3.8-2)/(15.6-2)+4.06986614*(535-239)/(856-239)-3.87491195*(88-51)/(182-51)-0.7075802*1+0.25536127*0-0.95357884*1-0.44342562*1+2.81589688=1.244866686
f=1/[1+exp(-1.244866686)]=0.445460751
9-cv:
系数:[[-1.05138347 -0.33934801 -0.66481536 -3.60236095 -0.269051584.51167267
-3.51715026 -0.66334003 0.13603654 -1.19729734 -0.22200436]]
截距:[2.85141396]
第9次交叉验证结果:
X=-1.05138347*(38-15)/(83-15)
-0.33934801*0-0.66481536*1-3.60236095*(5.08-4)/(10.68-4)-0.26905158*(3.8-2)/(15.6-2)+4.51167267*(535-239)/(856-239)-3.51715026*(88-51)/(182-51)-0.66334003*1+0.13603654*0-1.19729734*1-0.22200436*1+2.85141396=0.73981598
f=1/[1+exp(-0.73981598)]=0.574773431
10-cv:
系数:[[-1.20359792 -0.35435645 -0.53270176 -3.42198439 0.3.97760734
-3.35996761 -0.48153689 0.2189597 -0.75752342 -0.49509627]]
截距:[2.92745419]
第10次交叉验证结果:
X=-1.20359792*(38-15)/(83-15)
-0.35435645*0-0.53270176*1-3.42198439*(5.08-4)/(10.68-4)+0*(3.8-2)/(15.6-2)+3.97760734*(535-239)/(856-239)-3.35996761*(88-51)/(182-51)-0.48153689*1+0.2189597*0-0.75752342*1-0.49509627*1+2.92745419=0.517128876
f=1/[1+exp(-0.517128876)]=0.659139784
经过10折交叉验证后,对10次概率取平均值,得到预测为feua-group的概率P=0.584093042,0.584093042与阈值0.8501788655371646做比较,0.584093042<0.8501788655371646,判断此患者为feua-0类,即FEUA大于5.5。若>0.8501788655371646,则FEUA小于5.5。
7个EHR(病人电子病历数据)数据加4个SNP信息获得的模型最佳曲线下面积(AUC)达91.2%,特异度0.79,灵敏度0.91,准确度0.90。高于单用7个HER数据AUC为88.7%,特异度0.89,灵敏度0.77,准确度0.79。仅用4个SNP进行预测的AUC为66.4%,特异度0.43,灵敏度0.87,准确度0.81。7个EHR数据加4个SNP对根据FEUA进行分型的结果最为准确(如图1所示)。
本发明发现了一种用于提高痛风患者分型判断准确率的方法,本方法使得痛风的分型更为简易、便于操作,本结果最终将以公共网页的形式公开,方便广大医生、患者对FEUA进行计算,判断痛风患者分型。
欧洲抗风湿病联盟(EULAR)在2006年发布了第一版的《痛风及高尿酸血症的诊断和治疗建议》,最早提出应对痛风患者进行病因分型后用药。然而,因为24h尿留取的操作繁琐、患者配合度不高,在临床实际中仍未广泛推行分型后用药。文献报道,在尿酸排泄低下型痛风患者中,苯溴马隆(促进尿酸排泄类药物)相比别嘌醇(抑制尿酸合成类药物)尿酸达标率更高(尿酸小于360μmol/L)。对痛风患者进行分型,尤其是痛风合并肾结石患者,有痛风家族史的患者,根据其病因用药,能够明显提高药物疗效,并在降尿酸过程中减少痛风发作以及其他药物副作用。本方法有利于指导痛风的个体化治疗,实现痛风的精准诊疗。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助一些变形加必需的通用技术叠加的方式来实现;当然也可以通过简化上位一些重要技术特征来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分为:选取特定的基因组合并结合病人临床数据,并配合本发明各个实施例所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种用于提高痛风患者分型判断准确率的方法,其特征在于,包括:
步骤一:采集病人的病历数据和特定基因数据;
其中,所述特定基因包括:rs3775948、rs2231142、rs11231463和rs504915四个SNP位点基因型;所述病历数据包括:患者年龄、是否有肾结石、是否高血压、空腹血糖、血尿素氮、血肌酐和血尿酸;
年龄设定为A、血糖设定为B、血尿素氮设定为C、血肌酐设定为D、血尿酸设定为E;是否肾结石设定为F,F为0或1;是否高血压设定为G,G为0或1;
同时设定基因型rs504915为H、rs2231142为I、rs3775948为J和rs11231463为K;H、I、J、K均可选择0或1;
步骤二:计算痛风患者为尿酸排泄低下型的概率;
其中,年龄数据经归一化处理,(A-15)/(83-15)=A0,从而获得A0;
血糖经过归一化为(B-4)/(10.68-4),从而获得B0;
血尿素氮经过归一化为(C-2)/(15.6-2),从而获得C0;
血肌酐经过归一化为(D-239)/(856-239),从而获得D0;
血尿酸经过归一化为(E-51)/(182-51),从而获得E0;
将数据分成训练集和测试集,训练集进行多次交叉验证,使用随机梯度下降法的线性分类器逻辑回归作为拟合模型,得到SGD模型根据训练集学习到的线性函数的系数、截距和逻辑回归方程f(x)=1/[1+e(-x)];
步骤三:经过多次交叉验证后,对多次结果取平均值,最终获得概率P,将P与选定的阈值Y进行对比;
如果P>Y,判断此患者为尿酸排泄低下型;如果P<Y,则判断此患者非尿酸排泄低下型。
2.根据权利要求1所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述Y的取值为0.8501788655371646。
3.根据权利要求1所述的用于提高痛风患者分型判断准确率的方法,其特征在于,其中,患肾结石,则F=1,否则为0;患高血压,则G=1,否则为0;
同时,rs504915基因中,AA型则H=1,TT、AT型H=0;
rs2231142基因中,GG型则I=1,TT、GT型则I=0;
rs3775948基因中,GG型则J=1,CC、GC型则J=0;
rs11231463基因中,GG型则K=1,AA、GA型则K=0。
4.根据权利要求1所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述步骤二中,交叉运算的次数为十次;所述步骤三中,经过多次交叉验证后,对十次结果取平均值以获得最终概率P。
5.根据权利要求1所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述尿酸排泄低下型的判定标准为24小时尿酸排泄分数FEUA<5.5%。
6.根据权利要求1-5任一所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述步骤一中,所述病历数据中的每一项均采用LASSO(Least absolute shrinkageand selection operator,套索算法)算法筛选后以获得;
其中,所述LASSO算法的筛选过程如下:
步骤a:将所有病人的病历数据和特定基因数据,按照5:1的比例分为训练集和测试集;
步骤b:训练集和测试集的所有变量都被归一化为最小-最大归一化;在训练集中,使用最小绝对收缩选择算子对病历数据进行特征选择,得到有效的变量最少的模型;
步骤c:通过步骤b获得筛选后的病历数据的特定数据,以形成所述步骤一中所采取的具体病历数据。
7.根据权利要求6所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述步骤a中,使用20%的缺失值作为阈值来去除不完整的所述病历数据的其中一项特征;对缺失值的特征进行填充,采用R填充包中的k近邻填充算法。
8.根据权利要求6所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述步骤b中,通过将系数的l1范数作为惩罚项加到损失函数上构造一个一阶惩罚函数,实现参数缩减执行特征选择,使结果向量产生稀疏性,最终通过将一些弱变量所对应的系数压缩为0执行特征筛选。
9.根据权利要求6所述的用于提高痛风患者分型判断准确率的方法,其特征在于,所述步骤c中,在建立痛风患者分型的模型的过程中,逻辑回归通过使用其固有的logistic函数估计概率,来衡量因变量与一个或多个自变量之间的关系;该模型超参数设置为alpha=0.001,l1_ratio=1.0,loss='log',penalty='elasticnet'。
10.根据权利要求1所述的用于提高痛风患者分型判断准确率的方法,其特征在于,每次交叉验证过程中所采用的系数,均是通过SGD模型根据训练集学习到的线性函数而获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250717.3A CN114464310A (zh) | 2020-11-10 | 2020-11-10 | 一种用于提高痛风患者分型判断准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250717.3A CN114464310A (zh) | 2020-11-10 | 2020-11-10 | 一种用于提高痛风患者分型判断准确率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114464310A true CN114464310A (zh) | 2022-05-10 |
Family
ID=81404729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011250717.3A Pending CN114464310A (zh) | 2020-11-10 | 2020-11-10 | 一种用于提高痛风患者分型判断准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114464310A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116381072A (zh) * | 2023-01-16 | 2023-07-04 | 青岛大学附属医院 | 识别偶发型痛风和频发型痛风的生物标志物及其应用 |
CN117238522A (zh) * | 2023-11-08 | 2023-12-15 | 查理高特(青岛)健康科技有限公司 | 一种非布司他的疗效预测系统、设备及介质 |
-
2020
- 2020-11-10 CN CN202011250717.3A patent/CN114464310A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116381072A (zh) * | 2023-01-16 | 2023-07-04 | 青岛大学附属医院 | 识别偶发型痛风和频发型痛风的生物标志物及其应用 |
CN116381072B (zh) * | 2023-01-16 | 2024-05-31 | 苏州艾麦锶生命科技有限公司 | 识别偶发型痛风和频发型痛风的生物标志物及其应用 |
CN117238522A (zh) * | 2023-11-08 | 2023-12-15 | 查理高特(青岛)健康科技有限公司 | 一种非布司他的疗效预测系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Staib et al. | Disease pattern recognition testing for rheumatoid arthritis using infrared spectra of human serum | |
CN114464310A (zh) | 一种用于提高痛风患者分型判断准确率的方法 | |
CN112201330B (zh) | 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法 | |
WO2023071877A1 (zh) | 泌尿系统结石术后复发风险预测模型、评估系统及方法 | |
CN115798712B (zh) | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN108531597A (zh) | 一种用于口腔鳞癌早期诊断的检测试剂盒 | |
Tan et al. | The prediction of cardiovascular disease based on trace element contents in hair and a classifier of boosting decision stumps | |
KR20230110615A (ko) | 태아 염색체 이상을 검출하는 방법 및 시스템 | |
CN115011687A (zh) | 预测缺血性脑卒中患者不良预后的生物标志物组、试剂盒和系统 | |
CN117497170A (zh) | 急性肾损伤向慢性肾脏病转化的预警模型的构建方法及其应用 | |
Wang et al. | Identification of a blood-based 12-gene signature that predicts the severity of coronary artery stenosis: An integrative approach based on gene network construction, Support Vector Machine algorithm, and multi-cohort validation | |
CN114457147A (zh) | 一种检测痛风分型相关基因的方法及试剂盒 | |
CN116386882A (zh) | 融合不同人群遗传信息的冠心病遗传风险预测方法及系统 | |
CN116030963A (zh) | 一种甲胎蛋白阴性原发性肝细胞癌列线图诊断模型及其构建方法和应用 | |
CN112481380B (zh) | 一种评估晚期膀胱癌抗肿瘤免疫治疗反应性和预后生存的标志物及其应用 | |
JP2008089586A (ja) | 物質の生物学的、生化学的、生物物理学的、又は薬理学的特徴の予測方法 | |
KR20150039484A (ko) | 유전 정보를 이용하여 암을 진단하는 방법 및 장치 | |
CN110459312A (zh) | 类风湿性关节炎易感位点及其应用 | |
CN114512240A (zh) | 一种痛风预测模型系统、设备及存储介质 | |
CN106361289A (zh) | 一种慢性肾衰竭预警系统 | |
Garcia et al. | Statistical modeling of Huntington disease onset | |
CN111883248A (zh) | 用于儿童肥胖症的预测系统 | |
JP7157941B2 (ja) | 癌罹患判定方法、装置、およびプログラム | |
CN116230193B (zh) | 一种智能化医院用档案管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |