用于猫中慢性肾脏病的生物标志物和分类算法
相关申请交叉引用
本申请要求2018年01月19日提交的美国临时专利申请第62/619,681号和2018年07月14日提交的美国临时专利申请第62/698,046号的优先权,通过引用将其每一件的全部内容整体并入本文,并要求其优先权。
技术领域
本申请当前公开的主题涉及测定猫科动物对患慢性肾脏病(CKD)的易感性的方法,以及预防和/或降低猫科动物对患CKD的风险的方法。
背景技术
慢性肾脏病(chronic kidney disease,CKD),也称为慢性肾病(chronic renaldisease)或慢性肾衰竭(chronic renal failure),是指在数月或数年期间内肾功能的逐渐丧失。CKD可能由多种状况和机制引起,并困扰人类和其他哺乳动物。CKD是衰老的猫科动物疾病和死亡的常见原因。重要的是尽早发现CKD,以便在发生重大损害之前开始治疗。
对于患肾脏病的猫,国际肾脏兴趣协会(International Renal InterestSociety,IRIS)已开发了一种在猫和狗中进行CKD分期的方案(也可以参见:艾略特(Elliott)等人,《猫科动物慢性肾脏病的饮食疗法(Dietary therapy for felinechronic kidney disease)》,《猫科动物临床营养百科全书(Encyclopedia of felineclinical nutrition)》,第二版,2015年)。分期最初是基于空腹血肌酐浓度,在稳定的猫中至少两次进行了评估。然后根据蛋白尿和血压对猫进行分阶段研究。但是,在本领域中仍然需要预测、预防和/或降低CKD风险的方法。
发明内容
在某些非限制性实施方案中,本申请当前公开的主题提供了一种用于鉴定猫科动物患慢性肾脏病(CKD)的易感性的系统,该系统包括:处理器;和存储代码的存储器,所述代码由所述处理器执行时导致计算机系统执行以下操作:接收来自猫科动物的一种或多种生物标志物的至少一个输入电平和可选的猫科动物年龄的输入电平,其中一种或多种生物标志物中的至少一种包括与尿比重水平(urine specific gravity level)、肌酐水平(creatinine level)、尿蛋白水平(urine protein level)、血尿素氮(blood ureanitrogen,BUN)或尿素水平(urea level)、白细胞计数(white blood cell count,WBC)、尿液pH或它们的任何组合相关的信息;通过组织和/或修改每个输入电平来分析和转换一种或多种生物标志物的输入电平以及可选的输入电平,以通过分类算法得出概率分数或分类标签,其中所述分类算法包括从训练数据集开发的代码,该训练数据集包括的医学信息,所述医学信息与第一多个生物标志物和可选地来自第一组样品猫科动物的年龄以及第二组多个生物标志物和可选地来自第二组样品猫科动物的年龄均有关;其中,分类算法是使用训练算法开发的;其中,所述分类算法是硬分类器或软分类器之一,其中,所述硬分类器确定猫科动物是否有患CKD的风险的分类标签;所述软分类器确定猫科动物患CKD的概率分数;产生输出,其中所述输出是所述分类标签或所述概率分数;根据所述输出测定或分类猫科动物是否有患CKD的风险;并根据所述测定或分类确定个性化推荐。
在某些实施方案中,所述代码在由所述处理器执行时进一步导致所述系统在图形用户界面上显示测定或分类以及个性化推荐。
在某些实施方案中,该系统还包括:通信设备,用于传送和接收信息;其中:经由通信设备从远程第二系统接收至少一个输入电平;以及所述代码在由所述处理器执行时,进一步导致所述系统经由所述通信设备将所述测定或分类以及个性化推荐传送到所述远程第二系统。
在某些实施方案中,所述系统基于输出提供饮食方案的个性化推荐和/或进一步监测一种或多种生物标志物。
在某些非限制性实施方案中,本申请当前公开的主题通过执行以下步骤提供了一种用于鉴定猫科动物患慢性肾脏病(CKD)的易感性的方法:接收来自猫科动物的一种或多种生物标志物的至少一个输入电平和可选的猫科动物年龄的输入电平,其中一种或多种生物标志物中的至少一种包括与尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或它们的任何组合相关的信息;通过组织和/或修改每个输入电平来分析和转换一种或多种生物标志物的至少一个输入电平以及可选的年龄的输入电平,以通过分类算法得出概率分数或分类标签,其中所述分类算法包括从训练数据集开发的代码,该训练数据集包括医学信息,所述医学信息与第一多个生物标志物和可选地来自第一组样品猫科动物的年龄以及第二组多个生物标志物和可选地来自第二组样品猫科动物的年龄均有关;其中,所述分类算法是使用训练算法开发的;其中,所述分类算法是硬分类器或软分类器之一,其中,所述硬分类器测定猫科动物是否有患CKD的风险的分类标签;所述软分类器测定猫科动物患CKD的概率分数;产生输出,其中所述输出是分类标签或概率分数;根据所述输出测定或分类猫科动物是否有患CKD的风险;并根据所述测定或分类确定个性化推荐。
在某些非限制性实施方案中,本申请当前公开的主题提供了一种用于降低猫科动物患慢性肾脏病(CKD)的风险的方法,该方法包括:接收来自猫科动物的一种或多种生物标志物的至少一个输入电平和可选的猫科动物年龄的输入电平,其中一种或多种生物标志物中的至少一种包括与尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或它们的任何组合相关的信息;通过组织和/或修改每个输入电平来分析和转换一种或多种生物标志物的至少一个输入电平和可选的年龄的输入电平,以通过分类算法得出概率分数或分类标签,其中所述分类算法包括从训练数据集开发的代码,该训练数据集包括医学信息,所述医学信息与第一多个生物标志物和可选的来自第一组样品猫科动物的年龄以及第二组多个生物标志物和可选的来自第二组样品猫科动物的年龄均有关;其中,分类算法是使用训练算法开发的;其中,所述分类算法是硬分类器或软分类器之一,其中,所述硬分类器测定猫科动物是否有患CKD的风险的分类标签;软分类器测定猫科动物患CKD的概率分数;产生输出,其中所述输出是分类标签或概率分数;并且基于所述输出确定饮食方案的个性化推荐和/或进一步监测一种或多种生物标志物。
在某些实施方案中,所述方法进一步包括在图形用户界面上显示所述测定或分类以及个性化推荐的步骤。
在某些实施方案中,经由通信设备从远程第二系统接收至少一个输入电平;并且进一步包括以下步骤:经由通信设备将测定或分类以及个性化推荐传送到远程第二系统。
在某些非限制性实施方案中,本申请当前公开的主题提供了一种计算机可读介质,该介质存储指令,该指令在由处理器执行时导致计算机系统执行本文公开的任何方法的步骤。
在某些实施方案中,在一种或多种生物标志物以及可选的年龄的监督下,使用监督训练算法(supervised training algorithm)来开发分类算法。在某些实施方案中,使用无监督训练算法来开发分类算法。
在某些实施方案中,至少一个输入电平包括在不同时间点测量的一种或多种生物标志物的顺序测量。
在某些实施方案中,第一组样品猫科动物已经被诊断患有CKD,并且第二组样品猫科动物尚未被诊断为患有CKD。在某些实施方案中,训练数据集被分层为2折(folds)或更多折以用于交叉验证(cross validation)。在某些实施方案中,训练数据集由一组纳入标准和/或排除标准过滤。
在某些实施方案中,所述训练算法包括选自由逻辑回归(logistic regression)、人工神经网络(artificial neural network,ANN)、递归神经网络(recurrent neuralnetwork,RNN)、K最近邻(K-nearest neighbor,KNN)、朴素贝叶斯(
Bayes)、支持向量机(support vector machine,SVM)、随机森林(random forest)、自适应增强(AdaBoost)及它们的任何组合所组成的组的算法。在某些实施方案中,所述训练算法包括具有动态时间规整(dynamic time warping,DTW)的KNN。在某些实施方案中,所述训练算法包括具有长短期记忆(long short-term memory,LSTM)的RNN。
在某些实施方案中,所述分类算法包括正则化算法(regularizationalgorithm),该正则化算法包括5%或更多的丢弃(dropout)以防止过度拟合。
在某些实施方案中,所述饮食方案选自由低磷饮食、低蛋白饮食、低钠饮食、钾补充饮食、多不饱和脂肪酸(polyunsaturated fatty acid,PUFA)补充饮食、抗氧化剂补充饮食、维生素B补充饮食、流质饮食及它们的任何组合所组成的组。
在某些实施方案中,一种或多种生物标志物包括与尿比重水平、肌酐水平和血尿素氮(BUN)或尿素水平有关的信息。在某些实施方案中,一种或多种生物标志物包括与尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)和尿液pH有关的信息。在某些实施方案中,该方法包括接收来自猫科动物的一种或多种生物标志物的至少一个输入电平和猫科动物年龄的输入电平。在某些实施方案中,该方法包括接收生物标志物的输入电平,其包括与尿比重水平、肌酐水平和血尿素氮(BUN)或尿素水平有关的信息;以及猫科动物年龄的输入电平。
在某些实施方案中,在本文公开的任何方法中,所述分类算法包括标准的RNN算法。在某些实施方案中,生物标志物和猫科动物的年龄的输入电平与猫科动物的一次或多次就诊的病历有关。在某些实施方案中,生物标志物和猫科动物的年龄的输入电平与猫科动物至少两次就诊的病历有关。在某些实施方案中,在本文公开的任何方法中,分类标签或概率分数是从中间概率分数的组合中转换而来的,每一个中间概率分数均基于与猫科动物一次就诊的病历有关的生物标记物和猫科动物的年龄的输入电平来测定。
在某些实施方案中,分类标签或概率分数与测定所述分类标签或概率分数时猫科动物感染慢性肾脏病(CKD)的状态有关。在某些实施方案中,分类标签或概率分数与测定所述分类标签或概率分数后猫科动物患慢性肾脏病(CKD)的风险有关。在某些实施方案中,分类标签或概率分数与测定所述分类标签或概率分数后约1年的猫科动物患慢性肾脏病(CKD)的风险有关。在某些实施方案中,分类标签或概率分数与测定所述分类标签或概率分数约2年后猫科动物患慢性肾脏病(CKD)的风险有关。
在某些实施方案中,在本文公开的任何方法中,个性化推荐包括诊断猫科动物中共病(comorbidity)的存在。在某些实施方案中,所述共病选自由甲状腺功能亢进症(hyperthyroidism)、糖尿病(diabetes mellitus)、肝病(hepatopathy)、体重不足(underweight)、杂音(murmur)、关节炎(arthritis)、不适(malaise)、便秘(constipation)、肠胃炎(gastroenteritis)、呕吐(vomiting)、炎症性肠病(inflammatorybowel disease)、结晶尿(crystalluria)、肠炎(enteritis)、泌尿道感染(urinary tractinfection)、上呼吸道疾病(upper respiratory disease)、泌尿道疾病(urinary tractdisease)、肥胖(obesity)、不当排泄(inappropriate elimination)、膀胱炎(cystitis)、结肠炎(colitis)及它们的任何组合所组成的组。在某些实施方案中,共病选自由甲状腺功能亢进症、糖尿病、肝病、体重不足、杂音及它们的任何组合所组成的组。
在某些非限制性实施方案中,本申请当前公开的主题提供了一种鉴定猫科动物患慢性肾脏病(CKD)的易感性的方法,所述方法包括以下步骤:基于猫科动物的一种或多种生物标志物的量计算分数,并通过将该分数与阈值进行比较来测定患CKD的风险;其中一种或多种生物标志物中的至少一种包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或它们的任何组合。
在某些非限制性实施方案中,本申请当前公开的主题提供了一种降低猫科动物患慢性肾脏病(CKD)的风险的方法,该方法包括以下步骤:基于猫科动物的一种或多种生物标志物的量计算分数;通过将分数与阈值进行比较,测定患CKD的风险;并根据风险建议饮食方案和/或进一步监测一种或多种生物标志物;其中一种或多种生物标志物中的至少一种包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或它们的任何组合。
在某些实施方案中,饮食方案选自由低磷饮食、低蛋白饮食、低钠饮食、钾补充饮食、多不饱和脂肪酸(PUFA)补充饮食、抗氧化剂补充饮食、维生素B补充饮食、流质饮食及它们的任何组合所组成的组。
在某些实施方案中,所述分数是通过将每个生物标志物及其系数的乘积相加来计算的。
在某些实施方案中,通过将线性判别分析(linear discriminant analysis,LDA)应用于包括多个猫科动物病历的数据集来测定一种或多种生物标志物的系数,其中所述病历包括对所述一种或多种生物标志物的测量值。
在某些实施方案中,通过将线性判别分析(LDA)应用于包括多个猫科动物病历的数据集来测定阈值,其中,所述病历包括对一种或多种生物标志物的测量值。
在某些实施方案中,一种或多种生物标志物包括肌酐、尿比重和BUN(或尿素)。在某些实施方案中,肌酐和BUN(或尿素)的量以毫克/分升(mg/dL)计量,尿比重的量以尿液样本密度与水密度之比计量;其中肌酐系数在约0.004至约0.01之间,尿比重系数在约-5至约-80之间,尿素系数在约0.01至约0.5之间,所述阈值在约-10至约-70之间;并且其中所述分数大于阈值指示有CKD的风险。在某些实施方案中,肌酐系数在约0.005至约0.009之间,尿比重系数在约-20至约-50之间,并且尿素系数在约0.06至约0.12之间。在某些实施方案中,所述阈值在约-20至约-50之间。
附图说明
图1描绘了就诊时每个猫年龄的就诊分布。
图2A至图2C描绘了61,160条记录的分级聚类(hierarchical clustering)和热图绘制(heatmap plot),这些记录包括在最小-最大归一化(min-max normalization)和缺失值插补(missing value imputation)后的数据集。图2A描绘了去除了1223个异常值之后的数据集;红色矩形框中显示了将用于预测的6个特征。图2B仅描绘了这6个特征的热图。图2C描绘了未去除1223个异常值的热图。
图3描绘6个信息量最丰富的变量的散点图矩阵。健康猫和CKD猫的就诊分别显示为绿色点和红色点。
图4A至图4D描绘了健康和CKD就诊的PCA和t-SNE图(plots)。图4A描绘了健康和CKD就诊的PCA 2D图。图4B描绘了健康就诊和CKD就诊的PCA 3D图。图4C描绘了健康和CKD就诊的t-SNE 2D图。图4A至图4D描绘了健康和CKD就诊的t-SNE 3D图。
图5描绘了使用递归特征消除自顶向下的封装方法(recursive featureelimination top-down wrapper method)选择特征。
图6描绘了使用所有训练数据的最佳K参数选择。
图7A至图7B描绘了采样数据集的K=3至17时,接收器工作特性曲线(ROC曲线)和精确性召回曲线(PR曲线)。图7A描绘了对于采样数据集的K=3至17时的PR曲线。图7B描绘了对于采样数据集的K=3到17时ROC曲线。
图8A至图8B描绘了每个单独时间预测器(individual temporal predictor)和专家混合(Mixture of Experts,MOE)的ROC曲线和PR曲线。图8A描绘了每个单独时间预测器和专家混合(MOE)的PR曲线。图8B描绘了每个单独时间预测器和专家混合(MOE)的ROC曲线。
图9描绘了递归神经网络架构(Recurrent Neural Network architecture)。
图10A至图10B描绘了机器学习过程示意图。图10A描绘了训练数据集的结构到RNN架构。对于每个RNN时间片(time slice),将加载唯一猫的六个特征的向量。图10B描绘了单输出RNN(普通(vanilla)或LSTM)的训练方案。在每个时间片上,都会加载一次就诊/猫,并计算正向激活函数(forward activation function)。在最后一次就诊时,计算输出(转换为二元预测的CKD概率),然后将其与真实标签进行比较。反向传播真实标签和预测之间的任何差异以优化权重。重复该过程几个周期(epoch),其中一个周期是对数据集的充分利用。
图11描绘了LSTM(顶部)和普通RNN(底部)架构及它们的3个度量(metrics)。对于每种配置,第一行代表每层的节点分布,随后的三行分别代表F1分数、AUC ROC值和AUC PR值。效果最好的表现以深绿色框突出显示。
图12描绘了F1分数是LSTM和普通RNN(分别为蓝色和橙色圆圈)的节点数量的函数。
图13A至图13D描绘了基于RNN-LSTM算法的模型的特征。图13A描绘了最佳配置的RNN-LSTM架构(3个LSTM层,7-7-7末端有密集的前馈层)。图13B描绘了具有AUC 0.93-0.96(整体为0.94)的5折(fold)CV的ROC曲线。图13C描绘了损失函数与期(epochs)数的关系。图13D描绘了具有AUC 0.89-0.94(整体为0.91)的5折CV的PR曲线。基准性能是CKD类成员资格的先验概率(26%),并用星号(*)表示。
图14A至图14C描绘了基于普通(vanilla)RNN算法的模型的特征。图14A描绘了使用普通RNN架构的另一种可选的接近最佳的实现方式(3个RNN层,3-5-3具有最终密集前馈)。图14B描绘了具有AUC 0.93-0.95(整体为0.94)的5折(fold)CV的ROC曲线。图14C描绘了损失函数与期(epochs)数的关系。图14D描绘了具有AUC 0.90-0.93(整体为0.91)的5折(fold)CV的PR曲线。
图15描绘了递归神经网络(RNN)方法的示意图。在标准RNN中,每次就诊时输入的特征数据(例如,尿比重(Urine SG)、年龄、肌酐和血尿素氮(BUN))通过2个分别具有3个节点和7个节点的隐藏层以非线性方式组合,并与先验的CKD概率–P(CKD)合并以生成更新的P(CKD)。定义非线性模式的权重和激活函数对于每次就诊都是相同的。最后一次就诊时,模型输出为P(CKD)。LSTM(长期短期记忆)方法在概念上相似,但是具有附加机制,可以在将这些信息与当前就诊信息结合使用时从先前的就诊中忘记部分信息。
图16描绘了按CKD状态区分的研究数据集中评估年龄(T0)、肌酐、血尿素氮和尿比重的分布。
图17A至图17H描绘了具有CKD状态的个体猫的随机选择的电子健康记录(electronic health record,EHR),其显示了肌酐、血尿素氮和尿比重的观察结果作为诊断之前时间(T0)的函数。A)和B)CKD状态为“无CKD”。C)和D)CKD状态为“可能的CKD(Probable CKD)”。E)至H)CKD状态为“CKD”。
图18将F1-分数(F1-score)描绘为RNN和LSTM预测模型的模型架构的函数。
图19描绘了测试数据集中在评估T0预测的三个不同组的模型概率输出的分布。诊断概率p(CKD)大于0.5表示未来CKD风险的预测,而预测值小于0.5则预测该猫的未来CKD风险较低。
图20描绘了具有95%置信区间的模型敏感性作为诊断时间之前的就诊次数的函数。请注意,由于在诊断时间之前进行大量就诊的EHR较少,因此置信区间增加。
图21描绘了具有95%置信区间的模型敏感性,该模型敏感性是诊断之前的时间的函数,其中仅使用到该点的数据进行预测。
图22描绘了具有95%置信区间的模型特异性是诊断时年龄的函数。
具体实施方式
迄今为止,仍然需要预测、治疗和/或预防CKD的方法。本申请涉及使用生物标志物和可选的猫科动物的年龄来测定猫科动物患慢性肾脏病(CKD)的易感性以及预防和/或降低猫科动物患CKD风险的方法,其中所述生物标志物包括但不限于尿比重、肌酐、尿蛋白、血尿素氮(BUN)(或尿素)、白细胞计数(WBC)和尿液pH。为了清楚起见而不是作为限制,本发明公开的主题的详细描述分为以下小节:
1.定义;
2.生物标志物;
3.测试方法;
4.治疗方法;和
5.设备和系统。
1.定义
本说明书中使用的术语在本发明的背景中和在使用每个术语的特定背景中通常具有它们在本领域中的普通含义。某些术语在下面或说明书中的其它地方讨论,以向从业者提供对描述本发明的方法和组合物以及如何制备和使用它们的额外指导。如本文所用,当与权利要求和/或说明书中的“包括”一起使用时,词语“一个(a)”或“一个(an)”的使用可以表示“一个”,但是它也与“一个或多个”、“至少一个”和“一个或多于一个”一致。此外,术语“具有”、“包括”、“含有”和“包含”是可互换的,并且本领域技术人员认识到这些术语是开放式术语。
术语“约”或“大约”意指在本领域普通技术人员确定的特定值的可接受误差范围内,其将部分取决于如何测量或确定该值,即,测量系统的限制。例如,根据本领域的实践,“约”可以表示在3个或多于3个标准偏差内。或者,“约”可以表示给定值的至多20%、优选至多10%、更优选至多5%、更优选至多1%的范围。或者,特别是对于生物系统或过程,该术语可以表示值的数量级内,优选地在5倍内,更优选地在2倍内。
术语物质的“有效治疗”或“有效量”是指足以治疗或产生有益或所需结果(包括临床结果)的物质的量,并且就此,“有效治疗”或“有效量”取决于应用它的上下文。在施用组合物以降低CKD的风险和/或施用组合物以治疗或延缓CKD的进展的上下文中,本文所述的组合物的有效量为足以治疗和/或改善CKD的量,以及减轻症状和/或降低患CKD的可能性的量。本文所述的有效治疗是足以治疗和/或改善CKD以及减轻症状和/或降低CKD可能性的治疗。所述降低可以是CKD症状严重程度的降低或CDK可能性降低10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、98%或99%。可以一次或多次给药来施用有效量。本文所述有效治疗的可能性是治疗有效的概率,即,足以治疗和/或改善CKD,以及减轻症状。
如本文所用以及在本领域中众所周知的,“治疗”是一种用于获得有益或期望的结果(包括临床结果)的方法。就本发明主题的目的而言,有益的或理想的临床结果包括但不限于减轻或改善一种或多种症状、疾病程度的减轻、疾病状态的稳定(即不恶化)、疾病的预防、患疾病可能性的降低、疾病进展的延缓或减缓、和/或疾病状态的改善或缓和(palliation)。所述降低可以是并发症或症状的严重性降低10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、98%或99%。与未接受治疗的预期生存期相比,“治疗”还可能意味着延长的生存期。
术语“宠物食物”或“宠物食物组合物”或“宠物食品”或“最终宠物食品”是指供伴侣动物如猫、狗、豚鼠、兔、鸟和马食用并为其提供一定营养益处的产品或组合物。例如但不作为限制,伴侣动物可以是“家养”的狗,例如,家犬(Canis lupus amiliaris)。在某些实施方案中,伴侣动物可以是“家养”的猫,例如家猫(Felis domesticus)。“宠物食物”或“宠物食物组合物”或“宠物食品”或“最终宠物食品”包括任何食物、饲料、点心、食品补充剂、液体、饮料、零食、玩具(可咀嚼和/或可食用的玩具)、膳食替代品或膳食替代物。
如本文中所使用的,术语“预定参考值”或“参考值”是指生物标志物的阈值水平,通过与之比较,可以进行CKD的诊断。参考值可以是阈值或参考范围。在某些实施方案中,参考值可以从ROC曲线分析中导出,选择将敏感性最大化的参考值,同时将特异性保持在用户定义的阈值之上。接收器工作特性曲线(即ROC曲线)是说明二元分类器系统诊断能力的图形图。在某些实施方案中,所述参考值可以选择为最大化特异性的参考值,同时保持敏感性在用户定义的阈值之上,例如80%的敏感性。在某些实施方案中,如果生物标志物在患有CKD的受试者中增加,即,预定算法是正逻辑,则参考值可以是由健康受试者群体产生的生物标志物水平范围的上限。相反,如果生物标志物在患有CKD的受试者中减少,即,所述算法是负逻辑,则参考值可以是由健康受试者群体产生的生物标志物水平范围的下限。
术语“对照群体”是指没有慢性肾脏病并且没有任何可操纵变量的猫科动物对照组。可以根据遗传背景、平均健康状况、年龄、营养史、疫苗接种和/或预防性治疗来选择要包括在对照组中的猫科动物。在某些实施方案中,对照群体可以包括具有相似的遗传背景、年龄和平均健康状况的至少3只、优选至少10只、或更优选至少50只猫科动物的组。
术语“就诊”是指医疗保健从业者和猫科动物之间的会面。在某些实施方案中,在就诊期间或之后产生病历。在某些实施方案中,在就诊期间测定一种或多种生物标志物的量。在某些实施方案中,在就诊期间进行CKD的诊断。从业人员可以在医院和/或家庭或其他地方就诊猫科动物。主人带走的猫科动物可以在诊所或办公室拜访医生。
术语“尿比重”(又名urine SG或USG)衡量尿密度与水密度之比。它是尿液中溶质浓度的尺度(measure),并且它提供了肾脏浓缩尿液能力的信息。
2.生物标记
在某些非限制性实施方案中,本申请当前公开的主题提供了生物标志物和使用该生物标志物测定猫科动物患CKD的易感性的方法。
如本文所用,术语“生物标志物”是指与感兴趣的疾病的发展有关的任何生物测量值、参数,或其组合。特别地,用于预测CKD的生物标志物是与CKD的发展有关的一种或多种生物参数。肾脏疾病的预防和/或治疗可以根据生物标志物指示的患CKD的风险来调整。还可以通过监测生物标志物来测定恢复的预测。
在某些实施方案中,生物标志物包括至少一种肌酐水平,至少一种至少一种尿比重水平,至少一种血尿素氮(BUN)或尿素水平或其任何组合。在某些实施方案中,生物标志物包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或其组合。
在某些实施方案中,BUN和尿素测量值是可互换的。由于BUN仅反映尿素的氮含量(分子量28),而尿素测量值反映整个分子(分子量60),因此尿素测量值是BUN测量值的2.14(60/28)倍。
在某些实施方案中,所述生物标志物包括猫科动物尿液样品中的尿比重水平。在某些实施方案中,所述生物标志物包括猫科动物血液中的总肌酐水平。在某些实施方案中,所述生物标志物包括猫科动物血清中的肌酐。在某些实施方案中,所述生物标志物包括猫科动物血浆中的肌酐。在某些实施方案中,所述生物标志物包括猫科动物尿液样品中肌酐。在某些实施方案中,所述生物标志物包括猫科动物尿液样品中的尿蛋白。在某些实施方案中,所述生物标志物包括猫科动物血液中的总尿素水平。在某些实施方案中,所述生物标志物包括猫科动物血清中的尿素。在某些实施方案中,所述生物标志物包括猫科动物血浆中的尿素。在某些实施方案中,所述生物标志物包括猫科动物尿液样品中尿素。在某些实施方案中,所述生物标志物包括猫科动物血液中的血尿素氮(BUN)或尿素。在某些实施方案中,所述生物标志物包括猫科动物血液中的白细胞计数。在某些实施方案中,所述生物标志物包括猫科动物尿液样品中的尿液pH。在某些实施方案中,生物标志物水平的改变于患CKD的风险增加相关。
对于每种生物标志物,增加或降低的生物标志物水平都可以提供有关猫科动物对CKD易感性的信息,取决于特定的生物标记物。例如,在某些实施方案中,尿比重水平的降低表明患CKD的风险增加。在某些实施方案中,尿比重水平升高表明患CKD的风险降低。在某些实施方案中,与基于对照群体中尿比重的平均水平的预定参考值相比,尿比重的水平较低表明患CKD的风险增加。在某些实施方案中,与基于对照群体中尿比重的平均水平的预定参考值相比,尿比重的水平较高表明患CKD的风险降低。在某些实施方案中,对照群体中尿比重的平均水平在约1.00至约1.1之间,在约1.01至约1.09之间,在约1.02至约1.08之间,或在约1.03至约1.07之间。在某些实施方案中,对照群体中尿比重的平均水平在约1.001和约1.08之间。在某些实施方案中,尿比重的预定参考值是对照群体中尿比重平均水平的约100%、约99%、约98%、约97%、约96%、约95%、约94%、约93%、约92%、约91%、约90%、约89%、约88%、约87%、约86%、约85%、约80%、约75%、约70%或以下,或任何中间百分比或范围。在某些实施方案中,尿比重的预定参考值在对照群体中尿比重的平均水平的约99.9%至约90%之间,约95%至约90%之间,或约99%至约92%之间。在某些实施方案中,尿比重的预定参考值在约1.001至约1.08之间,在约1.001至约1.07之间,在约1.001至约1.06之间,在约1.001至约1.05之间,或在约1.001至约1.04之间。在某些实施方案中,猫科动物的水合状态被认为调节尿比重水平。
在某些实施方案中,肌酐水平升高表明患CKD的风险增加。在某些实施方案中,肌酐水平降低表明患CKD的风险降低。在某些实施方案中,与基于对照群体中肌酐的平均水平的预定参考值相比,肌酐的水平较高表明患CKD的风险增加。在某些实施方案中,与基于对照群体中肌酐的平均水平的预定参考值相比,肌酐的水平较低表明患CKD的风险降低。在某些实施方案中,对照群体中肌酐的平均水平在约0.5mg/dL至约5mg/dL之间,在约0.8mg/dL至约3mg/dL之间,在约1mg/dL至约2.8mg/dL之间,或在约1.2mg/dL至约2.2mg/dL之间。在某些实施方案中,对照群体的肌酐值在约0.8mg/dL至约2.4mg/dL之间,在某些实施方案中,肌酐的预定参考值是对照群体中肌酐平均水平的约100%、约105%、约110%、约115%、约120%、约125%、约130%、约140%、约150%、约200%、约250%、约300%、约400%、约500%或更高,或任何中间百分比或范围。在某些实施方案中,肌酐的预定参考值在对照群体中肌酐的平均水平的约100%至约120%之间,约120%至约150%之间,约150%至约200%之间,或约200%至约500%之间。在某些实施方案中,肌酐的预定参考值在约0.5mg/dL至约3mg/dL之间,在约1mg/dL至约2.4mg/dL之间,在约1mg/dL至约2mg/dL之间,或在约1.2mg/dL至约1.8mg/dL之间。
在某些实施方案中,尿蛋白水平降低表明患CKD的风险增加。在某些实施方案中,尿蛋白水平升高表明患CKD的风险降低。在某些实施方案中,尿蛋白水平升高表明患CKD的风险增加。在某些实施方案中,尿蛋白水平降低表明患CKD的风险降低。在某些实施方案中,与基于对照群体中尿蛋白的平均水平的预定参考值相比,尿蛋白的水平较低表明患CKD的风险增加。在某些实施方案中,与基于对照群体中尿蛋白的平均水平的预定参考值相比,尿蛋白的水平较高表明患CKD的风险降低。在某些实施方案中,尿蛋白的水平较高表明感染或肾脏损害。在某些实施方案中,尿蛋白升高的历史性发作表明较早的感染和/或较高的肾脏损害风险。在某些实施方案中,当前尿蛋白升高表明肾功能衰退和/或CKD的风险较高。在某些实施方案中,与当前的预定参考值相比,猫科动物表现出更高水平的尿蛋白,例如,在当前的猫科动物样品或最近的猫科动物病历中发现了更高水平的尿蛋白(例如,在实施本文公开的任何一种方法之前的大约1周、大约2周、大约3周、大约4周、大约5周、大约10周、大约3个月或大约6个月内做出的记录)。在某些实施方案中,与预定参考值相比,猫科动物过去表现出了更高水平的尿蛋白,例如,在猫科动物的历史样品或猫科动物的历史病历中发现更高水平的尿蛋白(例如,在实施本文公开的任何一种方法之前约1周、约2周、约1个月、约2个月、约3个月或约6个月以上做出的记录)。在某些实施方案中,对照群体中尿蛋白的平均水平在约0mg/dL至约50mg/dL之间,在约0mg/dL至约25mg/dL之间,在约0mg/dL至约10mg/dL之间,或在约0mg/dL至约5mg/dL之间。在某些实施方案中,对照群体中尿蛋白的平均水平在约0mg/dL和约20mg/dL之间。在某些实施方案中,尿蛋白的预定参考值是对照群体中尿蛋白的平均水平的至少约100%、约110%、约120%、约130%、约140%、约150%、约160%、约170%、约180%、约190%、约200%、约250%、约300%、约400%、约500%、约1000%、约2000%、约5000%、约10000%或更高,或任何中间百分比或范围。在某些实施方案中,尿蛋白的预定参考值在对照群体中尿蛋白的平均水平的约100%至约200%之间,约200%至约500%之间,或约200%至约1000%之间。在某些实施方案中,尿蛋白的预定参考值在约0.001mg/dL至约100mg/dL之间,在约1mg/dL至约80mg/dL之间,在约5mg/dL至约70mg/dL之间,约10mg/dL至60mg/dL之间,或在约20mg/dL至约50mg/dL之间。
在某些实施方案中,BUN或尿素水平升高表明患CKD的风险增加。在某些实施方案中,BUN或尿素水平降低表明患CKD的风险降低。在某些实施方案中,与基于对照群体中BUN或尿素的平均水平的预定参考值相比,BUN或尿素的水平较高表明患CKD的风险增加。在某些实施方案中,与基于对照群体中BUN或尿素的平均水平的预定参考值相比,BUN或尿素的水平较低表明患CKD的风险降低。在某些实施方案中,对照群体中BUN的平均水平在约5mg/dL至约100mg/dL之间,在约10mg/dL至约50mg/dL之间,在约15mg/dL至约40mg/dL之间,或在约20mg/dL至约30mg/dL之间。在某些实施方案中,对照群体中BUN的平均水平在约16mg/dL和约36mg/dL之间。在某些实施方案中,对照群体中尿素的平均水平在约10.7mg/dL至约214mg/dL之间,在约21.4mg/dL至约107mg/dL之间,在约32.1mg/dL至约85.6mg/dL之间,或在约42.8mg/dL至约64.2mg/dL之间。在某些实施方案中,对照群体中尿素的平均水平在约34.24mg/dL和约77.04mg/dL之间。在某些实施方案中,BUN或尿素的预定参考值是对照群体中BUN或尿素平均水平的约100%、约105%、约110%、约115%、约120%、约125%、约130%、约140%、约150%、约200%、约250%、约300%、约400%、约500%或更高,或任何中间百分比或范围。在某些实施方案中,BUN或尿素的预定参考值在对照群体中BUN或尿素的平均水平的约100%至约120%之间,约120%至约150%之间,约150%至约200%之间,或约200%至约500%之间。在某些实施方案中,BUN的预定参考值在约10mg/dL至约100mg/dL之间,在约15mg/dL至约90mg/dL之间,在约20mg/dL至约80mg/dL之间,约30mg/dL至70mg/dL之间,或在约40mg/dL至约70mg/dL之间,或在约40mg/dL至60mg/dL之间。在某些实施方案中,尿素的预定参考值在约21.4mg/dL至约214mg/dL之间,在约32.1mg/dL至约192.6mg/dL之间,在约42.8mg/dL至约171.2mg/dL之间,约64.2mg/dL至149.8mg/dL之间,或在约85.6mg/dL至约149.8mg/dL之间,或在85.6mg/dL至128.4mg/dL之间。
在某些实施方案中,WBC水平降低表明患CKD的风险增加。在某些实施方案中,WBC水平升高表明患CKD的风险降低。在某些实施方案中,WBC水平升高表明患CKD的风险增加。在某些实施方案中,WBC水平降低表明患CKD的风险降低。在某些实施方案中,预测模型可以使用WBC排除其他感染。在某些实施方案中,预测模型可以使用WBC将以前的感染与将来的风险联系起来。在某些实施方案中,预测模型可以使用WBC来了解脱水水平并归一化其他生物标记物的值。在某些实施方案中,通过机器学习过程生成的预测模型可以根据就诊次数,其他生物标志物的当前和/或先前值来说明WBC计数。在某些实施方案中,与基于对照群体中WBC的平均水平的预定参考值相比,WBC的水平较高表明患CKD的风险增加。在某些实施方案中,WBC的水平较高表明感染或肾脏损害。在某些实施方案中,WBC升高的历史性发作表明较早的感染和/或较高的肾脏损害风险。在某些实施方案中,当前WBC升高表明肾功能衰退和/或CKD的风险较高。在某些实施方案中,与当前的预定参考值相比,猫科动物表现出更高水平的WBC,例如,在当前的猫科动物样品或最近的猫科动物病历中发现了更高水平的WBC(例如,在实施本文公开的任何一种方法之前的大约1周、大约2周、大约3周、大约4周、大约5周、大约10周、大约3个月或大约6个月内做出的记录)。在某些实施方案中,与预定参考值相比,猫科动物过去表现出了更高水平的WBC,例如,在猫科动物的历史样品或猫科动物的历史病历中发现更高水平的WBC(例如,在实施本文公开的任何一种方法之前约1周、约2周、约1个月、约2个月、约3个月或约6个月以上做出的记录)。在某些实施方案中,对照群体中WBC的平均水平在约1×109/L至约60×109/L之间,在约2×109/L至约50×109/L之间,在约5×109/L至约30×109/L之间,在约6×109/L至约20×109/L之间,或在约8×109/L至约16×109/L之间。在某些实施方案中,对照群体中WBC的平均水平在约5.5×109/L和约19.5×109/L之间。在某些实施方案中,WBC的预定参考值是对照群体中WBC平均水平的约100%、约105%、约110%、约115%、约120%、约125%、约130%、约140%、约150%、约200%、约250%、约300%、约400%、约500%或更高,或任何中间百分比或范围。在某些实施方案中,WBC的预定参考值在对照群体中WBC的平均水平的约100%至约120%之间,约120%至约150%之间,约150%至约200%之间,或约200%至约500%之间。在某些实施方案中,WBC的预定参考值在约2×109/L至约100×109/L之间,在约5×109/L至约80×109/L之间,在约10×109/L至约70×109/L之间,在约20×109/L至约60×109/L之间,或在约30×109/L至约50×109/L之间。在某些实施方案中,与基于对照群体中WBC的平均水平的预定参考值相比,WBC的水平较低表明患CKD的风险降低。在某些实施方案中,WBC的预定参考值是对照群体中WBC平均水平的约100%、约95%、约90%、约85%、约80%、约75%、约70%、约60%、约50%或以下,或任何中间百分比或范围。在某些实施方案中,WBC的预定参考值在对照群体中WBC的平均水平的约100%至约90%之间,约80%至约60%之间,或约60%至约40%之间。
在某些实施方案中,尿液pH水平降低表明患CKD的风险增加。在某些实施方案中,尿液pH水平升高表明患CKD的风险降低。在某些实施方案中,与基于对照群体中尿液pH的平均水平的预定参考值相比,尿液pH的水平较低表明患CKD的风险增加。在某些实施方案中,与基于对照群体中尿液pH的平均水平的预定参考值相比,尿液pH的水平较高表明患CKD的风险降低。在某些实施方案中,对照群体中尿液pH的平均水平在约4至约8.5之间,在约5至约8之间,在约5.2至约7.5之间,或在约6至约7之间。在某些实施方案中,对照群体中尿液pH的平均水平在约5.5和约7.5之间。在某些实施方案中,尿液pH的预定参考值是对照群体中尿液pH平均水平的约100%、约95%、约90%、约85%、约80%、约75%、约70%、约60%、约50%或以下,或任何中间百分比或范围。在某些实施方案中,尿液pH的预定参考值在对照群体中尿液pH的平均水平的约100%至约80%之间,约80%至约60%之间,或约60%至约40%之间。在某些实施方案中,尿液pH的预定参考值在约3至约8之间,在约4至约7.5之间,在约4.5至约7之间,在约4.5至约6.5之间,或在约5至约6.5之间,或在约5到约6之间。在某些实施方案中,猫科动物的饮食和猫科动物尿样品的处理被认为可调节尿比重水平。
在某些实施方案中,目前检测到生物标志物水平升高或降低,例如,在当前的猫科动物样品或最近的猫科动物病历中发现了生物标志物水平升高或降低(例如,在实施本文公开的任何一种方法之前的大约1周、大约2周、大约3周、大约4周、大约5周、大约10周、大约3个月或大约6个月内做出的记录)。在某些实施方案中,猫科动物过去表现出了生物标志物水平的升高或降低,例如,在猫科动物的历史样品或猫科动物的历史病历中发现更高水平的尿蛋白(例如,在实施本文公开的任何一种方法之前约1周、约2周、约1个月、约2个月、约3个月或约6个月以上做出的记录)。
通常,生物标志物的平均水平范围可以占健康、正常群体的80-90%或更多。因此,大约5-10%的群体可以具有高于平均/正常范围的上限的值,并且大约5-10%的群体可以具有低于平均/正常范围的下限的值。但是,这些值对于特定的猫科动物来说可能是正常的。在某些实施方案中,生物标志物的实际范围和有效性可以由每个实验室或测试确定,这取决于机器和/或取决于被测试以确定平均/正常范围的猫科动物的群体。此外,样品处理和机器维护/校准会影响实验室测试。对计算机的更新也会导致正常范围内的变化。可以考虑这些因素中的任何一个来调整每个生物标记物的平均水平和/或预定参考值。
在某些实施方案中,所述生物标志物包括至少一种其他生物标志物。在某些实施方案中,所述至少一种其他生物标植物是实施例1的表1中鉴定的生物标记。在某些实施方案中,所述至少一种其他生物标志物选自由磷酸盐、甲状旁腺激素(PTH)、对称性二甲基精氨酸(SDMA)、收缩压、钾、总钙、透明质酸、死亡受体5、转化生长因子β1、铁蛋白、β球蛋白(beta globin)、过氧化氢酶、α球蛋白、表皮生长因子受体途径底物8、粘蛋白同工型前体,埃兹蛋白(ezrin)、δ球蛋白(delta globin)、膜突蛋白(moesin)、磷蛋白同工型、膜联蛋白A2(annexin A2)、肌红蛋白、血液结合素(hemopexin)、丝氨酸蛋白酶抑制剂、丝氨酸肽酶抑制剂、CD14抗原前体、纤连蛋白同工型前蛋白、血管紧张素原前蛋白(angiotensinogenpreprotein)、补体成分前体、碳酸酐酶、尿调节素前体(uromodulin precursor)、补体因子H、补体成分4BP、硫酸乙酰肝素蛋白聚糖2(heparan sulfate proteoglycan 2)、嗅觉素-4(olfactomedian-4)、富亮氨酸α-2糖蛋白、环指蛋白167(ring finger protein)、间α球蛋白抑制剂H4(inter-alpha globulin inhibitor H4)、硫酸乙酰肝素蛋白聚糖2、N-酰基鞘氨醇氨基水解酶(N-acylshingosine aminohydrolase)、丝氨酸蛋白酶抑制剂进化枝A成员1(serine proteinase inhibitor clade A member 1)、粘蛋白1、簇集蛋白同工型1(clusterin isoform 1)、脑富含膜附着信号蛋白1(brain abundant membrane attachedsignal protein 1)、二肽酶1、纤连蛋白1同工型5前蛋白、血管紧张素原前体蛋白(angiotensinogen preproprotien)、碳酸酐酶、尿调节素前体、金属蛋白酶抑制剂2、胰岛素样生长因子结合蛋白7、免疫球蛋白A、免疫球蛋白G1、免疫球蛋白G2、α-1抗胰蛋白酶、血清淀粉样蛋白P成分(Serum amyloid P component)、肝细胞生长因子、细胞间粘附分子1、β-2-糖蛋白1、白细胞介素1β、中性粒细胞弹性蛋白酶、肿瘤坏死因子受体超家族成员11B、白细胞介素11、组织蛋白酶D、C-C模体趋化因子24、C-X-C模体趋化因子6、C-C模体趋化因子13、C-X-C模体趋化因子-1、C-X-C模体趋化因子-2和C-X-C模体趋化因子-3、基质溶解素(Matrilysin)、白介素2受体α链、胰岛素样生长因子结合蛋白3、巨噬细胞集落刺激因子1、载脂蛋白C-I、载脂蛋白C-II、纤维蛋白原α链、纤维蛋白原A-α链、激肽原、间α抑制剂H4(Inter-Alpha Inhibitor H4,ITIH4)、角蛋白I型细胞骨架10胱抑素A(cystatin A)、胱抑素B(cystatin B)及它们的任何组合所组成的组中。参见例如美国公开号2012/0077690A1,美国公开号2013/0323751 A1,EP 3,112,871 A1,EP 2,462,445 A1和EP 3,054,301A1。
在某些实施方案中,所述至少一种其他生物标志物在猫科动物的血液中。在某些实施方案中,所述至少一种其他生物标志物在猫科动物的血清中。在某些实施方案中,所述至少一种其他生物标志物在猫科动物的血浆中。在某些实施方案中,所述至少一种其他生物标志物在猫科动物的尿液中。
在某些实施方案中,所述生物标志物的预定参考值可以基于对照群体中测试样品中生物标志物的平均量。所述对照群体可以是一组具有相似遗传背景、年龄和平均健康状况的至少3只,优选至少10只,更优选至少50只猫科动物。
在某些实施方案中,生物标志物的预定参考值可以是对照群体中生物标志物的平均水平的约约90%、约80%、约70%、约60%、约50%、约40%、约30%、约20%、约10%、约5%、约2%、约1%。在某些实施方案中,生物标志物的预定参考值可以大于对照群体血液中生物标志物的平均水平的约110%、约120%、约130%、约140%、约150%、约160%、约170%、约180%、约190%、约200%、约250%、约300%、约400%、约500%、约600%、约700%、约800%、约900%或更高。
在某些实施方案中,可以通过本领域已知的任何方法检测和定量猫科动物中生物标志物的量。在某些实施方案中,肌酐、尿蛋白、WBC、尿素和/或BUN的水平通过荧光法(fluorescence method)或发光法(luminescence method)测定。在某些实施方案中,肌酐、尿蛋白、WBC、尿素和/或BUN的水平通过基于抗体的检测方法,例如酶联免疫吸附测定(ELISA),例如夹心ELISA来测定。在某些实施方案中,通过使用尿白蛋白抗体来测定尿蛋白的水平。在某些实施方案中,尿比重的水平可以通过折光法(refractometry)、液体比重测定法(refractometry)和试剂条来测量。在某些实施方案中,尿液pH水平可以通过pH测试条或pH计和pH探针来测量。在某些实施方案中,可以通过流式细胞术(flow cytometry)测量WBC的水平。
在某些实施方案中,可以使用其他检测方法,例如其他光谱法、色谱法、标记技术或定量化学法。在某些实施方案中,通过相同方法测定猫科动物中生物标志物的水平和生物标志物的预定参考值。
3.测试方法
本申请当前公开的主题提供了测定猫科动物患慢性肾脏病(CKD)的易感性的测试方法,以及预防和/或降低猫科动物对患慢性肾脏病(CKD)的风险的方法。
在某些非限制性实施方案中,该方法包括:在猫科动物中获得一定量的一种或多种生物标志物;并将一种或多种生物标志物中每一种的量与预定参考值进行比较。在某些实施方案中,所述预定参考值基于对照群体样品中生物标志物的平均量。在某些实施方案中,一种或多种生物标志物包括肌酐、尿比重和BUN(或尿素)。在某些实施方案中,肌酐的量高于第一预定值,尿比重低于第二预定参考值,以及BUN或尿素的量高于第三预定参考值表明有CKD的风险。在某些实施方案中,第一预定参考值在约0.5mg/dL至约3mg/dL之间,在约1mg/dL至约2.4mg/dL之间,在约1mg/dL至约2mg/dL之间,或在约1.2mg/dL至约1.8mg/dL之间。在某些实施方案中,第二预定参考值在约1.001至约1.08之间,在约1.001至约1.07之间,在约1.001至约1.06之间,在约1.001至约1.05之间,或在约1.001至约1.04之间。在某些实施方案中,当使用BUN测量值时,第三预定参考值在约10mg/dL至约100mg/dL之间,在约15mg/dL至约90mg/dL之间,在约20mg/dL至约80mg/dL之间,约30mg/dL至70mg/dL之间,或在约40mg/dL至约70mg/dL之间,或在约40mg/dL至60mg/dL之间。在某些实施方案中,当使用尿素测量值时,第三预定参考值在约21.4mg/dL至约214mg/dL之间,在约32.1mg/dL至约192.6mg/dL之间,在约42.8mg/dL至约171.2mg/dL之间,约64.2mg/dL至149.8mg/dL之间,或在约85.6mg/dL至约149.8mg/dL之间,或在85.6mg/dL至128.4mg/dL之间。
在某些非限制性实施方案中,一种或多种生物标志物包括尿比重、肌酐、尿蛋白、血尿素氮(BUN)或尿素、白细胞计数(WBC)和/或尿液pH。在某些实施方案中,肌酐的量高于第一预定值,尿比重的量低于第二预定参考值,BUN或尿素的量高于第三预定参考值,尿蛋白的量高于第四预定值,WBC的量高于第五预定参考值,以及尿液pH的量低于第六预定参考值表明有CKD风险。在某些实施方案中,第一预定参考值在约0.5mg/dL至约3mg/dL之间,在约1mg/dL至约2.4mg/dL之间,在约1mg/dL至约2mg/dL之间,或在约1.2mg/dL至约1.8mg/dL之间。在某些实施方案中,第二预定参考值在约1.001至约1.08之间,在约1.001至约1.07之间,在约1.001至约1.06之间,在约1.001至约1.05之间,或在约1.001至约1.04之间。在某些实施方案中,当使用BUN测量值时,第三预定参考值在约10mg/dL至约100mg/dL之间,在约15mg/dL至约90mg/dL之间,在约20mg/dL至约80mg/dL之间,约30mg/dL至70mg/dL之间,或在约40mg/dL至约70mg/dL之间,或在约40mg/dL至60mg/dL之间。在某些实施方案中,当使用尿素测量值时,第三预定参考值在约21.4mg/dL至约214mg/dL之间,在约32.1mg/dL至约192.6mg/dL之间,在约42.8mg/dL至约171.2mg/dL之间,约64.2mg/dL至149.8mg/dL之间,或在约85.6mg/dL至约149.8mg/dL之间,或在85.6mg/dL至128.4mg/dL之间。在某些实施方案中,第四预定参考值在约0.001mg/dL至约100mg/dL之间,在约1mg/dL至约80mg/dL之间,在约5mg/dL至约70mg/dL之间,约10mg/dL至60mg/dL之间,或在约20mg/dL至约50mg/dL之间。在某些实施方案中,第五预定参考值在约2×109/L至约100×109/L之间,在约5×109/L至约80×109/L之间,在约10×109/L至约70×109/L之间,在约20×109/L至约60×109/L之间,或在约30×109/L至约50×109/L之间。在某些实施方案中,第六预定参考值在约3至约8之间,在约4至约7.5之间,在约4.5至约7之间,在约4.5至约6.5之间,或在约5至约6.5之间,或在约5到约6之间。
在某些非限制性实施方案中,预测猫科动物的慢性肾脏病(CKD)风险的方法包括:接收来自取自猫科动物的样品的一种或多种生物标志物的至少一个输入电平;分析和转换一种或多种生物标志物的至少一个输入电平,以通过分类算法得出概率分数或分类标签;并生成输出。在某些实施方案中,预测猫科动物的慢性肾脏疾病(CKD)风险的方法包括:接收来自取自猫科动物的样品的一种或多种生物标志物的至少一个输入电平和猫科动物年龄的输入电平;分析和转换所述一种或多种生物标志物的至少一个输入电平和年龄的输入电平,以通过分类算法得出概率分数或分类标签;并生成输出。在某些实施方案中,该方法还包括根据测定或分类确定个性化推荐。在某些实施方案中,该代码在由处理器执行时进一步导致系统在图形用户界面上显示测定或分类以及个性化推荐。在某些实施方案中,猫科动物的年龄是当实施本文公开的方法时的年龄。
在某些实施方案中,所述一种或多种生物标志物中的至少一种包括与尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)和尿液pH,或它们的组合有关的信息。在某些实施方案中,生物标志物还包括选自实施例1中的表1的一种或多种参数。在某些实施方案中,所述分析和转化所述一种或多种生物标志物的至少一个输入电平以及可选的年龄的输入电平包括组织和修改每个输入电平。在某些实施方案中,所述至少一个输入电平被归一化。在某些实施方案中,所述至少一个输入电平被转化为一种或多种生物标志物的复合水平。在某些实施方案中,所述年龄的输入电平被转换为年龄的复合水平。在某些实施方案中,根据猫科动物的生物学信息,例如体重、年龄、身高、病史、品种等,对所述至少一个输入电平进行转换和/或调整。在某些实施方案中,所述至少一个输入电平包括在不同时间点测量的一种或多种生物标志物的顺序测量。
在某些实施方案中,所述分类算法包括从训练数据集开发的代码。在某些实施方案中,使用机器学习技术(例如,训练算法)来开发分类算法。
在某些实施方案中,所述分类算法是硬分类器或软分类器,所述硬分类器测定猫科动物是否有患CKD风险的分类标签,所述软分类器测定猫科动物患CKD的概率分数。
在某些实施方案中,所述输出是分类标签或概率分数。
在某些实施方案中,获得数据的步骤包括测量来自猫科动物的样品中的一种或多种生物标志物中的每一种的量。在某些实施方案中,从测试样品获得数据的步骤包括从第三方接收数据以测定数据,该第三方已经测量了来自猫科动物的样品中的一种或多种生物标志物中的每一种的量。在某些实施方案中,来自个体的样品是血液样品或尿液样品。
在某些实施方案中,训练数据集包括与来自第一组样品猫科动物的第一多个生物标志物和来自第二组样品猫科动物的第二多个生物标志物有关的医学信息。在某些实施方案中,第一组样品猫科动物已经被诊断患有CKD,并且第二组样品猫科动物尚未被诊断为患有CKD。在某些实施方案中,训练数据集包括来自已经被诊断患有CKD的猫科动物和尚未被诊断为患有CKD的猫科动物的生物标志物的量。在某些实施方案中,第一多个生物标志物包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或其任何组合。在某些实施方案中,第一多个生物标志物包括本申请中公开的任何生物标志物。在某些实施方案中,第二多个生物标志物包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或其组合中的至少一种。在某些实施方案中,第二多个生物标志物包括本申请中公开的任何一种生物标志物。
在某些实施方案中,如果将数据分类为意味着CKD的风险,则与如果将数据分类为意味着CKD的低风险相比,猫科动物被预测具有更大的患CKD的可能性。
在某些非限制性实施方案中,测定猫科动物对患慢性肾脏病(CKD)的易感性的方法包括:
获得包括猫科动物中多种生物标志物的量以及可选的猫科动物的年龄的数据;并且用解析算法,例如分类算法,即分类器,对数据进行分析。在某些实施方案中,通过机器学习算法来开发分类算法。在某些实施方案中,分类算法是从训练数据集开发的。
在某些非限制性实施方案中,测定猫科动物对患慢性肾脏病(CKD)的易感性的方法包括:
接收来自猫科动物的一种或多种生物标志物的至少一个输入电平,可选地接收猫科动物年龄的输入电平,其中一种或多种生物标志物中的至少一种包括尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)、尿液pH或它们的任意组合;
通过组织和/或修改每个输入电平来分析和转换一种或多种生物标志物中的至少一个输入电平以及可选的年龄的输入电平,以通过分类算法得出概率分数或分类标签,该算法包括从训练数据集开发的代码,该训练数据集包括医学信息,该医学信息与第一多个生物标志物以及可选的来自第一组样品猫科动物的年龄和第二多个生物标志物以及可选的来自第二组样品猫科动物的年龄均有关,其中使用训练算法开发分类算法;
其中所述分类算法测定猫科动物是否有患CKD风险的分类标签,或测定猫科动物患CKD的概率分数;
产生输出,其中所述输出是分类标签或概率分数;
提供个性化推荐,例如基于输出提供饮食方案和/或进一步监测一种或多种生物标志物;并且
在图形用户界面上显示输出和/或个性化推荐。
在某些实施方案中,一种或多种生物标志物包括与尿比重水平、肌酐水平和血尿素氮(BUN)或尿素水平有关的信息。在某些实施方案中,一种或多种生物标志物包括与尿比重水平、肌酐水平、尿蛋白水平、血尿素氮(BUN)或尿素水平、白细胞计数(WBC)和尿液pH有关的信息。
在某些实施方案中,所述方法包括接收来自猫科动物的一种或多种生物标志物的至少一个输入电平和猫科动物年龄的输入电平。
在某些实施方案中,所述方法包括接收生物标志物的输入电平,该生物标志物包括与尿比重水平、肌酐水平和血尿素氮(BUN)或尿素水平有关的信息;以及接收猫科动物年龄的输入电平。
在某些实施方案中,分类算法包括选自逻辑回归算法、人工神经网络算法(ANN)、递归神经网络算法(RNN)、K最近邻算法(KNN)、朴素贝叶斯算法、支持向量机算法(SVM)、随机森林算法、自适应增强(AdaBoost)算法及它们的任何组合的。在某些实施方案中,分类算法包括正则化算法。在某些实施方案中,正则化算法防止过度拟合。
在某些实施方案中,分类算法包括标准RNN算法,该标准RNN算法包括输入层,输出层和隐藏层。在某些实施方案中,RNN包括普通节点和/或层。在某些实施方案中,RNN包括长短期记忆(LSTM)节点和/或层。在某些实施方案中,RNN包括大约1、大约2、大约3、大约4、大约5、大约6、大约7、大约8、大约9、大约10或更多个隐藏层(hidden layer)。在某些实施方案中,RNN包括在约1个至约3个之间,在约2个至约4个之间,在约3个至约5个之间,在约5个至约10个之间,在约1个至约4个之间,或在约1个到约5个之间,或在约2个至约6个之间的隐藏层。
在某些实施方案中,每个层包括至少约1、至少约2、至少约3、至少约4、至少约5、至少约6、至少约7、至少约8、至少约9、至少约10、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100个、至少约150个、至少约200个、至少约250个、至少约300个、至少约400个、至少约500个节点或任何中间数量或范围的节点。在某些实施方案中,每个层包括在约2个至约10个之间,在约2个至约20个之间,约3个至约30个之间,约2个至约50个之间,约3个至约100个之间,约4个至约200个之间,约5个至约300个之间,约10个至约500个之间,约2个至约1000个之间,约4个至约500个之间的节点。在某些实施方案中,每个层包括约5至约300之间的数量的节点。在某些实施方案中,每个层包括约6至约250之间的数量的节点。在某些实施方案中,每个层包括约7至约200之间的数量的节点。在某些实施方案中,隐藏层包括双曲正切(tanh)激活函数。
在某些实施方案中,猫科动物的生物标志物的输入电平和年龄与猫科动物的一次或多次就诊的病历有关。在某些实施方案中,猫科动物的生物标志物的输入电平和年龄与至少约2次就诊,至少约3次就诊,至少约4次就诊,至少约5次就诊,至少约6次就诊,至少约7次就诊,至少约8次就诊,至少约9次就诊,至少约10次就诊或更多次就诊的猫科动物的病历有关。在某些实施方案中,猫科动物的生物标志物的输入电平和年龄与猫科动物约1次就诊至约10次就诊之间,约2次就诊至约10次就诊之间,约3次就诊至约10次就诊之间,约1次就诊至约5次就诊之间,约1次就诊至约3次就诊之间,约2次就诊至约5次就诊之间,约3次就诊至约5次就诊之间的病历有关。
在某些实施方案中,分类标签或概率分数是从中间概率分数的组合中转换而来的,每个中间概率分数均基于与猫科动物一次就诊的病历有关的猫科动物的生物标志物的输入电平和年龄来测定。
在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数时猫科动物感染慢性肾脏病(CKD)的状态有关。在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数后猫科动物患慢性肾脏病(CKD)的风险有关。
在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数后约1个月、约2个月、约3个月、约4个月、约5个月、约6个月、约7个月、约8个月、约9个月,约10个月、约11个月、约12个月或更长时间猫科动物患慢性肾脏病(CKD)的风险有关。在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数后约1年、约2年、约3年、约4年、约5年或更长时间猫科动物患慢性肾脏病(CKD)的风险有关。
在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数后在约1个月至12个月之间,在约1个月至约6个月之间,在约1个月至约3个月之间,在约3个月至约12个月之间,在约6个月至约12个月之间,在约3个月至约6个月之间,猫科动物患慢性肾脏病(CKD)的风险有关。在某些实施方案中,分类标签或概率分数与测定分类标签或概率分数后在约1年至约5年之间,在约1年至约3年之间,约1年至约2年之间,在约2年至约5年之间,在约2年至约3年之间,在约3年至约5年之间猫科动物患慢性肾脏病(CKD)的风险有关。
在某些实施方案中,个性化推荐包括诊断猫科动物共病的存在。在某些实施方案中,共病选自由甲状腺功能亢进症、糖尿病、肝病、体重不足、杂音、关节炎、不适、便秘、肠胃炎、呕吐、炎症性肠病、结晶尿、肠炎、泌尿道感染、上呼吸道疾病、泌尿道疾病、肥胖、不当排泄、膀胱炎、结肠炎及它们的任何组合组成的组。在某些实施方案中,共病选自由甲状腺功能亢进症、糖尿病、肝病、体重不足、杂音及它们的任何组合所组成的组。
在某些实施方案中,猫科动物是家猫。
训练数据集
在本申请当前公开的主题中,训练数据集包括多个猫科动物的病历。在某些实施方案中,病历包括本文公开的生物标志物的量和可选的猫科动物的年龄。在某些实施方案中,病历包括猫科动物的一次或多次就诊的记录。在某些实施方案中,病历包括猫科动物的至少两次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的至少三次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的至少四次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的最近两次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的最近三次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的最近四次就诊的记录。在某些实施方案中,病历包括猫科动物的在不同时间点的第一次和最后一次就诊的记录。
在某些实施方案中,病历包括至少约100种不同的已经被诊断患有CKD的猫科动物和至少约100种不同的尚未被诊断为患有CKD的猫科动物。在某些实施方案中,病历包括至少约200种不同的已经被诊断患有CKD的猫科动物和至少约200种不同的尚未被诊断为患有CKD的猫科动物。在某些实施方案中,病历包括至少约500种不同的已经被诊断患有CKD的猫科动物和至少约500种不同的尚未被诊断为患有CKD的猫科动物。在某些实施方案中,病历包括至少约1000种不同的已经被诊断患有CKD的猫科动物和至少约1000种不同的尚未被诊断为患有CKD的猫科动物。在某些实施方案中,病历包括至少约2000种不同的已经被诊断患有CKD的猫科动物和至少约2000种不同的尚未被诊断为患有CKD的猫科动物。在某些实施方案中,病历包括至少约5000种不同的已经被诊断患有CKD的猫科动物和至少约5000种不同的尚未被诊断为患有CKD的猫科动物。
在某些实施方案中,训练数据集被分层以用于交叉验证。交叉验证是评估训练算法的结果(例如分类算法)如何可以推广到独立数据集的过程。可以将训练数据集划分或分层为2折(folds)或更多折,其中一个或多个子集用于验证由一个或多个不同子集训练的分类算法。在某些实施方案中,训练数据集被分层为约2折。在某些实施方案中,训练数据集被分层为约3折。在某些实施方案中,训练数据集被分层为约4折。在某些实施方案中,训练数据集被分层为约5折。在某些实施方案中,训练数据集被分层为约6折、约7折、约8折、约9折、约10折、约15折、约20折、约30折、约40折、约50折或更多个折。
在某些实施方案中,训练数据集被划分为用于不同预测模型的子集。在某些实施方案中,子集包括与在给定就诊期间已经被诊断为CKD的个体相对应的测量。在某些实施方案中,子集包括与给定就诊后3个月内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后6个月内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后9个月内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后12个月内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后2年内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后3年内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后4年内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,子集包括与给定就诊后5年内或更长时间内被诊断出患有CKD的个体相对应的测量值。在某些实施方案中,训练数据集被划分为包括以上公开的一个或多个子集的子集。
在某些实施方案中,如果猫科动物的记录缺少一种或多种生物标记的量或水平和/或缺少年龄,则插补一种或多种生物标记的量或水平和/或年龄。在某些实施方案中,使用随机森林实现来执行插补。
在某些实施方案中,训练数据集由一组纳入标准和/或排除标准过滤。在某些实施方案中,猫科动物的就诊计数不小于2次,不小于3次,不小于4次或不小于5次就诊(例如,不一定具有任何血液或尿液数据)。在某些实施方案中,就诊的病史涵盖至少约1个月,至少约2个月,至少约3个月,至少约4个月,至少约5个月,至少约6个月,至少约7个月,至少约8个月,至少约9个月,至少约10个月,至少约11个月,至少约1年,至少约2年,至少约3年,至少约4年,至少约5或更多年,在某些实施方案中,猫科动物的就诊年龄在约1至约25岁之间,约1.5至约22岁之间,约2至约20岁之间(例如,所有就诊平均年龄小于19.5岁)。
在某些实施方案中,猫科动物的品种是预定的品质。就猫而言,该品种可以是家养短毛猫(domestic short hair,DSH)、家养中毛猫(domestic medium-haired,DMH)、家养长毛猫(domestic long-haired,DLH)或普通混种猫(mixed breed cat)。
在某些实施方案中,猫科动物的记录包括跨越至少约1年,至少约2年,至少约3年,至少约4年,至少约5年或更多年的至少2个、3个、4个、5个或更多个肌酐测量。在某些实施方案中,猫科动物的记录包括在诊断为CKD之前在约3、约3.5、约4、约4.5、约5、约5.5、约6、约6.5、约7、约7.5、约8、约8.5、约9或更多年内的至少一个肌酐测量。在某些实施方案中,猫科动物的记录包括在有2个以上未诊断年份的约3、约3.5、约4、约4.5、约5、约5.5、约6、约6.5、约7、约7.5、约8、约3、约3、约3.5、约4、约4.5、约5、约8、约8、约8.5,约9或更多年内的至少一个肌酐测量。
机器学习算法
在某些实施例中,机器学习算法包括具有以下任意一种或多种学习风格的算法:监督学习(例如,使用逻辑回归,使用反向传播神经网络)、无监督学习(例如,使用Apriori算法,使用K-均值聚类)、半监督学习、强化学习(例如,使用Q学习算法,使用时间差分学习)和任何其他合适的学习方式。
在某些实施例中,机器学习算法包括以下任一项或多项:回归算法(例如,普通最小二乘、逻辑回归、逐步回归、多元自适应回归样条、本地散点平滑估计等),基于实例的方法(例如,k最近邻、学习矢量量化,自组织映射等),正则化方法(例如,岭回归(ridgeregression)、最小绝对收缩和选择算子、弹性网络等),决策树学习方法(例如分类与回归树、迭代二分法3,C4.5、卡方自动交互检测、决策树桩、随机森林、多元自适应回归样条、梯度提升机等),贝叶斯方法(例如朴素贝叶斯、平均单依赖估计量、贝叶斯置信网络等),核方法(例如支持向量机、径向基函数、线性判别分析等),聚类方法(例如k-均值聚类、期望最大化等),关联的规则学习算法(例如Apriori算法、Eclat算法等),人工神经网络模型(例如感知器方法、反向传播方法、Hopfield网络方法、自组织映射方法、学习矢量量化方法等),深度学习算法(例如受限玻尔兹曼机、深度置信网络方法、卷积网络方法、堆叠式自动编码器方法等),降维方法(例如主成分分析、偏最小二乘回归、西蒙映射(Sammon mapping)、多维标度、投影追踪等),集成方法(例如推进、自举聚合、AdaBoost、堆栈泛化、梯度推进机方法、随机森林方法等),条件随机场算法和任何合适形式的算法。
在某些实施方案中,使用监督学习算法来训练分类算法。在某些实施方案中,使用选自以下的算法训练分类算法:逻辑回归算法、人工神经网络算法(ANN)、递归神经网络算法(RNN)、K最近邻算法(KNN)、朴素贝叶斯算法、支持向量机算法(SVM)、随机森林算法、AdaBoost算法及它们的任何组合。在某些实施方案中,分类算法是正则化算法。在某些实施方案中,正则化算法防止过度拟合。
在某些实施方案中,使用具有动态时间规整(DTW)的KNN训练分类算法。在某些实施方案中,通过过滤方法,例如使用皮尔逊相关系数,选择一种或多种生物志物和/或年龄。在某些实施方案中,通过自顶向下的封装方法KNN-DTW选择一种或多种生物标志物和/或年龄。在某些实施例中,K是7,例如7个邻居。在某些实施方案中,通过自底向上封装,选择一种或多种生物志物和/或年龄。在某些实施方案中,一种或多种生物标志物包括尿比重、肌酐、尿蛋白、血尿素氮(BUN)或尿素、白细胞计数(WBC)和/或尿液pH。在某些实施方案中,一种或多种生物标志物包括表1和表9中的一种或多种参数。在某些实施方案中,使用训练数据集的分层子集来训练分类算法,以创建预测器,该预测器在测定了一种或多种生物标志物的量的就诊的各个时间段之后预测患CKD的风险。在某些实施方案中,创建预测器以预测在测定生物标志物的量后约0个月,约3个月,约6个月,约9个月或约12个月患CKD的风险。在某些实施方案中,创建预测器以预测在测定生物标志物的量后约0年、约0.5年、约1年、约2年、约3年、约4年、约5年或更多年患CKD的风险。在某些实施方案中,采用专家混合(MOE)方法来训练分类算法,其中一组预测器与例如简单投票或加权投票相结合。在某些实施方案中,使用KNN算法训练分类算法,并且其中K至少为约7。在某些实施方案中,使用KNN算法训练分类算法,并且其中K至少为约13。在某些实施方案中,使用KNN算法训练分类算法,并且其中K为约5。在某些实施方案中,使用KNN算法训练分类算法,并且其中K为约17。
在某些实施方案中,使用RNN算法训练分类算法,该RNN算法包括输入层、输出层和隐藏层。在某些实施方案中,RNN包括普通节点和/或层。在某些实施方案中,RNN包括长短期记忆(LSTM)节点和/或层。在某些实施方案中,RNN包括大约1、大约2、大约3、大约4、大约5、大约6、大约7、大约8、大约9、大约10或更多个隐藏层。在某些实施方案中,RNN包括在约1个至约3个之间,在约2个至约4个之间,在约3个至约5个之间,在约5个至约10个之间,在约1个至约4个之间,或在约1个到约5个之间,或在约2个至约6个之间的隐藏层。在某些实施方案中,每个层包括至少约1、至少约2、至少约3、至少约4、至少约5、至少约6、至少约7、至少约8、至少约9、至少约10、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100个、至少约150个、至少约200个、至少约250个、至少约300个、至少约400个、至少约500个节点或任何中间数量或范围的节点。在某些实施方案中,每个层包括在约2个至约50个之间,在约3个至约100个之间,在约4个至约200个之间,在约5个至约300个之间,或在约10个至约500个之间,或在约2个至约1000个之间,在约4个至约500个之间的节点。在某些实施方案中,每个层包括约5个至约300个之间的节点。在某些实施方案中,每个层包括约6个至约250个之间的节点。在某些实施方案中,每个层包括约7与约200之间的数量的节点。在某些实施方案中,隐藏层包括双曲正切(tanh)激活函数。在某些实施方案中,输出层包括softmax函数。在某些实施方案中,二元交叉熵可以用于损失计算。在某些实施方案中,分类算法是防止过度拟合的正则化算法。在某些实施方案中,正则化算法会导致约5%、约10%、约15%、约20%、约25%、约30%、约35%、约40%或任何中间百分比或范围的丢弃(dropout),以避免过度拟合。在某些实施方案中,正则化算法导致在约5%至约10%之间,约10%至约20%之间,约20%至约30%之间,或约30%至约40%之间的丢弃,以避免过度拟合。
在某些实施方案中,后续步骤可以包括评估或验证机器学习算法。例如,可以基于评估/验证来更新机器学习算法。在某些实施方案中,训练数据集被分层为约2折(folds)、约3折、约4折、约5折、约6折、约7折、约8折、约9折、约10折、约20折、约30折、约40折、约50折或更多折,或任何中间折数以交叉验证。
在某些实施方案中,分类算法性能的特征在于曲线下的面积(AUC)在约0.50至约0.99的范围内。在某些实施方案中,分类算法性能的特征在于曲线下的面积(AUC)在约0.60至约0.99的范围内。在某些实施方案中,分类算法性能的特征在于曲线下的面积(AUC)在约0.70至约0.99的范围内。在某些实施方案中,分类算法性能的特征在于曲线下的面积(AUC)在约0.80至约0.99的范围内。在某些实施方案中,分类算法性能的特征在于曲线下的面积(AUC)在约0.80至约0.95的范围内。
线性方法
在某些非限制性实施方案中,预测猫科动物的慢性肾脏病(CKD)风险的方法包括:基于猫科动物的一种或多种生物标志物的量计算分数,并将该分数与阈值进行比较。在某些实施方案中,分数是通过将每个生物标志物及其系数的乘积相加来计算的。在某些实施方案中,通过将线性判别分析(LDA)应用于包括多个猫科动物病历的数据集来测定一种或多种生物标志物的系数,其中所述病历包括对所述一种或多种生物标志物的测量值。在某些实施方案中,通过将线性判别分析(LDA)应用于包括多个猫科动物病历的数据集来测定阈值,其中病历包括对一种或多种生物标志物的测量值。在某些实施方案中,分数大于阈值表明存在CKD的风险。在某些实施方案中,分数小于阈值表示存在CKD的风险。
在某些实施方案中,一种或多种生物标志物包括肌酐、尿比重和/或BUN或尿素。在某些实施方案中,肌酐的量以毫克每分升(mg/dL)计量。在某些实施方案中,尿比重的量以尿液样本密度与水密度的比值计量。在某些实施方案中,BUN或尿素测量值以毫克每分升(mg/dL)计量。
在某些实施方案中,肌酐的系数在约0.000001至约10之间,在约0.00001与约1之间,在约0.00005与约0.5之间,在约0.0001与约0.10之间,或在约0.0005与约0.05之间。在某些实施方案中,肌酐的系数在约0.001至约0.02之间,在约0.002至约0.015之间,在约0.003至约0.012之间,在约0.004至约0.01之间,在约0.005至约0.009之间,或在约0.0055到约0.0085之间,或在约0.0057至约0.0083之间或在约0.006或0.007。在某些实施方案中,肌酐系数为约0.0057、约0.0058、约0.0061、约0.0068、约0.0069或约0.0083。
在某些实施方案中,尿比重的系数在约-0.01至约-1000之间,在约-0.05至约-500之间,在约-0.1至约-300之间或在约-0.5至约-200之间。在某些实施方案中,尿比重的系数在约-1至约-100之间,在约-5至约-80之间,在约-10至约-70之间,在约-15至约-60之间,在约-20至约-50之间,或在约-25到约-45之间或在约-30至约-40之间。在某些实施方案中,肌酐系数为约-25.7343、约-36.9897、约-40.0563、约-44.3369、约-47.042或约-49.9186。
在某些实施方案中,尿素的系数在约0.00001至约100之间,在约0.0001与约10之间,在约0.0005与约5之间,在约0.001与约1之间或在约0.005与约0.8之间。在某些实施方案中,尿素的系数在约0.01至约0.5之间,在约0.02至约0.4之间,在约0.03至约0.3之间,在约0.04至约0.2之间,在约0.05至约0.15之间,或在约0.06到约0.12之间,或在约0.07至约0.11之间或在约0.08或0.1。在某些实施方案中,尿素系数为约0.0659、约0.1044、约0.1077、约0.1085、约0.1137或约0.1182。在某些实施方案中,当使用BUN测量值时,尿素系数乘以2.14倍。
在某些实施方案中,分数由以下公式计算:
分数=肌酐的测量值×肌酐系数+尿比重的测量值×尿比重系数+BUN或尿素的测量值×BUN或尿素的系数。
在某些实施方案中,阈值在约-0.01至约-1000之间,在约-0.05至约-500之间,在约-0.1至约-300之间或在约-0.5至约-200之间。在某些实施方案中,阈值在约-1至约-100之间,在约-5至约-80之间,在约-10至约-70之间,在约-15至约-60之间,在约-20至约-50之间,或在约-25到约-45之间或在约-30至约-40之间。在某些实施方案中,阈值为约-38.7128、约-22.603、约-34.8051、约-42.7709、约-45.625或约-48.7966。
在某些实施方案中,根据实施例4中的表19选择阈值和肌酐、尿比重和尿素的系数。在某些实施方案中,当使用BUN测量值时,尿素系数乘以2.14倍。
在某些实施方案中,分数大于阈值表明存在CKD的风险。在某些实施方案中,分数小于阈值表示不存在CKD的风险。
在某些实施方案中,所述方法预测在测定生物标志物的量后约0个月,约3个月,约6个月,约9个月,约12个月,约18个月和/或约24个月患CKD的风险。在某些实施方案中,所述方法预测在测定生物标志物的量后约0年、约0.5年、约1年、约2年、约3年、约4年、约5年或更多年患CKD的风险。
4.治疗方法
在某些非限制性实施方案中,本申请当前公开的主题提供了治疗、预防或降低猫科动物患慢性肾脏病(CKD)的风险。在某些实施方案中,所述方法包括向猫科动物所有者提供饮食方案以治疗或预防猫科动物的CKD。
本申请当前公开的主题的组合物和方法可用于多种猫科动物,例如家猫。
在某些非限制性实施方案中,所述猫科动物处于慢性肾脏病的风险中。
在某些非限制性实施方案中,不清楚所述猫科动物已有患慢性肾脏病的风险。
在某些非限制性实施方案中,所述猫科动物被诊断患有慢性肾脏病。
在某些非限制性实施方案中,不清楚所述猫科动物已患有慢性肾脏病。
本申请当前公开的主题提供治疗、预防和/或降低猫科动物患慢性肾脏病(CKD)的风险,其中所述方法包括:使用本文公开的任何预测方法测定猫科动物是否有患CKD的危险,其中如果猫科动物有患CKD的危险,则该方法包括对本申请中公开的一种或多种生物标志物的进一步分析。在某些实施方案中,对一种或多种生物标志物的进一步分析包括测定来自猫科动物的样品中的一种或多种生物标志物中的每一种的量。在某些实施方案中,一种或多种生物标志物包括尿比重、肌酐、尿蛋白、血尿素氮(BUN)或尿素、白细胞计数(WBC)和/或尿液pH。在某些实施方案中,该方法进一步包括使用本申请中公开的任何一种预测方法并使用新获得的生物标志物的测量值和猫科动物的年龄,重新分析患CKD的风险。
在某些实施方案中,一种或多种生物标志物包括对称性二甲基精氨酸(SDMA)、尿比重和/或肌酐。在某些实施方案中,该方法进一步包括诊断猫科动物是否患有CKD。可以使用任何标准的CKD诊断方法,例如国际肾脏兴趣协会(IRIS)开发分期方法(www.iris-kidney.com;也可以参见:艾略特(Elliott)等,《猫科动物慢性肾脏疾病的饮食疗法(Dietary therapy for feline chronic kidney disease)》,《猫科动物临床营养百科全书(Encyclopedia of feline clinical nutrition)》,第二版,2015年)。在某些实施方案中,诊断方法是根据实施例3和/或下表17中所述的分期标准。
在某些非限制性实施方案中,本申请当前公开的主题提供治疗或预防猫科动物慢性肾脏病(CKD)的方法,其中所述方法包括:使用本文公开的任何预测方法测定猫科动物是否有患CKD的危险,其中如果猫科动物被测定有患CKD的危险,则该方法还包括对猫科动物开出治疗方案。
在某些实施方案中,所述治疗方案包括选自以下的至少一种治疗方案:饮食疗法、血液透析、肾脏替代疗法、戒断对肾脏有害的化合物(withdrawal of kidney damagingcompounds)、肾脏移植、延缓或避免肾脏损害程序、改变利尿的给药、以及它们的组合。在某些实施方案中,所述治疗方案包括选自以下的至少一种治疗方案:减少磷酸盐的摄入、减少蛋白质的摄入、给予多不饱和脂肪酸、给予磷酸盐结合剂治疗、给予钾、减少饮食中钠的摄入量、给予碱补充剂、及它们的组合。参见,例如,乔纳森·D·福斯特(JonathanD.Foster),《慢性肾脏病的矿物质和骨骼疾病的最新进展》(Update on Mineral and BoneDisorders in Chronic Kidney Disease),北美兽医诊所:小型动物诊所(Vet Clin NorthAm Small Anim Pract)。2016年11月;46(6):1131-49。
在某些实施方案中,所述治疗方案是饮食疗法。在某些实施方案中,饮食疗法包括选自以下的饮食:低磷饮食;低蛋白饮食;低钠饮食;钾补充饮食;多不饱和脂肪酸(PUFA,例如长链ω-3脂肪酸)补充饮食;抗氧化剂补充饮食;维生素B补充饮食;流质饮食;及它们的任何组合。
在某些实施方案中,以宠物食品的重量计,低磷饮食包括约0.01%至约5%之间,约0.1%至约2%之间,约0.1%至约1%之间,约0.05%至约2%之间,或约0.5%至1.5%之间的磷。在某些实施方案中,以宠物食品的重量计,低磷饮食包括约0.01%、约0.05%、约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、5%的磷,或任何中间百分比或范围的磷。在某些实施方案中,低磷饮食包含约0.1g/1000kcal,约0.2g/1000kcal,约0.3g/1000kcal,约0.4g/1000kcal,约0.5g/1000kcal,约0.6g/1000kcal,约0.7g/1000kcal,约0.8g/1000kcal,约0.9g/1000kcal,约1.0g/1000kcal,约1.1g/1000kcal,约1.2g/1000kcal,约1.3g/1000kcal,约1.4g/1000kcal,约1.5g/1000kcal,约1.6g/1000kcal,约1.7g/1000kcal,约1.8g/1000kcal,约1.9g/1000kcal,约2.0g/1000kcal,2.1g/1000kcal,约2.2g/1000kcal,约2.5g/1000kcal,约2.8g/1000kcal,约3.0g/1000kcal,约3.5g/1000kcal,约4g/1000kcal,约5g/1000kcal,约10g/1000kcal,约15g/1000kcal,约20g/1000kcal或任何中间百分比或范围的磷酸盐(phosphate)。在某些实施方案中,低磷饮食包含约0.1g/1000kcal至约0.5g/1000kcal之间,约0.5g/1000kcal至约1.0g/1000kcal之间,约1.0g/1000kcal至约2.0g/1000kcal之间,在约2.0g/1000kcal至约5.0g/1000kcal之间,在约0.01g/1000kcal至约0.1g/1000kcal之间,在约0.05g/1000kcal至约1.0g/1000kcal之间,约0.1g/1000kcal至约1g/1000kcal之间,约0.1g/1000kcal至约2g/1000kcal之间,约1g/1000kcal至2g/1000kcal之间的磷酸盐。在某些实施方案中,以宠物食品的重量计,低磷饮食包含约0.5%的磷酸盐。(例如,对于干的肾脏饮食为约1.2g/1000kcal,或对于湿的肾脏饮食为约1.0g/1000kcal)。在某些实施方案中,以宠物食品的重量计,低磷饮食包含约0.9或1%的磷酸盐(例如,对于干的维持饮食为约1.8g/1000kcal,对于湿的持饮食为约2.3g/1000kcal)。
在某些实施方案中,以宠物食品的重量计,低钠饮食包含约0.00001%至约5%之间,约0.0001%至约1%之间,约0.001%至约0.1%之间,约0.001%至约0.05%之间的钠。在某些实施方案中,以宠物食品的重量计,低钠饮食包括约0.01%、约0.05%、约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、5%的钠,或任何中间百分比或范围的钠。在某些实施方案中,低钠饮食包含约1mg/kg/天,约2mg/kg/天,约3mg/kg/天,约4mg/kg/天,约5mg/kg/天,6mg/kg/天,约7mg/kg/天,约8mg/kg/天,约9mg/kg/天,约10mg/kg/天,约15mg/kg/天,约20mg/kg/天,约30mg/kg/天,约40mg/kg/天,约50mg/kg/天,约60mg/kg/天,约70mg/kg/天,约80mg/kg/天,约90mg/kg/天,约100mg/kg/天,约120mg/kg/天,约150mg/kg/天,或任何中间量或范围的钠。在某些实施方案中,低钠饮食包含约1mg/1000kcal至约50mg/1000kcal之间,约2mg/1000kcal至约20mg/1000kcal之间,约5mg/1000kcal至约50mg/1000kcal之间,在约1mg/1000kcal至约10mg/1000kcal之间,在约0.1mg/1000kcal至约5mg/1000kcal之间,在约0.1mg/1000kcal至约10mg/1000kcal之间,约0.1mg/1000kcal至约20mg/1000kcal之间,约0.1mg/1000kcal至约40mg/1000kcal之间,约10mg/1000kcal至20mg/1000kcal之间的钠。在某些实施方案中,低钠饮食包含约0.4至约0.9mmol/kg/天,或约9.2至约20.7mg/kg/天。在某些实施方案中,低钠饮食包含约2mmol/kg/天或约46mg/kg/天。
在某些实施方案中,除宠物食品中存在的钾外,以宠物食品的重量计,钾补充饮食包含约0.00001%至约5%之间,约0.0001%至约1%之间,约0.001%至约0.1%之间,约0.001%至约0.05%之间的钾补充剂。在某些实施方案中,除宠物食品中存在的钾外,以宠物食品的重量计,钾补充饮食包含约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1,2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、约5%或更多的钾补充剂,或任何中间百分比或范围的钾补充剂,或除宠物食品中存在的钾外,以宠物食品的重量计,任何中间百分比或范围的钾补充剂。在某些实施方案中,除宠物食品中存在的钾外,钾补充饮食包含约1mg/kg/天,约2mg/kg/天,约3mg/kg/天,约4mg/kg/天,约5mg/kg/天,6mg/kg/天,约7mg/kg/天,约8mg/kg/天,约9mg/kg/天,约10mg/kg/天,约15mg/kg/天,约20mg/kg/天,约30mg/kg/天,约40mg/kg/天,约50mg/kg/天,约60mg/kg/天,约70mg/kg/天,约80mg/kg/天,约90mg/kg/天,约100mg/kg/天或更多,或任何中间量或范围的钾补充剂。在某些实施方案中,除宠物食品中存在的钾外,钾补充饮食包含约1mg/1000kcal至约10mg/1000kcal之间,约2mg/1000kcal至约20mg/1000kcal之间,约5mg/1000kcal至约50mg/1000kcal之间,在约1mg/1000kcal至约10mg/1000kcal之间,在约0.1mg/1000kcal至约5mg/1000kcal之间,在约0.1mg/1000kcal至约10mg/1000kcal之间,约0.1mg/1000kcal至约20mg/1000kcal之间,约0.1mg/1000kcal至约40mg/1000kcal之间,约10mg/1000kcal至20mg/1000kcal之间的钾补充剂。
在某些实施方案中,以宠物食品的重量计,低蛋白饮食包含约0.0001%至约20%之间,约0.001%至约10%之间,约0.01%至约5%之间,约0.05%至约2%之间,或约0.01%至1%之间的蛋白质。在某些实施方案中,以宠物食品的重量计,低蛋白饮食包含约0.01%、约0.05%、约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、约5%、约10%、约15%、约20%的蛋白质,或任何中间百分比或范围的蛋白质。在某些实施方案中,低蛋白饮食包含约1g/kg/天,约2g/kg/天,约3g/kg/天,约4g/kg/天,约5g/kg/天,6g/kg/天,约7g/kg/天,约8g/kg/天,约9g/kg/天,约10g/kg/天,约15g/kg/天,约20g/kg/天或任何中间量或范围的蛋白质。在某些实施方案中,低蛋白饮食包含约1g/kg/天至约20g/kg/天,约1g/kg/天至约50g/kg/天,约2g/kg/天至约30g/kg/天,约2g/kg/天和约10g/kg/天,约2g/kg/天和约8g/kg/天,约5g/kg/天和约20g/kg/天或任何中间量或范围的蛋白质。在某些实施方案中,低蛋白饮食包含约4至约6g/kg/天,或约5至约5.5g/kg/天。
在某些实施方案中,除宠物食品中存在的PUFA补充剂外,以宠物食品的重量计,PUFA补充饮食包括约0.01%至约30%,约0.1%至约20%之间,约1%至约10%之间,约0.1%至约5%之间,约1%至约10%之间的PUFA补充剂。在某些实施方案中,除宠物食品中存在的PUFA外,以宠物食品的重量计,钾补充饮食包含约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、约5%、约10%、约15%、约20%、约25%、约30%或更多的PUFA补充剂,或除宠物食品中存在的PUFA外,以宠物食品的重量计,任何中间百分比或范围的PUFA补充剂。在某些实施方案中,除宠物食品中存在的PUFA外,PUFA补充饮食包含约0.1g/kg/天,约0.5g/kg/天,约1g/kg/天,约2g/kg/天,约3g/kg/天,4g/kg/天,约5g/kg/天,约6g/kg/天,约7g/kg/天,约8g/kg/天,约9g/kg/天,约10g/kg/天,约15g/kg/天,约20g/kg/天,约30g/kg/天,约40g/kg/天,约50g/kg/天,约60g/kg/天,约70g/kg/天,约80g/kg/天,约90g/kg/天,约100g/kg/day或任何中间量或范围的PUFA补充剂。在某些实施方案中,除宠物食品中存在的PUFA外,PUFA补充饮食包含约0.1g/kg/天至约20g/kg/天之间,约1g/kg/天至约100g/kg/天之间,约2g/kg/天至约200g/kg/天之间,约5g/kg/天至约150g/kg/天之间,约10g/kg/天至约100g/kg/天之间,约5g/kg/天至约50g/kg/天之间或任何中间量或范围的PUFA补充剂。在某些实施方案中,PUFA补充饮食包含n-6PUFA(例如植物油)。在某些实施方案中,PUFA补充饮食包含n-3PUFA(例如鱼油)。在某些实施方案中,PUFA补充饮食包含二十碳五烯酸(EPA)和/或二十二碳六烯酸(DHA)。
在某些实施方案中,以宠物食品的重量计,抗氧化剂补充饮食包含约0.001%至约5%,约0.01%至约1%之间,约0.01%至约2%之间,约0.1%至约1%之间,或约1%至约5%之间的抗氧化剂存在于宠物食品中。在某些实施方案中,除宠物食品中存在的抗氧化剂外,以宠物食品的重量计,抗氧化剂补充饮食包含约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%、约3%、约4%、约5%或更多的抗氧化剂补充剂,或任何中间百分比或范围的抗氧化剂补充剂。在某些实施方案中,除宠物食品中存在的抗氧化剂外,抗氧化剂补充饮食包含约1mg/kg/天,约2mg/kg/天,约3mg/kg/天,约4mg/kg/天,约5mg/kg/天,6mg/kg/天,约7mg/kg/天,约8mg/kg/天,约9mg/kg/天,约10mg/kg/天,约15mg/kg/天,约20mg/kg/天,约30mg/kg/天,约40mg/kg/天,约50mg/kg/天,约60mg/kg/天,约70mg/kg/天,约80mg/kg/天,约90mg/kg/天,约100mg/kg/天或更多,或任何中间量或范围的抗氧化剂补充剂。在某些实施方案中,除宠物食品中存在的抗氧化剂外,抗氧化剂补充饮食包含约1mg/kg/天至约20mg/kg/天之间,约1mg/kg/天至约100mg/kg/天之间,约2mg/kg/天至约200mg/kg/天之间,约5mg/kg/天至约150mg/kg/天之间,约10mg/kg/天至约100mg/kg/天之间,约5mg/kg/天至约50mg/kg/天之间或任何中间量或范围的抗氧化剂补充剂。在某些实施方案中,抗氧化剂选自由维生素E、维生素C、牛磺酸、类胡罗卜素、黄烷醇及它们的任何组合组成的组。在某些实施方案中,黄烷醇可以是儿茶素、表儿茶素、表没食子儿茶素没食子酸酯、原花青素、单宁或其任何组合。在某些实施方案中,抗氧化剂补充饮食包含具有高黄烷醇浓度的植物,例如可可、葡萄和绿茶。
在某些实施方案中,维生素B补充饮食包括维生素B1(硫胺素),维生素B2(核黄素)、维生素B3(烟酸或烟酰胺核糖)、维生素B5(泛酸)、维生素B6(吡哆醇、吡哆醛或吡哆胺)、维生素B7(生物素)、维生素B9(叶酸)、维生素B12(钴胺素,例如氰钴胺素或甲基钴胺素)或其任何组合。在某些实施方案中,除宠物食品中存在的多种维生素B外,以宠物食品的重量计,维生素B补充饮食包括约0.001%至约2%之间,约0.01%至约1%之间,约0.05%至约1%之间,约0.001%至约0.1%之间,或约0.01%至约0.2%之间的多种维生素B。在某些实施方案中,除宠物食品中存在的多种维生素B外,以宠物食品的重量计,维生素B补充饮食包含约0.1%、约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.1%、约1.2%、约1.3%、约1.4%、约1.5%、约1.6%、约1.7%、约1.8%、约1.9%、约2%或更多的多种维生素B,或任何中间百分比或范围的维生素B补充剂。在某些实施方案中,除宠物食品中存在的多种维生素B外,维生素B补充饮食包含约1mg/kg/天,约2mg/kg/天,约3mg/kg/天,约4mg/kg/天,约5mg/kg/天,6mg/kg/天,约7mg/kg/天,约8mg/kg/天,约9mg/kg/天,约10mg/kg/天,约15mg/kg/天,约20mg/kg/天,约30mg/kg/天,约40mg/kg/天,约50mg/kg/天,约60mg/kg/天,约70mg/kg/天,约80mg/kg/天,约90mg/kg/天,约100mg/kg/天或更多,或任何中间量或范围的维生素B补充剂。在某些实施方案中,除宠物食品中存在的多种维生素B外,维生素B补充饮食包含约1mg/kg/天至约20mg/kg/天之间,约1mg/kg/天至约100mg/kg/天之间,约2mg/kg/天至约200mg/kg/天之间,约5mg/kg/天至约150mg/kg/天之间,约10mg/kg/天至约100mg/kg/天之间,约5mg/kg/天至约50mg/kg/天之间或任何中间量或范围的维生素B补充剂。
在某些实施方案中,饮食疗法可以是本领域中的任何饮食疗法。例如,参见艾略特等,《猫科动物慢性肾脏病的饮食疗法(Dietary therapy for feline chronic kidneydisease)》,《猫科动物临床营养百科全书(Encyclopedia of feline clinicalnutrition)》,第二版,2015年;以及艾略特等,《慢性肾脏病:营养的重要性(Chronic renaldisease:the importance of nutrition)》,《猫科动物临床营养百科全书(Encyclopediaof feline clinical nutrition)》,第二版,2015年。
5.设备、系统和应用
在某些非限制性实施方案中,本公开的主题还提供了本申请中公开的一种或多种方法的装置、系统和应用,例如用于测定猫科动物的易感性或降低其患CKD的风险。所述设备、系统和/或应用使看护者或所有者等用户能够评估患CKD的风险并自行采取行动,或者在医疗保健专业人士/兽医的帮助下评估猫科动物患CKD的风险并且在需要时对猫科动物进行适当的治疗。
在某些实施方案中,使用设备来执行在本申请中公开的一种或多种方法。在某些实施方案中,设备被配置为接受用户输入。在某些实施方案中,根据本申请中公开的方法的接收输入信息的步骤,用户输入包括猫科动物中多种生物标志物的电平,例如,一种或多种生物标志物的电平,以及可选的猫科动物年龄的输入电平。在某些实施方案中,一种或多种生物标志物包括尿比重、肌酐、尿蛋白、血尿素氮(BUN)或尿素、白细胞计数(WBC)和/或尿液pH。在某些实施例中,设备自动(或应要求)执行本申请中公开的方法的分析和转换步骤,例如,分析和转换一种或多种生物标志物的输入信息和可选的年龄输入电平得出概率分数或分类标签。在某些实施方案中,使用根据在本申请中公开的任何方法开发的分类算法来执行分析和转换步骤。该分析提供了在猫科动物中患CKD的风险的分类(a classificationof a risk of developing CKD in the feline),并提供了输出信息。
在某些实施方案中,设备提供带有步骤(b)输出的消息。在某些实施方案中,消息包括警告,其中猫科动物被测定为有患CKD的风险。在某些实施方案中,一种或多种方法的结果由设备在用户界面中提供。在某些实施方案中,所述设备根据本申请中公开的治疗/预防方法,例如饮食和/或饮食方案,提供治疗/预防建议的推荐。
在某些实施方案中,所述设备可以为所需目的而特定地构建,或者可以包括由存储在计算机中的计算机程序/应用选择性地激活或重新配置的通用计算机。在某些实施方案中,计算机程序/应用包括用于执行本文公开的任何一种方法的代码。这样的计算机程序/应用可以被存储在计算机可读存储介质中,例如但不限于只读存储器(ROMs)、随机存取存储器(RAMs)、可编程可擦除只读存储器(EPROMs)、电可擦除可编程只读存储器(EEPROMs)、闪存、磁卡或光卡、任何类型的磁盘(包括软盘、光盘、只读光盘(CD-ROMs)、和磁光盘)或适合存储电子指令的任何类型的介质,每个都耦合到计算机系统互连。
在某些实施方案中,所述设备包括一个处理器,该处理器执行一个应用,所述应用指示所述设备提供与接收输入信息的步骤以及分析和转换步骤有关的用户输入的输入数据字段。在某些实施方案中,所述应用使用处理器来评估在测量生物标志物后的一定时间内猫科动物患CKD的风险。在某些实施方案中,所述应用是易于导航的应用,例如在线,以执行在本申请中公开的任何一种或多种方法。
在某些实施方案中,所述设备是平板电脑、智能手机、台式计算机、笔记本电脑或个人数码助理。在某些实施方案中,所述设备是移动设备,例如智能手机和平板电脑。
在某些实施方案中,还提供了一种用于本申请中公开的一种或多种方法的系统,所述系统测定猫科动物是否有患CKD的风险。在某些实施方案中,所述系统包括连接到本文公开的远程设备的数据库。在某些实施方案中,所述设备包括处理器,该处理器执行分析,该分析根据本申请中公开的一种或多种方法来评估测定。在某些实施方案中,所述系统和/或设备还包括用于传送和接收信息的通信设备。在某些实施方案中,经由通信设备从远程第二系统接收生物标志物的至少一个输入电平以及可选的年龄输入电平。在某些实施方案中,系统和/或设备经由通信设备将测定或分类以及个性化推荐传送到远程第二系统。
除非从下面的讨论中另外明确指出,否则应理解,在整个描述中,利用诸如“处理”或“运算(computing)”或“计算(calculating)”或“测定”或“显示”或“分析”等术语的讨论,表示计算机系统或类似电子运算设备的行动和过程,该行动和过程将表示为计算机系统寄存器和存储器中物理(电子)量的数据操作和转换为其他类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传送或显示设备中的物理量的数据。
本文提出的算法和显示与任何特定计算机或其他设备没有固有的关联。根据本文的教导,各种通用系统可以与应用一起使用,或者可以证明制造更专用的设备以执行所需的方法操作是方便的。这些系统的各种结构将从上面的描述中显示出来。另外,没有参考任何特定的编程语言来描述本实施方案,并且因此可以使用各种编程语言来实现各种实施例。在本申请中公开的方法和饮食/饮食方案的所有优选特征和/或实施方案适用于装置、系统和应用。
实施例
通过参考以下实施例将更好地理解本发明公开的主题,这些实施例作为本发明的示例提供,而不作为限制。
实施例1
使用了来自兽医数据库中70,000多只猫的超过600,000个数据点建立并验证了预测模型。使用了来自常规测量的血液和尿液参数的信息。该模型在数百小时内使用了成千上万个计算机核心(computer core),以学习猫的血液和尿液化学模式,所述猫是保持健康的猫,以及患有CKD的猫。然后,将这种知识应用于模型看到的每只新猫,并根据其与历史病例或对照是否相似来预测猫是否有患CKD的风险。
方法
纳入标准/排除标准
数据的基本纳入标准:
1.数据库中的就诊计数对于一只猫来说不少于3次就诊(不一定带有任何血液或尿液数据);
2.就诊持续时间不少于2年,即一只猫被观察至少2年(不一定有血液/尿液);
3.就诊年龄介于1.5岁到22岁之间(所有就诊的平均年龄不到19.5岁);
4.品种是家养短毛猫(DSH)、家养中毛猫(DMH)或家养长毛猫(DLH),即普通混种猫;
5.至少在2年内进行至少3次肌酐测量(这些测量中的一些可能不在数据集中,如果它们在最近2年属于中“健康”猫,或者在CKD病例确诊后获得);和
6.在诊断前6.5年内或在有2个以上未诊断(non-diagnosed)年的6.5年内至少进行一次肌酐测量。这样可以确保模型看到至少一个肌酐数据点。
进一步的标准:
1.在某些模型中,对数据进行了过滤,以仅允许在诊断或健康数据截止的3.5年窗口内,有过包含肌酐值的至少3次就诊的猫。第三阶段额外允许1次或2次就诊加入数据集,以帮助模型更好地预测单次就诊和两次就诊。
2.某些模型的数据使用了数据库中随机的一半猫,然后将它们随机地再次分为两半进行训练和测试。
3.某些模型中的猫按照其宠物ID以顺序方式被随机分配到训练)或盲测集(BlindTest set)中,即在整个时间中,每三个连续的数字中有两个成为训练数据。其余的用于盲测。某些模型使用了数据库中所有合适的猫。
4.对于某些模型,已将大约18,500只猫与对照区分开来,因为从医疗记录(medical note)评分以及血尿素氮(BUN)、肌酐和尿比重(urine SG或USG)值的启发式分析(heuristic analysis)的结合,它们被确定为“有风险”。这在下面进一步详细说明。然后,将训练数据过滤为0到3.5年之间的>0肌酐点,以及>0USG数据点。
病例定义为在兽医数据库记录的病史中某个时刻具有以下表2所列诊断之一。由于医疗记录的使用不统一且数量过高,无法对猫进行手动分类,因此在其医疗记录(medical note)中仅有诊断的猫目前不被列入病例。急性肾功能衰竭(Acute RenalFailure,ARF)已包括在内,因为血液化学可能相似。我们将对此进行测试,以查看是否需要从数据集中去除ARF并仅在CRF上进行训练/测试。
对照被定义为在生命中的任何时候都没有被诊断出患有列出的肾脏疾病的猫。它们可能有其他疾病。它们的模型数据的最后两年(仅在训练/测试期间)被去除,因此从提供给模型的最后数据点开始的两年中,它们始终没有患CKD。这是因为尽管它们的血液化学可能已经改变,但它们本来可能正在发展为CKD,但尚未被诊断出。然后通过下面描述的启发式方法进一步清理对照。
建模期间测试的血液和尿液分析物
以粗体显示的参数被选择用于当前模型。另外的参数可以得到检查以查看模型性能是否有所改进,例如尿葡萄糖。
表1
诊断的纳入/排除
对于某些模型,表2中以粗体标出的疾病被归类为CKD诊断,即使其中一些可能是急性的。迄今为止,“慢性肾功能衰竭”是这些诊断中最常见的。表2中未用粗体标出的疾病(ailment)被记录下来,但如果在猫的生活中某个时候也没有红色类别的诊断,则将其包括在模型中作为对照。
在某些模型的最终测试期间,对所有这些诊断均做出了预测,并且仅使用“健康”猫和诊断为“慢性肾功能衰竭”的猫进行了第二组预测(即,从病例和对照中排除所有患有下表所列其他疾病的猫)。结果发现去除其他疾病时的预测更为准确。
在所有训练期间,未调查诊断状态,并且假定所有具有粗体类别“疾病ID(AILMENTID)”的猫都至少被兽医怀疑是CKD并包括在病例中。测试的最后阶段使用了经过优化的猫子集,这些子集具有更多的“确诊”诊断(即,诊断后来没有标记为“已消退(resolved)”、“改变(changed)”或无效(invalid))。
表2
疾病(AILMENT) |
肾炎(Nephritis) |
肾脏病,额外一天(Renal Disease,Additional Day) |
肾脏病,囊性(Renal Disease,Cystic) |
肾功能衰竭,急性(Renal Failure,Acute) |
肾功能衰竭,慢性(Renal Failure,Chronic) |
泌尿系统创伤(Urinary System Trauma) |
泌尿道疾病,猫科动物(Urinary Tract Disease,Feline) |
泌尿道感染(Urinary Tract Infection) |
数据集
数据集已经生成,并且进行了盲测。这些数据集是从兽医数据库的经过清理和扩充的副本中产生的,宠物就诊可以追溯到1995年。建立了数据集和模型的多次迭代。表3汇总了用于训练的数据集大小。
表3
数据集 |
总数 |
病例 |
对照组 |
病例百分比 |
数据行 |
早期版本 |
8,810 |
2,095 |
6,715 |
23.78 |
61,159 |
后期版本 |
50,408 |
11,250 |
39,158 |
22.32 |
121,703 |
清理对照组的启发式方法
没有正式诊断为CKD的猫将被归类为对照,用于分析肾脏问题的证据。通过以下算法分析了它们一生中尿比重、肌酐和BUN的水平。另外,从医疗记录中引用了某些关键词,例如肾、K/D、氮血症、CKD。还通过文本分析算法对医疗记录进行评分,该算法已经在病例和对照的医疗记录上进行了训练。这些因素的组合被用来从对照中过滤掉那些有患上CKD风险或已经患有CKD的但只将其记录在医疗笔记中的猫。从训练和测试集中去除了以下分类为“3”或“4”的猫,并将分别进行评估。
该算法过于保守,有时会从对照组中移除猫,这些猫可能是真正的对照或患有其他疾病,这些疾病可能会提高研究中的参数。但是,使用干净的病例和对照来训练和测试模型被认为更为重要。分析共病和其他可能被误认为CKD的疾病也很有用。
示例启发式算法:
max(case when ail_k.Diag_Age_First is not null then'0 Diagnosed CKD'else
case when(URINE_SG_MIN<1.025 and(CREATININE_MAX>2.4 or BUN_MAX>=36or PREDICTION_MAX>0.4 or RENAL_NOTES_TOT>1))
or(CREATININE_MAX>3 and BUN_MAX>=40)
then'3 CKD'
else case when(URINE_SG_MIN<=1.035 and(CREATININE_MAX>1.8 or BUN_MAX>=32))
or(CREATININE_MAX>2.4 and BUN_MAX>36)
or(CREATININE_MAX>1.8 and BUN_MAX>=32 and(PREDICTION_COUNT>1 orRENAL_NOTES_TOT>1))
then'2 CKD Risk'
else'1 Normal'end
end end)OVER(partition by enc.pet_id)Renal_Filter,--Filter based onmedical notes and blood chem-select only'0 Diagnosed CKD'or'1 Normal'formodelling datasets.(基于医疗记录和血液化学成分的过滤器-仅对模型数据集选择“0诊断的CKD”或“1正常”。)
URINE_SG_MIN是所有就诊中看到的该猫的最低USG值
CREATININE_MAX是所有就诊中看到的该猫的最高肌酐值
BUN_MAX在所有就诊中看到的该猫的最高BUN值
PREDICTION_MAX是评分算法中任何医疗记录的最高分,该评分算法用于评估笔记中是否有与CKD相关的词
PREDICTION_COUNT是得分与CKD相关的医疗记录数量
RENAL_NOTES_TOT是包含任何词(“肾脏”、“K/D”、“氮血症”,“CKD”、“CRF”)的医疗记录的数量
结果
预测模型综述
该模型使用6个因其预测能力而非诊断能力而被选择的因素。它们是:尿比重、肌酐、尿蛋白、血尿素氮(BUN)、白细胞计数(WBC)、尿液pH。已知尿比重、肌酐和BUN可诊断CKD,并用于疾病的IRIS分期。尿蛋白、WBC和尿液pH更新颖,有助于模型预测未来疾病。在某些情况下,该模型可以使用WBC来排除其他感染,并且可以使用WBC来了解脱水水平并归一化其他值。
该模型查看这些参数随时间的变化。例如,它可以识别尿比重、尿液pH和WBC计数的下降作为肾功能下降的指示,即使这些因素均未超出正常范围。这使兽医可以更详细地查看猫的病史,并开始进行早期治疗或如果需要则安排进一步的测试。
模型的准确性
使用来自兽医数据库的成千上万只猫的历史数据验证了该模型。结果表明它可有效预测这些猫的未来CKD,而不会产生大量假阳性。该模型在几次(两次或更多次)就诊血液和尿液数据时效果最佳,而经过三次或更多次就诊则变得更加精确。一段时间以来处于健康计划(wellness plan)中的宠物可以从此模型中获得最大收益。
结果表明,在理想数据下该模型的准确率超过95%,这意味着该模型对兽医数据库中历史性猫的预测正确率超过10分之9。在诊断之前的0.5年到1年间,它的敏感性(在患有这种疾病的猫中预测疾病的能力)最高,在一般情况下,它识别了将来会被诊断出的猫的79%以上。但是,它在诊断之前很早就具有良好的预测能力,并且当它看到猫最终被诊断前三年的数据时,仍然有超过50%的时间能够正确地预测CKD的未来诊断。在正式诊断之前长达4年的表现似乎也令人惊讶。这种能力甚至可以突显某些处于早期危险中的猫,加上较低的假阳性率,可以使兽医有信心调查这些猫,否则这些猫在问题严重且难以治疗之前可能不会被发现。这可以为许多猫提供很早开始干预的机会,从而可以在病情变得更严重之前稳定病情,潜在地延长猫的健康寿命。它还为开发专门针对疾病早期阶段的饮食提供了机会,这种饮食可以使猫稳定下来,而无需其他干预措施。
表4显示了六种生物标志物模型的结果,该模型是根据兽医数据库中的隐蔽纵向数据(多次就诊之前未看见的数据)运行的。根据猫的诊断,并且还由于它们的血液和尿液数据与IRIS 0期或3+期一致,将它们分为病例和对照。这样就去除了很多模棱两可的猫,并且模型在其余部分上的预测非常好。这个子集的猫的假阳性率低于1%。诊断前3.5年的预测显示出较高的准确性。纵向数据超过4年的猫数量不足。
表4
表5显示了相同的分析,但该模型只看到了单次就诊(即横截面(crosssectional))。随着单次就诊的次数增加,这些预测在猫被诊断的4年前就显示出来了。该模型在单次就诊数据上表现地非常出色,其准确性几乎与多次就诊一样好。这部分是因为单次就诊的数据仅限于肌酐和USG测量的就诊,而纵向模型则预测的是很多丢弃的数据。纵向模型的预测将通过更完整的数据(每只宠物更多的健康就诊)而得到改进。
作为参考,预期的随机敏感性约20%左右,因此4年47%的敏感性要远远好于随机,并且在这些清理后的数据上,特异性极高(假阳性率约为1%)。
表5
为了完整起见,表6和表7包含了整个数据集的相同预测(即,具有合理质量数据的猫,但仅基于数据库中捕获的兽医诊断,未通过血液化学分期进行清理)。这些个体猫中的一些猫的血液化学成分(blood chemistry)很高,有时尿比重也很低。临床医生经常在医疗记录中评论可能的肾脏疾病,但由于证据不足,并未对所有这些猫做出正式诊断。因此,该模型有时会预测这些额外猫的CKD,但没有官方诊断为CKD。这导致在整个未清理的数据集中假阳性略有增加,和较低的表观准确性。其中一些也可能有共病,比如甲状腺功能亢进症等,这会使诊断变得困难。
纵向预测的结果显示在表6中,所有数据包括肌酐较低的病例和肌酐较高的对照。数据集中的对照中肌酐>1.6mg/dL(140μmol/L)的比例很高。
通常,敏感性仍然很高,但由于假阳性率增加,当引入了更多不明确的数据时,特异性和准确性下降了。但是,结果仍然非常强大和稳健。
表6
表7显示了截面(单次就诊)预测的结果,所有数据包括肌酐较低的病例和肌酐较高的对照。数据集中的对照中肌酐>1.6mg/dL(140μmol/L)的比例很高。
表7
模型构建
数据集
1.原始数据
使用了来自兽医数据库的8,806只独特猫的61,159只猫科动物就诊记录的训练数据集(6,711名健康对照和2,095只具有/发展为CKD的猫)。共有来自人口统计学(demographics)、血液化学、血液学和尿液水平的35种特征(表8)。健康对照在最后一次(未诊断的)就诊前2年有就诊记录(visit entries),而CKD猫在诊断为CKD的就诊后的1个月还会再来就诊。
表8
兽医数据集中的特征。首次诊断为CKD时,人口统计学(demographics)(带下划线的)、猫的血液/尿液和年龄,如果有的话(粗体)。
2.预处理
缺失值是使用随机森林实现来插补的[1]。从所有就诊中丢失了尿比重值的猫科动物被删除(占记录的10.1%)。对每个特征应用最小-最大归一化[2]。
3.数据概述
图1描绘了CKD猫的年龄分布,包括首次诊断的年龄(红色)和健康猫的年龄分布(绿色)。健康就诊和CKD就诊的中位数分别为5.8±4.17和13.5±3.80。
图2显示了最小-最大归一化和缺失值插补后的分级聚类(整个数据集)的结果。几个异常值的存在掩盖了数据范围的可变性(图2C),因此出于可视化目的将那些极端值(1223个值)删除了。生成的热图和分级聚类(聚集)如图2A所示。在特征选择中被发现信息量最大的6个特征(尿比重、尿蛋白、尿液pH、WBC、肌酐、BUN)以红色突出,并且也显示在图2B中。分级聚类将肌酐和BUN置于一起,以及将尿比重和尿液pH置于一起,论证了它们的值在各个样本中具有高度相关性。尿蛋白和WBC更接近于肌酐/BUN聚类(cluster)。
图3描述了6个信息最丰富的特征的散点图矩阵和直方图。每个变量的较大范围可归因于异常值,健康(绿色)和CKD(红色)就诊之间的变量值高度重叠,这可能会模糊预测任务。
图4A和图4B分别通过执行PCA(线性)和t-SNE(非线性)降维(dimensionalityreduction)将数据集投影到特征空间中。表9列出了基于PCA和t-SNE结果的排名特征,并将它们与基于特征选择方法(过滤、封装(wrapper))的排名(rankng)进行了比较。
监督学习
1.训练和测试数据集
预测者要回答的问题是“根据猫的记录,它在未来两年内会出现CKD吗?”需要进一步处理数据集,以准备进行方法的训练和测试。首先建立一个泛猫数据集(pan-catdataset),该数据集是所有可能的就诊轨迹(trajectory)的超集(superset),然后通过替换进行采样来创建采样数据集。
对于有N次就诊的猫,其轨迹被定义为就诊的时间顺序列表。减少的轨迹被定义为就诊的任何有序子集,其中去除了最后K次就诊,其中K是从1到N的数字。换句话说,如果可以将猫的就诊历史视为一个字符串,且字符串上的每个元素都在对应于一次就诊,则简化的轨迹将是字符串的任何前缀,并且最多可以有N-1个可能前缀(轨迹)。如果将原始数据集扩展为包括CKD猫的所有可能的简化的轨迹,并在诊断之前2年内去除了就诊,则将创建一个称为泛猫数据集的扩充数据集。
采样数据集被定义为泛猫数据集的子集,在该子集中,随机选择了每只CKD猫的一条轨迹。请注意,健康猫的记录与初始数据集相同。通过使用带有不同种子的随机数生成器创建了大量的采样数据集,因此为每个宠物id(放回抽样)选择了不同的轨迹(不同的就诊次数)。
需要采样数据集来训练和测试预测器的原因如下:对于每只具有CKD的猫,初始数据集包含从宠物历史记录开始到诊断后一个月的数据。如果使用此数据集对预测器进行训练,则预测者将学会识别一只未被诊断的猫是否在一个月前被诊断出患有CKD,这几乎没有价值。但是,当使用采样数据集时,预测器会学习在未来两年中的任何时候将被诊断出患有CKD的猫的模式。
2.特征选择
通过使用过滤方法(皮尔逊相关系数;PCC)和自顶向下的封装方法KNN-DTW(K=7个邻居、25%的训练数据、3折交叉验证和F1-值(F1-measure))作为选择标准选择特征(图4)。前6个特征的自底向上的封装也与结果一致[3]。如表9所示,主要特征是尿比重、肌酐、尿蛋白、血尿素氮(BUN)、WBC和尿液pH。有趣的是,就诊年龄与输出标签高度相关,但是封装方法(自顶向下或自底向上)均未将其视为重要特征。对数据的仔细检查表明,该特征与肌酐具有相似的信息(但程度较低),因此将后者包含在内会使前者的价值降低。
表9
表9显示了特征分析和选择。数据集中的35个特征是根据自顶向下的封装消除(Wrapper top-down elimination)进行排名的(1,信息最多;35,信息最少)。它还显示了每个特征与CKD输出的皮尔逊相关系数(Pearson correction coefficient)、p值以及PC1中特征的权重(weight)。
3时间序列预测
具有动态时间规整(DTW)的K最近邻近(KNN):KNN-DTW与欧几里德距离(Euclideandistance)一起用作度量(metric)[4][5]。使用5折交叉验证(5-fold cross validation)来找到最佳K。为此,将CKD猫病史(训练和测试)的最后{0,3,6,9,12,18,24}个月去除以创建回答以下问题的预测器:“从现在开始的X个月内,我的猫会患有CKD吗?”还基于“采样数据集”对预测器进行了训练和评估,该数据集包括每只猫的随机轨迹,去除最后{0,3,6,9,12,18,24}个月,并训练预测器回答原始问题(“我的猫在未来两年内会患有CKD吗?”)。如图6所示,在K=7之后,度量仅略有增加,而性能渐近地增加到K=13。对于采样数据集,继续运行K等于15和17,并且观察到非常小的差异(AUC ROC分别为91.0%和91.1%)。因此,最终的预测器基于K=17的采样数据集,其混淆表见表10,ROC/PR见图7。
表10
用于K=17的最佳KNN-DTW配置的混淆矩阵
专家混合(MOE):接下来,是否探索一种集成学习技术,其中训练了每个单独的KNN-DTW预测器以预测{0,3,6,6,9,12,18,24}的CKD。通过简单或加权投票探索了MOE元预测器(meta-predictor)。所有预测器的ROC/PR结果如图8所示。尽管AUC显著低于单个预测器,但F1-值(F1-measure)最高。
具有长短期记忆的递归神经网络(RNN-LSTM):图9中所示的体系架构用于训练递归神经网络(RNN)。运行了1-4个隐藏层和每层6-250个节点的不同配置。Tanh在隐藏层中用作激活函数,在输出层中使用柔性最大值传输函数(softmax)(此处为S型函数(sigmoid),因为是二元分类)。使用二进制交叉熵(Binary cross-entropy)进行损耗计算,并考虑20%的丢弃以避免过度拟合[6]。通过时间的反向传播用于均方根传递(RMSprop)梯度下降优化算法的训练。另外,与普通RNN结构平行,并探索了长短期记忆(LSTM)单元结构以应对消失的梯度。
图10描绘了将数据集构造为RNN的输入的方法(图10A)以及RNN随时间的训练方法(图10B)。通过对每层节点数和层数执行随机参数扫描,探索了不同的配置(图11)。图12显示了F1值(F1 measure)如何作为节点总数的函数变化。经过5折(fold)交叉验证后,最好的两种配置是3层RNN-LSTM(图13)和3层普通RNN(Vanilla RNN)(图14)。表11和表12中显示了这两种实现的混淆表。损失在前5个周期(epochs)内呈指数下降,此后迅速饱和(图13C、图14C)。通过计算不同层上的各种度量来测试体系架构的稳健性(robustness)。考虑所有参数后,建议继续使用7-7-7RNN-LSTM体系架构。
表11
用于最佳RNN-LSTM配置的混淆矩阵
表12
用于最佳普通RNN配置的混淆矩阵
模型构建简述
纵向分析的两种方法:使用具有动态时间规整的K最近邻(KNN-DTW)和普通的或具有长短期记忆单元(RNN-LSTM)的递归神经网络(RNN)。数据集具有来自兽医数据库(6,711只健康对照和2,095只具有/发展为CKD的猫)的8,806只独特猫的61,159条猫科动物就诊记录。共有来自人口统计学(demographics)、血液化学、血液学和尿液水平的35种特征。
从建立的数百个预测器中,两个最佳预测器是(a)K=17邻居的KNN-DTW(AUC ROC=0.91;AUC PR=0.87;F1=0.795)和(b)具有3个LSTM层的RNN-LSTM(7-7-7)和1个密集层(dense layer)(AUC ROC=0.94;AUC PR=0.91;F1=0.842)。专家混合配置的实现了略低的性能,但稳定性更高。在(非)线性降维之后,在3D空间中的数据明显分离。前6个特征足以进行分类。体重不是一个好的预测器,体重的变化(绝对或相对)也不是。有趣的是,虽然就诊年龄与CKD发作有高度相关性,但未用于分类。
仅需要6个特征即可获取数据可提供的用于预测的所有信息:尿比重、肌酐、尿蛋白、BUN、WBC、尿液pH,根据其信息含量排序。提供了最终的KNN-IDT和RNN-LSTM预测器。预训练的RNN预测器比KNN预测器计算速度更快且表现更好。预测器达到0.94AUCROC、0.91AUCPR和0.842F1,准确性、精确性、召回率和特异性均很高。在实际情况下,当猫在未来两年内随机的、分层的点出现CKD时,就可以测量该性能。当对在固定时间范围内具有CKD的猫进行测试时,对于从现在起0-3个月至21-24个月内有CKD的猫,其性能范围的准确性分别为
至
在此投影周期内,预期不会进行进一步的优化以将性能提高到5%以上。更高数量/质量的数据将在将来提高性能。
参考文献
[1]Stekhoven,Daniel J.“MissForest-混合类型数据的非参数缺失值插补”,牛津生物学信息,28.1(2012)2012,112-118(Stekhoven,Daniel J."MissForest-nonparametric missing value imputation for mixed-type data.”Oxford Journal'sBioinformatics 28.1(2012)2012,112-118)
[2]http://scikit-learn.org/stable/modules/generation/sklearn.preprocessing.MinMaxScaler
[3]Granitto,Pablo M.等,“农工业产品的PTR-MS分析的随机森林递归特征消除”,化学计量学和智能实验室系统,83.2(2006):83-90(Granitto,Pablo M.,et al.“Recursive feature elimination with random forest for PTR-MS analysis ofagroindustrial products.”Chemometrics and Intelligent Laboratory Systems 83.2(2006):83-90.)
[4]Giorgino,Toni,“在R中运算和可视化动态时间规整比对:dtw软件包。”统计软件杂志,31.7(2009):1-24(Giorgino,Toni.“Computing and visualizing dynamic timewarping alignments in R:the dtw package.”Journal of statistical Software 31.7(2009):1-24.)
[5]Tan,Songbo.“不平衡文本语料库的邻居加权k最近邻”,专家系统及其应用,28.4(2005):667-671(Tan,Songbo.“Neighbor-weighted k-nearest neighbor forunbalanced text corpus.”Expert Systems with Applications 28.4(2005):667-671.)
[6]Srivastava,Nitish等,“丢弃:防止神经网络过度拟合的一种简单方法”,机器学习研究杂志,15.1(2014):1929-1958(Srivastava,Nitish,et al.“Dropout:a simpleway to prevent neural networks from overfitting.”Journal of Machine LearningResearch 15.1(2014):1929-1958.)
实施例2
本实施例旨在基于尿液测量开发猫氮血症(AZO)的预测模型系统,并在软件中实现该系统以供兽医使用。预测模型系统包括5个独立的数学模型,可以分别预测测量后0、90、180、270和360天的氮血症的概率。这些模型基于逻辑方程,该逻辑方程根据三个血液参数(肌酐、尿比重和尿素)预测给定时间段内猫科动物发生氮血症的概率。这些模型中的每一个都与决策阈值相关,该阈值对应于超过该阈值的个体被预测为阳性的概率。此限度由每个模型的ROC曲线和约登(Youden)方法测定。预测模型系统结合了贝叶斯评估系统(Bayesian evaluation system),该系统考虑了每只猫的测量历史,并且可以通过增加测量次数来优化预测。
在此实施例中,独立于用于构建初始模型的数据的数据用于:1)验证初始模型;2)改进初始模型;和3)测试监督神经网络(ANN)方法作为逻辑方程方法的替代。
方法
1.数据
新数据来自兽医数据库。原始文件有58,292行,对应于8422个定期跟踪的独特的个体。测量了三个变量:肌酐、尿比重和尿素。但是,并非所有个体都始终如一地显示三个变量中每个变量的值。由于模型是同时基于所有三个变量的使用,因此将具有缺失值的个体从研究中去除。经过这一过程,剩下7051个个体的18,976行。
下表13显示了去除不完整个体前后的就诊年龄和诊断年龄的值。
表13
不完整个体的删除对年龄分布特征几乎没有影响,特别是对于疾病诊断年龄。总体而言,在选择的7051个个体中(18,976个测量值),从未诊断过AZO的为5348个,被诊断为AZO的为1703个。在18,976个测量中,有1,302个为阴性,而5933个与随访期间被诊断为阳性的个体相关。
通过随机绘图将数据集分为两部分,以创建以下内容:
1.验证数据集包含9,469个测量,其中6,521个为阴性,而2,948个与随访期间被诊断为阳性的个体相关。然后,使用这个数据集验证初始模型,并验证更新的模型和ANN。
2.一组学习数据,包括9506个测量,其中6521个为阴性,2985个与随访期间诊断为阳性的个体相关。然后,该数据集用于在新的学习阶段更新初始模型,还用于调整ANN。为此,将来自初始研究的数据添加到该学习游戏中,其中有459个阴性测量(170个独特的个体)和244个与随访期间被诊断为阳性的个体(56个独特的个体)相关的测量。
某些个体在验证和学习阶段之间共享它们的测量值。
然后,将学习数据集分为几个子集,构建几个子集以匹配5个模型:
1.对应于在给定就诊期间已经诊断出AZO的个体的测量值;
2.对应于在给定就诊期间后3个月内诊断出AZO的个体的测量值;
3.对应于在给定就诊期间后6个月内诊断出AZO的个体的测量值;
4.对应于在给定就诊期间后9个月内诊断出AZO的个体的测量值;并且
5.对应于在给定就诊期间后12个月内诊断出AZO的个体的测量值。
向这些子集中的每个子集中,添加与从未诊断过AZO的所有个体相对应的测量值(为模型提供阴性)。
2.初始模型验证
在第一阶段,所有新测量都将在初始模型中进行投影。对于每个测量(就诊),每个模型(t0,t3,t6,t9,t12)进行预测,对相应个体的数据进行搜索,以了解在模型预测周期内(0个月,3个月,6个月,9个月,12个月)是否诊断出AZO。这使得测量预测质量成为可能。
例如,在1月1日进行了测量,结果为阴性(1月1日没有CKD)。T0模型预测为阴性,而T3模型预测为CKD。对于模型T3,如果:猫从未生病,或者3月1日之后才生病,则会出现错误;并且,如果:猫在3月1日之前生病,则即使1月1日的测量结果表明为阴性,也没有错误。
然后,根据真的和假的阳性和阴性数量计算验证下模型的敏感性和特异性。
3.初始模型的更新
在第二阶段,学习数据集用于重新调整初始逻辑模型(请参阅原始研究报告)。一旦模型被调整,使用Youden指数计算将个体分类为预测或未病患者的决策阈值。然后将验证数据集投影到这些更新的模型中,以通过计算验证中模型的敏感性和特异性来验证预测的匹配性。
4.神经网络方法
通用方法与以前相同:使用学习数据集调整模型,然后投影验证数据并计算验证的敏感性和特异性。神经网络的调整阶段基于对神经网络参数的析因方案的耦合,并采用10折交叉验证的方法。
该过程如下:
1.使用以下内特重复5次模式调整:
■学习数据子集;
■所有输入变量;
■完整的析因设计,为每个模型(模型调整)设置最佳的参数集(神经网络固有的参数);
·数据集的10折分区(10-folds partition),在每次抽签时随机生成:k折交叉验证技术包括:基于10个分数中的9个进行训练,验证第10个分区,然后通过与学习分区交换验证分数来重做此过程,依此类推,直到所有分区都用于学习和验证为止。因此,确保了模型没有通过学习/验证数据的特定配置进行训练。因此,获得了10个权重调整,将其组装起来以形成具有神经网络最佳参数集的整体模型。
2.每次重复时,计算Youden指数以验证以此方式建立的模型。
3.为每次重复选择最佳模型。
4.最终模型是5个最佳模型的整体模型,这些模型由10个组装的神经元网络组成。结果,最终预测模型总共包括50个网络,这些网络被组装以给出最终预测。根据组装的结果计算Youden指数,以形成验证数据集投影期间的决策阈值(在此调整阶段中未使用的子集)。
结果
表14中显示了初始模型中所有新数据的投影结果。
表14
|
真阳性 |
真阴性 |
假阳性 |
假阴性 |
敏感性 |
特异性 |
T<sub>0</sub>(0天) |
992 |
13508 |
4404 |
71 |
93% |
75% |
T<sub>3</sub>(90天) |
1149 |
10365 |
7398 |
63 |
95% |
58% |
T<sub>6</sub>(180天) |
1302 |
12168 |
5366 |
139 |
90% |
69% |
T<sub>9</sub>(270天) |
1554 |
12233 |
4978 |
210 |
88% |
71% |
T<sub>12</sub>(360天) |
1540 |
12611 |
4600 |
224 |
87% |
73% |
重述初始模型在训练阶段的敏感性/特异性耦合:T0=94/91,T3=86/97.6,T6=83/86,T9=77/83,T12=84/76。
考虑到模型的初始训练是在不超过703个测量值的基础上进行的,覆盖226个个体,没有用于建立模型的18976个新测量值(7051个不同个体)的预测结果可能被认为是非常好的。到180天(T6)时,特异性更高或相当于90%,在T9和T12时分别为88%和87%。尽管在T0、T9和T12仍保持70%以上的特异性,但特异性较低。T6为69%。仅模型T3的验证特异性低得多(58%)。为了评价结果的质量,还必须牢记,重要的并不仅仅是敏感性或特异性的值,而是敏感性-特异性的耦合,因为这两个参数是相互依赖的:一旦一个降低,另一个就会增加。
表15显示了在更新的初始模型中具有新训练数据的新验证数据的投影结果。随后添加新数据改进了所有模型。所有“敏感性+特异性”的总和得到了改进,特别是所有特异性值均增加了。
表15
|
真阳性 |
真阴性 |
假阳性 |
假阴性 |
敏感性 |
特异性 |
T<sub>0</sub>(0天) |
507 |
7105 |
1826 |
31 |
94% |
80% |
T<sub>3</sub>(90天) |
589 |
6193 |
2655 |
32 |
95% |
70% |
T<sub>6</sub>(180天) |
664 |
6636 |
2109 |
60 |
92% |
76% |
T<sub>9</sub>(270天) |
784 |
6882 |
1697 |
106 |
88% |
80% |
T<sub>12</sub>(360天) |
839 |
7155 |
1284 |
191 |
81% |
85% |
表16显示了用新的学习数据更新的神经网络模型中新的验证数据的投影结果。
表16
|
真阳性 |
真阴性 |
假阳性 |
假阴性 |
敏感性 |
特异性 |
T<sub>0</sub>(0天) |
482 |
8095 |
836 |
56 |
90% |
91% |
T<sub>3</sub>(90天) |
575 |
7379 |
1469 |
46 |
93% |
83% |
T<sub>6</sub>(180天) |
643 |
7499 |
1246 |
81 |
89% |
86% |
T<sub>9</sub>(270天) |
729 |
7696 |
883 |
161 |
82% |
90% |
T<sub>12</sub>(360天) |
779 |
7724 |
715 |
251 |
76% |
92% |
ANN的结果也非常令人满意,因为所有模型都呈现出“敏感性+特异性”总和,通过逻辑回归逐一优于那些模型。可以注意到,特异性在所有模型上均得到了显著改进。
讨论
更新数据使显著提高模型的质量成为可能。同时,考虑到用于训练的新数据数量的重要性应巩固和稳定模型,这种改进可以被认为是一种定量的改进,通过增加新的数据来提高敏感性/特异度耦合,以及一种质量的改进。
建议探索基于逻辑回归(训练/验证数据集的随机化)的模型的方法论改进,以及结合神经元网络方法和基于逻辑回归的综合模型的构建,以将两种方法的优势结合起来:神经元网络提供更好的特异性,逻辑模型具有更好的敏感性。
实施例3
本实施例涉及使用肌酐水平在实验室参考区间内的猫的基线血清肌酐水平诊断CKD的方法。
如果猫先前曾进行过血液检查(+/-尿液分析),则可以建立猫的血清肌酐基线。建立基线必须满足以下条件:
a.在本次就诊时,该猫至少有2个肌酐结果是在前2年获得的。如果可用,建议使用该时间段内符合标准(b)-(d)的所有可用的肌酐结果;
b.每次就诊时,猫都超过1岁,并显示肌酐水平;
c.在将第一个肌酐结果用于基线之前至少2个月对猫进行摘除卵巢/阉割;和
d.猫在其他方面必须健康,并且没有任何并发疾病(例如甲状腺功能亢进症、糖尿病)。
测试前的禁食对于血清肌酐的评估不是必需的。
使用以前的符合以上标准的肌酐结果,可以通过计算平均肌酐值来测定基线肌酐水平。
因此,可以使用表17进行CKD诊断。
表17
实施例4
除了通过实施例2中的机器学习构建的预测建模系统之外,此实施例还涉及简化规则,以建立患有/不患有氮血症(AZO)的猫的类型学。
即时预测建模系统由六个模型组成,以预测猫的氮血症。每个模型都与从可以触发疾病的初始时间点开始经过的时间段相关:0个月(t0)、3个月(t3)、6个月(t6)、9个月(t9)、12个月(t12)和24个月(t24)。
使用实施例2中通过神经元网络校准和验证氮血症预测(AZO-Predict model)模型的数据来制定规则。各种建议规则的性能通过计算它们的AUC、它们的敏感性和它们的特异性来测试。与实施例2相反,未进行交叉验证,即,所有数据均用于建立规则并计算模型的性能。
表18显示了通过机器学习过程构建的优化的AZO-Predict模型的性能。
表18为所有重复次数选择的优化的ANN模型的性能。SE:敏感性,SP:特异性。
|
SE |
SP |
t0 |
0.93 |
0.90 |
t3 |
0.91 |
0.84 |
t6 |
0.78 |
0.89 |
t9 |
0.82 |
0.84 |
t12 |
0.82 |
0.81 |
t24 |
0.73 |
0.83 |
简化的预测规则
简化的预测规则基于线性判别分析(LDA)的应用,线性判别分析(LDA)提供了一个线性模型来计算标为SC1的得分,该得分可以预测疾病。
在简化的预测规则中使用了就诊时测量的三个变量,即肌酐浓度(Creat;以gm/dL为单位)、尿比重(UrineSG)和尿素(Urea;以gm/dL为单位)以及它们的系数,即a(Creat)、b(UrineSG)和c(Urea)。这些系数是在每次预测(t0,t3,t6,t9,t12,t24)对数据应用LDA的结果。所述系数的值在下表19中示出。
阈值系数用于根据SC1值测定猫是否生病。阈值是应用LDA的结果,每次预测的值如表3所示。
简化的预测规则汇总如下:
1.SC1=a(肌酐)×肌酐+b(尿比重)×(尿比重+c(尿素)×尿素
2.如果SC1>阈值,则预测该猫患病,如果SC1≤阈值,则预测该猫没有患病。
表19每次预测所使用的值以及简化的预测规则的性能综述
|
A肌酐 |
b(尿比重) |
c(Urea) |
阈值 |
SE |
SP |
t0 |
0.006)8 |
-40.0563 |
0.0659 |
-38.7128 |
0.89 |
0.89 |
t3 |
0.0083 |
-25.7343 |
0.1182 |
-22.6030 |
0.80 |
0.87 |
t6 |
0.0069 |
-36.9897 |
0.1137 |
-34.8051 |
0.77 |
0.84 |
t9 |
0.0061 |
-44.3368 |
0.1077 |
-42.7709 |
0.77 |
0.83 |
t12 |
0.0057 |
-47.0420 |
0.1085 |
-45.6250 |
0.74 |
0.85 |
t24 |
0.0058 |
-49.9186 |
0.1044 |
-48.7966 |
0.70 |
0.84 |
这些性能与表18中所示的通过机器学习过程构建的优化的氮血症预测模型(AZO-Predict model)的性能相当。
实施例5
根据实施例1开发的基于六个生物标志物的预测模型得到了进一步改进。针对在不同时间点对猫做出的成千上万个预测,对选择标准进行了优化(即去除了不同数量的数据)。
表20显示了针对来自兽医数据库中的隐蔽数据以纵向模式(跨多次就诊)运行的改进模型的结果,其中根据诊断将猫分为病例和对照,并具有与IRIS 0期或3+期一致的血液和尿液数据。这样就去除了很多模棱两可的猫,并且模型在其余部分上的预测良好。这个子集的猫的假阳性率低于1%。长达3年的预测具有很高的准确性。
表20
诊断后的年数 |
敏感性 |
特异性 |
准确性 |
猫总数 |
0 |
99.1 |
99.4 |
99.4 |
7,010 |
1 |
82.9 |
99.1 |
95.9 |
2,915 |
2 |
68.7 |
99.4 |
93.3 |
1,774 |
3 |
57.4 |
99.8 |
91.5 |
674 |
表21显示了相同的分析的结果,但该模型只看到了单次就诊。随着单次就诊的次数增加,显示了对4年的预测。该模型在单次就诊数据上表现很好,其准确性几乎与多次就诊相当。一个原因是单次访问的数据仅限于肌酐和USG测量,而纵向模型则预测的是大量丢失的数据。因此,纵向模型将通过更完整的数据(每只宠物更多的健康就诊)而得到改进。作为参考,预期的随机敏感性约20%左右,因此4年47%的敏感性要明显好于随机,并且特异性极高(假阳性率约为1%)。
表21
诊断后的年数 |
敏感性 |
特异性 |
准确性 |
猫总数 |
0 |
99.0 |
98.9 |
98.9 |
5,517 |
1 |
83.4 |
99.2 |
96.0 |
2,292 |
2 |
70.2 |
99.0 |
93.2 |
1,723 |
3 |
56.7 |
98.4 |
90.1 |
1,180 |
4 |
47.3 |
99.2 |
88.8 |
607 |
整个数据集的相同预测的性能如下所示(即具有合理质量数据的猫,但仅基于数据库中捕获的兽医诊断,而未通过血液化学意义检查进行清理)。某些个体猫中的一些猫的血液化学成分很高,有时尿比重也很低。兽医在某些医疗记录中评论了可能的肾脏疾病,但未必做出正式诊断。因此,当没有诊断为CKD时,该模型有时会预测这些额外猫的CKD。这导致在整个未清理的数据集中假阳性略有增加,和较低的表观准确性。据认为,在某些临界情况下,该模型可以帮助临床医生做出较早的决定。在某些情况下也可能有共病,比如甲状腺功能亢进症等,这会使诊断变得困难。
表22显示了包括肌酐较低的病例和肌酐较高的对照的具有所有数据的纵向模型的性能。数据集中的对照中肌酐>1.6mg/dL(140μmol/L)的比例很高。
通常,敏感性仍然很高,但由于假阳性率增加,当引入了更多不明确的数据时,特异性和准确性下降了。但是,结果仍然很可靠。
表22
诊断后的年数 |
敏感性 |
特异性 |
准确性 |
猫总数 |
0 |
96.9 |
90.1 |
91.5 |
29,201 |
1 |
79.3 |
88.8 |
86.9 |
21,916 |
2 |
63.3 |
87.4 |
82.6 |
13,588 |
3 |
52.5 |
85.8 |
79.1 |
4,820 |
3.5 |
54.4 |
85.5 |
79.3 |
797 |
表23显示了包括肌酐较低的病例和肌酐高的对照的具有所有数据的横截面(单次就诊)模型的性能。数据集中的对照中含有肌酐>1.6mg/dL(140μmol/L)的百分比很高。
表23
诊断后的年数 |
敏感性 |
特异性 |
准确性 |
猫总数 |
0 |
96.8 |
85.8 |
88.0 |
20,757 |
1 |
79.8 |
87.2 |
85.7 |
17,559 |
2 |
64.2 |
87.2 |
82.6 |
12,682 |
3 |
53.1 |
88.8 |
81.6 |
8,268 |
4 |
43.5 |
85.8 |
77.3 |
3,995 |
实施例6
来自第二个兽医数据库(63,500只猫,177,500次就诊)的数据被用于进一步测试和改进预测模型。根据最后一次就诊为IRIS 3期,而之前的就诊低于IRIS 3期,或所有就诊均保持在IRIS 0期,对数据进行处理以产生干净的“病例”和“对照”。猫被定义为终生(在第二个兽医数据库中跨越了2年或更长时间的结果)具有以下任一种IRIS期:
·如果在3天的期间之内肌酐>2.8并且尿比重<=1.035,则为3期
·如果在所有记录的就诊中肌酐_max<1.6和尿比重_min>=1.035,则为0期
所有其他级别的组合都进行了分期,但不包括在这个预测集中。众所周知,尽管有很高的相关性,但没有其他临床症状的IRIS分期在CKD的诊断方面并不完美。但是,第二兽医数据库中的大多数猫都没有其他临床信息。
在达到3期(猫处于第3期以下)之前的就诊,被给予模型,该模型预测了下一次就诊被归为3期的可能性。如果发现风险很高,这将为临床医生提供机会进行干预。
性能示例如下所示。首先,该模型在所有主要猫品种中的表现都很好,如表24所示。
表24
品种 |
敏感性 |
特异性 |
准确性 |
猫总数 |
阿比西尼亚猫(Abyssinian) |
94.74 |
97.47 |
96.94 |
98 |
喜马拉雅猫(Himalayan) |
99.97 |
96.15 |
96.55 |
29 |
缅因猫(Maine Coon) |
99.9 |
97.87 |
97.91 |
48 |
混种(Mixed Breed) |
93.71 |
98.76 |
98.15 |
2483 |
其他纯种 |
94.07 |
97.61 |
97.04 |
845 |
波斯猫(Persian) |
99.98 |
100 |
100 |
55 |
布偶猫(Persian) |
80 |
95.83 |
93.1 |
29 |
暹罗猫(Siamese) |
92 |
98.68 |
97.03 |
101 |
如果有一个以上的肌酐和USG历史值,该模型将以98%以上的准确性预测未来状态(平均6个月)。
只有一个历史的肌酐值时准确性略有下降,但仍高于96%。
表25对于具有>1个肌酸酐值和具有>1个USG值的猫
敏感性 |
特异性 |
准确性 |
猫总数 |
92.36 |
99.25 |
98.33 |
3543 |
表26对于只有1个肌酐值的猫-未选择USG
敏感性 |
特异性 |
准确性 |
猫总数 |
84.88 |
99.04 |
96.69 |
3506 |
如表27所示,在预测以后就诊的3期的进展时,计算了猫到预测点时达到的最大期。在预测时仅达到阶段0的猫中,有3080只中的8个继续得CKD(定义为下次访问时达到3期)。该模型仅预测了这8个中的一个。据认为,某些病例是急性衰竭,在6至9个月内从0期发展到3期。该模型正确地预测了0期中3049个保持在3期以下,仅错误地预测了23个。因此,从0期开始的准确性为99%。对于在达到3期之前的就诊中处于0.5期的猫,模型正确地预测了16个中的4个。同样,对于CKD,这可能是一个快速的进展。对于先前就诊(或之前)处于1期和更高期的猫,随着早期就诊时期数的增加,模型预测病例的准确性从86%到100%。
使用基于增加的肌酐和降低的USG的算法定义了介于0和3之间的中间阶段,但是其严重程度太低而无法归类为IRIS 3期。它们中的大多数将在正常范围内,或仅在一种分析物中超标,例如2.5期的USG较低,但肌酐在2.6至2.8的正常范围内较高。对于2期,肌酐为2至2.6,USG低。
表27
预测的期 |
敏感性 |
特异性 |
准确性 |
猫总数 |
诊断后的年数 |
0 |
12.5 |
99.25 |
99.03 |
3080 |
-0.74 |
0.5 |
25 |
|
25 |
16 |
-0.65 |
1 |
86.3 |
|
86.3 |
73 |
-0.58 |
1.5 |
90.74 |
|
90.74 |
54 |
-0.45 |
2 |
99.07 |
|
99.06 |
214 |
-0.46 |
2.5 |
100 |
|
100 |
106 |
-0.43 |
表28显示了相同的分析,但对3期就诊前仅有一种肌酐测量的猫(即仅预测一种肌酐测量+其他分析物的猫)进行了分析。
表28
预测的期 |
敏感性 |
特异性 |
准确性 |
猫总数 |
诊断后的年数 |
0 |
5.71 |
99.04 |
97.94 |
2959 |
-0.77 |
0.5 |
28.57 |
|
28.57 |
35 |
-0.95 |
1 |
79.63 |
|
79.63 |
108 |
-0.66 |
1.5 |
90.28 |
|
90.28 |
72 |
-0.63 |
2 |
99.58 |
|
99.58 |
236 |
-0.71 |
2.5 |
100 |
|
100 |
96 |
-0.64 |
需要明确的是,数据并不一定意味着每只处于2期的猫都会在9个月内进展到3期。为了进行此验证,选择了已知达到3期的猫,然后选择它们用于3期之前的就诊。因此,对于所有这些病例,它们预计在下次就诊时达到3期,并用于测试模型是否可以正确预测或预测假阴性。对于对照,测试了是否可以预测假阳性。
如果在没有指定下一个数据点应为3期的情况下随机选择数据点处于2期的猫,则将观察到类似的预测稳态或进展的能力。因此,并非所有2期的猫都必定会在短时间内进展到3期(尽管从成千上万只猫来看,其进展似乎比预期的要频繁),但是该模型可以有效地发现将要从中期进展到后期的猫(以及那些不会进展的猫),但可以理解的是,可能不容易发现0期或0.5期的猫会迅速进展到3期,因为这些猫的疾病性质可能有所不同。
实施例7
实施例1、5和6中所述的基于6种生物标志物的预测模型在数据质量水平更高的情况下用更多的猫得到了进一步改进。在兽医数据库中验证了对纯种猫的预测能力。兽医数据库中隐蔽数据的模型性能(例如准确性)提高了约1%。在大多数情况下,准确性提高1%表示假阳性率大大降低,例如,假阳性率从2.6%降低到1.5%时降低了40%。
受训练的猫总数为53,590只,并且超过300,000次就诊有化学数据。盲测猫总数为150000只,并且超过700,000次就诊有化学数据。
表29显示了使用相对未清理的数据对兽医数据库中的混种和所有常见品种进行诊断前一年的预测准确性。准确性的细微变化是由于某些组中猫的数量较少(例如86只红虎斑猫与25,248家养短毛猫(DSH)相比)而引起的随机变化所致。暹罗猫和喜马拉雅猫的表观准确性略低是由于这些品种中CKD的患病率较高引起的。但是,敏感性和特异性都很高。
表29
品种 |
敏感性 |
特异性 |
准确性 |
猫总数 |
美国短毛猫(American Short Hair) |
71.13 |
94.59 |
89.05 |
411 |
孟加拉猫(Bengal) |
61.54 |
97.32 |
89.89 |
188 |
DLH |
71.2 |
97.77 |
90.06 |
4106 |
DMH |
68.69 |
97.96 |
91.16 |
4975 |
DSH |
69.1 |
98.17 |
91.51 |
25248 |
喜马拉雅猫 |
64.49 |
98.37 |
87.84 |
444 |
缅因猫 |
72.22 |
97.14 |
90.55 |
476 |
马恩岛猫(Manx) |
76.47 |
100 |
93.75 |
128 |
波斯猫 |
65.79 |
98.27 |
89.59 |
711 |
布偶猫(Ragdoll) |
73.44 |
98.7 |
93.2 |
294 |
红虎斑猫(Red Tabby) |
71.43 |
98.61 |
94.19 |
86 |
俄罗斯蓝猫(Russian blue) |
70.69 |
99.37 |
91.67 |
216 |
暹罗猫 |
69.6 |
97.52 |
88.4 |
1078 |
玳瑁波斯猫(Tortoise-Shell Persian) |
67.44 |
97.7 |
87.69 |
130 |
实施例8
使用一种新的方法来选择合适的变量进行预测建模,开发了一个新的和更简单的猫CKD模型,名为CKD4。CKD4是根据兽医数据库中的数据开发的,使用肌酐、BUN、尿比重和年龄,并在多次就诊时使用纵向数据,尽管也可以使用单次就诊。相比之下,实施例2和4中公开的CKD3模型使用了肌酐、BUN和尿比重,以及单次就诊的数据;并且实施例1和5-7中公开的CKD6模型使用肌酐、BUN、尿比重、尿pH、尿蛋白和WBC计数,并使用多次就诊的纵向数据,尽管也可以使用单次就诊。
CKD4的一个好处是,在需要血细胞计数数据、尿液pH或尿蛋白方面,它的要求较低。因此,它适用于尚未收集这些数据的更多诊所和就诊。
比较CKD6和更简单的CKD4在纵向隐蔽数据(兽医数据库中的150,000只猫)的性能,这些模型仅对约4%的预测存在分歧。在这些预测中,CKD4更好地预测了对照(83%正确对比33%)。CKD6更好地预测了病例(77%对比20%)。在纵向数据上,CKD4的准确性比CKD6差了不到1%。但是,CKD4拥有更好的从诊断开始的1年的阳性预测值(PPV),为94.9%对比92%,表明其敏感性略低,但特异性较高(表30)。CKD6在诊断前更远的时间(例如2.5年或更长时间)上表现略好。
在单次访问数据上,性能相反。两种模型仅在4.9%的预测上存在分歧。总体而言,CKD4的准确性比CKD6高出2%至3%。诊断前1年,单次就诊可获得BUN、肌酐和USG数据,CKD4的准确性为92%,PPV为89%(表31)。CKD4在诊断前更远的时间(例如2.5年或更长时间)上表现略好。
在下表中,“时间分段(Time Split)”是指在兽医数据库中列出的官方诊断之前的几年,例如,“时间分段2”表示在官方诊断之前2年预测风险。在每个时间点对两个模型进行隐蔽数据比较。
表30两种模型在两次或两次以上就诊的隐蔽纵向数据上进行比较,并且对50%以上的就诊进行肌酐测量,对25%以上的就诊进行USG测量。
模型 |
时间分段 |
敏感性 |
特异性 |
准确性 |
猫总数 |
PPV |
CKD6 |
0 |
93.58 |
98.18 |
95.81 |
44906 |
98.2 |
CKD4 |
0 |
90.85 |
98.89 |
94.75 |
44906 |
98.87 |
CKD6 |
0.5 |
80.14 |
98.09 |
94.03 |
46643 |
92.43 |
CKD4 |
0.5 |
76.01 |
98.81 |
93.66 |
46643 |
94.92 |
CKD6 |
1 |
69.5 |
98.07 |
91.15 |
40592 |
92 |
CKD4 |
1 |
64.31 |
98.89 |
90.52 |
40592 |
94.9 |
CKD6 |
1.5 |
59.47 |
98.04 |
88.87 |
33336 |
90.43 |
CKD4 |
1.5 |
53.11 |
98.99 |
88.08 |
33336 |
94.25 |
CKD6 |
2 |
51.96 |
98.01 |
86.24 |
27549 |
89.97 |
CKD4 |
2 |
45.44 |
98.98 |
85.3 |
27549 |
93.87 |
CKD6 |
2.5 |
42.12 |
97.94 |
83.8 |
22424 |
87.39 |
CKD4 |
2.5 |
35.46 |
99.03 |
82.93 |
22424 |
92.56 |
CKD6 |
3 |
36.34 |
97.99 |
81.01 |
16378 |
87.33 |
CKD4 |
3 |
28.34 |
98.99 |
79.52 |
16378 |
91.42 |
CKD6 |
3.5 |
31.35 |
97.87 |
78.75 |
7434 |
85.57 |
CKD4 |
3.5 |
23.54 |
99.13 |
77.4 |
7434 |
91.62 |
表31两种模型在可获得肌酐、BUN和USG结果的隐蔽单次就诊数据上的比较
模型 |
时间分段 |
敏感性 |
特异性 |
准确性 |
猫总数 |
PPV |
CKD6 |
0 |
90.91 |
98.09 |
94.31 |
27052 |
98.15 |
CKD4 |
0 |
93.39 |
96.7 |
94.96 |
27052 |
96.93 |
CKD6 |
0.5 |
76.06 |
98.23 |
93.93 |
27984 |
91.16 |
CKD4 |
0.5 |
83.75 |
97.2 |
94.59 |
27984 |
87.79 |
CKD6 |
1 |
63.39 |
98.23 |
90.47 |
25468 |
91.1 |
CKD4 |
1 |
73.09 |
97.49 |
92.06 |
25468 |
89.31 |
CKD6 |
1.5 |
52.18 |
98.53 |
88.71 |
21564 |
90.51 |
CKD4 |
1.5 |
63.21 |
98.02 |
90.65 |
21564 |
89.55 |
CKD6 |
2 |
44.27 |
98.2 |
85.01 |
18857 |
88.82 |
CKD4 |
2 |
54.92 |
98.38 |
87.76 |
18857 |
91.64 |
CKD6 |
2.5 |
37.51 |
98.3 |
83.64 |
15570 |
87.52 |
CKD4 |
2.5 |
48.94 |
98.33 |
86.42 |
15570 |
90.32 |
CKD6 |
3 |
31.36 |
98.41 |
79.97 |
12714 |
88.17 |
CKD4 |
3 |
40.06 |
98.72 |
82.59 |
12714 |
92.23 |
CKD6 |
3.5 |
27.1 |
98.3 |
78.77 |
9944 |
85.73 |
CKD4 |
3.5 |
35.17 |
98.82 |
81.37 |
9944 |
91.86 |
CKD6 |
4 |
21.6 |
98.23 |
75.64 |
5858 |
83.63 |
CKD4 |
4 |
26.29 |
98.81 |
77.43 |
5858 |
90.26 |
实施例9
慢性肾脏病(CKD)定义为功能受损或肾脏结构受损导致肾小球滤过率(GFR)降低的证据。CKD已被描述为五岁以上猫死亡的主要原因(O'Neill等,2015年),据报道,老年猫患病率在8%至31%之间(O'Neill等,2014年;Lulich等,1992年;Marino等,2014年)。许多猫科动物CKD病例的病因尚不清楚,组织学研究强调肾炎和肾纤维化可能是由多种潜在原因引起的,包括中毒损伤、缺氧、慢性肾小球肾炎、慢性肾盂肾炎、上尿路梗阻和病毒感染(Brown等,2016年)。患有CKD的猫的预后取决于诊断时疾病的严重程度,据报道,在IRIS 4期鉴定出的猫的预期寿命比在IRIS 2期诊断出的猫的预期寿命短9至25倍(Boyd等,2008年;Lulich等,2013年;Syme等,2006年)。CKD的早期检测允许实施能够减缓疾病进展,改善临床前景和生活质量的护理途径,并避免可能导致肾功能恶化和急性肾损伤的情况(例如,NSAIDs的服用(administration of NSAIDs);Levin and Stevens,2011年)。
目前尚不存在可在临床实践中评估肾功能的单一、准确的生物标记物(Sparks等,2016年)。虽然GFR的测量值提供了对肾功能的直接评估,但是公认的方法在临床上的实施具有技术性的挑战。因此,血清肌酐仍然是GFR的标准替代物,无论是作为初始诊断的一部分,还是在使用公认标准进行疾病分期时(例如IRIS;Finch 2014)。进一步的传统临床生物标志物,包括尿素、蛋白尿(尿蛋白与肌酐之比升高;UP/C),血压和尿比重也可以作为诊断的一部分,在决定适当的护理途径时,使用UP/C和血压作为对猫分亚期的诊断依据。最近,血清对称性二甲基精氨酸(SDMA)在临床实践中已广受欢迎,因为早期证据表明,SDMA比血清肌酐对肾功能的变化反应更快,能够在非氮血症猫中早期检测CKD(Hall等,2014年)。此外,已显示成纤维细胞生长因子23(FGF23)是调节磷酸盐和维生素D代谢的重要因素,随着GFR的下降,在发生氮缺乏症之前循环中的循环会增加(Finch等,2013年)。这些较新的CKD生物标记物代表了诊断测试的进展,该测试可以更敏感地或在早期阶段检测猫科动物CKD,但由于疾病的复杂性,需要进一步研究以充分了解这些方法的临床价值。
在人类医疗保健中,机器学习模型已用于评估风险并为实践管理提供信息(Parikh等,2016年),预测个体结果(Peck等,2012年;Lulich等,2013年),停留时间(Gultepe等,2013年),推荐治疗方法(Tsoukalas等,2015年)和个体化医学(Callahan等,2018年;Pencina等,2016年)。
在这项研究中,使用来自常规兽医实践的106,251条个体猫电子健康记录(EHR)数据集来训练,然后验证一种算法,该算法可以高特异性预测猫具患氮血症CKD的风险。讨论了该算法在早期诊断中的临床应用以及为新的临床护理途径带来的选择。
方法
1.数据源和初始清理
数据摘自1995年1月1日至2017年12月31日之间前往BANFIELD宠物医院(美国华盛顿州温哥华)的猫的电子健康记录(EHR)。在这段时间结束时,美国42个州的1000多家BANFIELD医院在运营。排除了从1.5岁之前和22岁之后的猫收集的数据。根据进一步的纳入标准,每只猫至少要进行3次临床就诊,这产生了910,786只猫的样本。样本中包含家养的短、中、长毛猫和50多个谱系品种。血液和尿液测试的极端异常值-超出正常范围最大值的6个以上标准差-被设置为丢失。
每个个体EHR都包括患者的人口统计数据(年龄、品种、体重和生殖状况),血液和尿液检查结果,以及临床信息(形式诊断和非结构化医疗记录)。总共选择了35种信息作为CKD预测模型的特征。数据点主要是在医院就诊期间或前后收集的,而每次就诊都带有时间戳,这意味着数据本质上是纵向的。
2.评估T0时的CKD状态和年龄
研究数据集中的EHR分为3个CKD状态组。第一组由具有正式记录的CKD诊断(“CKD”)的EHR组成。首次CKD诊断的年龄用作评估时的年龄(T0)。对于该组,排除了诊断后超过30天收集的数据(包括另外的30天窗口以捕获在诊断就诊后不久返回的血清、血液或尿液测试数据)。
没有正式CKD诊断的EHR,但至少有以下两个CKD建议数据点:血肌酐高于正常值,尿比重低于正常值,以及医疗记录中“CKD”、“氮血症”、“皇家犬用兽医饮食肾(ROYAL CANINVeterinary diet Renal)”或“希尔氏处方饮食k/d(Hill’s prescription diet k/d)”被归类为“可能的CKD”。尽管对于这些EHR,缺乏正式诊断的确切原因仍不确定,但兽医可能不确定诊断或未填写正式诊断。对于该组,将评估年龄(T0)设置为最后一次就诊的年龄,并使用完整的EHR。
所有未包括在前两个组中,并且在EHR结束时具有至少2年数据(记录的就诊)以验证CKD缺失的EHR被指定为“无CKD”状态。对于这些EHR,将评估年龄(T0)设置为最后一次就诊的年龄减去2岁,并从EHR中删除了最近2年的数据。
3.用于模型构建和测试的数据集
截短的EHR根据其信息内容进一步过滤,方法是强制规定EHR应该包括至少2次就诊,并附带血肌酐数据。这产生了具有106,251个个体猫EHR的数据集。该数据集随机分为两部分。总共70,687个EHR或大约67%的数据被用于建立CKD预测模型。其余的35,564个EHR(约33%)用作测试集以评估模型性能。在整个分析过程中,两个数据集保持独立,以排除测试阶段的任何偏差。在使用之前,在不使用CKD状态信息的情况下,对血液和尿液测试数据中的缺失信息进行了插补。这是针对模型构建和测试数据集分别进行的,以避免两个数据集之间的任何信息流。
4.模型构建
在使用之前,对模型构建数据集进行进一步过滤,以确保仅使用特征最好的EHR进行学习。状态为“可能的CKD”的EHR以及7549个以“急性肾损伤”或“泌尿道感染”为共病的“CKD”和“无CKD”EHR被删除。这留下了53,590个EHR,其中9,586个为“CKD”,44,004个为“无CKD”。为了使模型能够用于CKD的早期检测,然后通过添加原始EHR的截短版本(最后k次访问被删除,k是1到总访问次数-1)来扩充此数据集(Perez和Wang,2017年)。这使EHR丰富了数据集,该EHR在模型的最后一次就诊和诊断时间之间的间隔长达2年。
迈向CKD预测模型的第一步是选择一组有限的特征被包括在内。使用具有3-5-3个隐藏层结构的标准的递归神经网络(RNN,(Goodfellow等,2016年)图15),通过自顶向下和自底向上的封装方法(Tang等,2014年)进行特征选择。该RNN模型是根据探索性研究(结果未显示)选择的,其性能优于具有动态时间规整(KNN-DTW)的k最近邻(Salvador和Stan,2007)等方案和长短期记忆RNN替代方案(LSTM),(Gulli和Pal 2017),图15)。RNN通过隐藏层中的tanh激活函数和softmax来实现,用于将输出层转换为CKD概率分数。通过时间的反向传播用于RMSprop梯度优化算法的训练。在3折交叉验证设置中基于F1交叉熵评估模型性能。F1交叉熵被用作度量,因为它平衡了敏感性和特异性,而与CKD的发生率无关。
接下来,使用上述RNN结构和LSTM方案的选定特征,执行完整的模型体系结构屏幕。对于这两种结构,测试了1到5个隐藏层的不同配置,每层3到200个节点。设置与上述相同,除了添加了20%的丢弃以避免过度拟合(Srivastava等,2014年)。评估基于10折交叉验证设置中的F1分数(Powers等,2011年)。最后,在相同的交叉验证设置中,针对训练时间对最佳模型配置进行了微调。
5.模型测试
通过将所选的预测模型应用于测试数据集来评估无偏模型的性能。对“CKD”、“可能的CKD”和“无CKD”组中的所有EHR进行了预测。在原始模型输出的级别(即CKD诊断的概率p)以及将p=0.5作为临界点分类为“无CKD”和“CKD”之后,对结果进行了解释。将“CKD”和“无CKD”组的分类结果分别用于运算敏感性(真阳性比例,“CKD”状态预测为CKD)和特异性(真阴性比例,“无CKD”预测为无CKD)的估计。敏感性和特异性估计的置信区间使用正态近似计算。用于共病分析的优势比测试(表35)使用标准卡方检验进行。
通过在“CKD”组诊断时将EHR截短至年龄之前的各个时间点,评估模型在明确诊断之前预测CKD的能力。
5软件
使用R版本3.4.3(R Core Team,2017)进行常规数据管理,统计分析和绘图,并使用1.4版本的MissForest软件包(Stekhoven等,2012)进行估算。机器学习工作是使用1.3版本的Tensorflow(github.com)完成的,并使用2.0.8版本的Keras Deep Learning library从Python内部进行接口(faroit.github.io)在500核、每核4GB内存的Dell PowerEdgeR730xd群集上运行,并带有双Intel E5-2690 v3 CPU。
结果
1.研究数据集和临床CKD诊断
这项研究是对1995年至2017年间BANFIELD宠物医院就诊的106,251条个体猫EHR的摘录进行的。表33显示了根据CKD状态和诊断时的血液和尿液测试数据综述所区分的该样本的人口统计特征。仅基于“CKD”状态组时,该样本中的CKD患病率为17%,另外,当包括“可能的CKD”的猫时为42%。处于“CKD”状态的猫比“没有CKD”的猫大。对于大多数血液化学测量,丢弃数据的患病率约为9%,而对于尿液检测结果,高达62%的患病率(并非每次访问都进行常规测量)。在模型构建和测试数据集中分解(breakdown)后的结果非常相似(表32),表明它们可以用作同一群体的独立样本。
表32研究数据集的人口统计特征和综述,按培训和测试集划分。
表33研究数据集的人口统计特征和综述。
|
CKD |
可能的CKD |
CKD |
猫数量 |
61,239 |
26,604 |
18,408 |
每只猫的平均就诊次数 |
5.4 |
10.9 |
8.2 |
雄雌比例 |
1∶0.95 |
1∶1.14 |
1∶0.92 |
T0时的平均年龄(岁) |
6.6 |
10.7 |
13.1 |
T0时的平均体重(公斤) |
5.54 |
5.24 |
4.49 |
T0时的平均肌酐(mg/dL) |
1.70 |
1.90 |
2.81 |
T0时的平均尿比重 |
1.050 |
1.035 |
1.020 |
肌酐值缺失百分比 |
7% |
10% |
11% |
尿比重值缺失百分比 |
68% |
57% |
56% |
由于存在多种诊断CKD的指导原则,并且这些指导原则在本研究捕获的期间逐渐发展,因此探索了本研究中所使用的CKD状态与进行CKD诊断时常规评估的各种诊断参数之间的关系。与“无CKD”状态的猫相比,“CKD”状态的猫通常较老,肌酐水平较高,USG较低(图16)。这些结果与公认的诊断标准相比,支持了BANFIELD数据库中CKD诊断的质量,并为用于构建模型的背景数据提供了信心。对于所有评估的标准,CKD状态组之间的分布存在明显的重叠,因此任何一个单独的参数都没有足够的鉴别力来进行诊断。猫科动物CKD的这种固有的多因素性质为预测模型增加临床价值提供了理想的环境。
进行诊断时,兽医会参考历史(纵向)数据,并进一步对EHR中的这些诊断参数进行分析,从而突出显示了这些参数的变化范围,不仅基于猫的状况,而且还基于状况分组(图17))。这表明预测模型不仅应在诊断时考虑多个因素,而且还应在诊断之前的不同时间点上包含这些因素的信息。
2.建立CKD的预测模型
具有3-5-3隐藏层结构的标准RNN被用作CKD预测模型的起点,该模型可同时确认CKD诊断的多因素和时间方面。使用这种具有35个候选因素或特征的模型对于训练模型以及稍后在实践中使用都是不切实际的。因此,首先使用训练数据集的自顶向下和自底向上的特征选择策略来选择最重要的特征。这种方法表明,通过增加最多4个特征并在此后达到平稳状态,模型在交叉熵分数方面的性能得到了改进(数据未显示)。结果,建立了具有以下特征的预测模型:肌酐、血尿素氮、尿比重和就诊年龄。
通过这4个特征,确定了用于标准RNN和LSTM变体的隐藏层的最佳结构-每层的层数和节点数。关于交叉熵分数的结果(图18)和较高的交叉熵分数更好的观念表明,RNN模型略优于LSTM模型。对于RNN,具有少量节点的简单模型优于复杂模型。具有3-7结构的两层RNN最好。通过测试不同的周期数来优化该模型的训练时间,最终得到了一个RNN模型,该模型具有经过16个周期训练的3-7结构。
3.在诊断时检测CKD
为了了解CKD模型的临床价值,将其应用于40205个未构建模型的猫EHR的测试数据集。该模型(表34)基于状态“CKD”显示出90.7%(6,418/6,943)的敏感性,基于状态“无CKD”显示出98.9%(22,166/23,432)的特异性(表34)。“可能的CKD”组的预测被划分为“CKD”和“无CKD”预测。
表34在T0时诊断的CKD状态与预测状态的比较
原始CKD预测模型输出的分布(图19)针对“无CKD”和“CKD”状态组显示了类似的清晰图片:“无CKD”的位置接近0,“CKD”的位置接近1。“可能的CKD”状态组混合较多,约30%的接近于1,其余分布在0.5左右,这可能表明要么是诊断不明确要么是早期病例。
通过比较正确分类和错误分类的“无CKD”猫的共病发生率,还评估了“无CKD”猫的分类错误是否与特定共病相关。结果发现,在假阳性分类猫中,甲状腺功能亢进症和糖尿病的比例明显高于肝病和体重不足(表35)。
表35“无CKD”猫的20种最常见共病的发生率(%)通过它们预测的CKD状态进行区分。“预测为无CKD”与“预测为CKD”共病的优势比以假设检验的未修正的p值给出,该假设检验以优势比=1作为零假设。
在评估这种方法的临床实施时,先验信息量(就诊次数)对预测敏感性的影响是重要的考虑因素。通用模型性能数据没有考虑到这一点,因为它基于EHR的完整样本,其中包括从1到15次范围内的就诊。因此,接下来在进行诊断的就诊之前,通过EHR中的就诊次数来检查模型敏感性。已发现,敏感性显然会从先验信息中受益,因为通过在诊断之前进行至少2次就诊,它提高到大约90%(图20)。这表明历史信息有助于对CKD的诊断,达到最多2次就诊水平,平均2年。
4.使用模型进行早期检测
由于该模型在诊断前2年左右检测到CKD信号,因此评估了其在早期疾病风险预测中的用途。为了达到这个目的,在诊断之前在不同的点截短EHR(例如,对于1年的早期预测,将诊断与1年之前的所有信息都删除),然后评估模型预测CKD未来发作的能力。正如预期的那样,当增加预测和诊断之间的时间时,敏感性会降低(图21),尽管继续患CKD的猫中63%在诊断前1年正确预测,44.2%在诊断前2年正确预测。
为了在这种情况下评估特异性,EHR的截短没有意义,因为猫在所有较早的去诊所就诊时都保持“无CKD”。因此,评估时将特异性作为年龄的函数进行计算(图22)。直到11岁,特异性一直稳定在98%以上,此后在15岁,特异性下降到80%。
讨论
将计算建模方法应用于常规兽医实践中的大量、丰富的电子健康记录(EHR)数据集,以推导并验证诊断CKD的算法,并预测未来猫患氮血症CKD的风险。从最初的35个候选特征集,将模型优化到4个(肌酐、血尿素氮、尿比重和就诊年龄)。当在诊断点附近预测CKD时,该模型显示出90.7%的敏感性和98.9%的特异性。有趣的是,在诊断前一年和两年,可以预测CKD风险,敏感性分别为63.0%和44.2%。在两个高级时间点,特异性均超过99%。
当怀疑有CKD时,兽医通常会引用能够预测氮血症CKD发作的所选模型特征,因此这些特征在机理上牵涉疾病病因。肌酐和血尿素氮浓度是过滤标记,它们在循环系统中的滞留可以表明功能性肾脏质量降低(reduced functional renal mass)。由于尿素比肌酐更易穿过脂膜,并且抗利尿激素选择性地提高了集合小管和导管对尿素的通透性,尿素不仅在功能性肾脏质量降低时,而且当身体对水分不足作出反应并激活保存水分的机制时,也会滞留在血液中。在该模型中同时包含肌酐和尿素可以帮助系统避免错误地将急性容量耗竭的猫科动物鉴定为患有CKD;在这种情况下,尿素的变化远大于血浆肌酐。肌酐的连续监测比单一的一次性测量对鉴定肾脏质量的损失更为敏感,因为肌酐的产生可能受到非肾脏因素(例如肌肉质量;Sparkes等,2016年)的影响。但是,此处描述的方法的优势在于,该算法可鉴定一系列诊断参数随时间的变化,这些参数共同指示肾脏功能的逐步恶化。这些通常随时间变化的细微变化可能会被兽医遗忘,尤其是在实验室值未超出正常范围的情况下。
USG是衡量肾脏排泄过量水中溶质(主要是废物)的能力的尺度,但是随着功能性肾脏质量(functional kidney mass)的下降,USG也是如此。来自正常健康肾脏的猫科动物的单个尿液样本,根据猫科动物是否需要保存或排泄过量的水,可以具有不同的USG,因此单项评估难以解释。猫通常在IRIS 2期和3期CKD中保持一定的浓缩能力,当尿液接近IRIS4期CKD时,尿液仅接近等渗(isothenuric)范围(Elliott等,2003年)。解释USG与血浆肌酐和血尿素氮结合的系列数据可能有助于模型鉴定可预测肾功能质量下降的模式,并将其与正常或急性脱水发作周围的自然波动区分开。
最后,由于CKD主要是一种年龄疾病,因此猫的年龄被选为最终模型的特征就不足为奇了。如表33中突出显示的那样,“无CKD”和“CKD”组的年龄结构不同,但是有足够的重叠性来挑战幼猫和老年猫的模型。比例和年龄分布代表过去20年来BANFIELD诊所看到的猫的真实分布。衰老与一系列慢性病有关,CKD通常在高血压、甲状腺功能亢进症和糖尿病之前或诊断出与它们同时诊断出(Conroy等,2018年)。为了了解该模型在EHR中存在多种诊断的情况下如何运行,还评估了该模型对“无CKD”或“CKD”的错误分类是否与特定的共病相关(表35)。甲状腺功能亢进症和糖尿病在假阳性的分类猫中比例过高,很可能是由于临床参数的非特异性,这些参数通常用于指导这些疾病的诊断。应该注意的是,这些情况对模型的相对性能有轻微的影响,但这是兽医在临床实践中也遇到的挑战。
该模型中呈现的生物标志物的选择代表了在大多数临床情况下具有较高预测准确性的参数组合。进一步的工作(超出本文的范围)已突出显示,当使用更复杂的模型组合应用时,其他生物标志物可用于预测将来的CKD。例如,这些可以在预测非常老的猫时通过减少特异性的损失来发挥作用(图22),或帮助更准确地分离其他共病(表35)。鉴定的其他预测性生物标志物包括尿蛋白、尿液pH和白细胞计数。历史数据中与这些参数相关的缺失值的数量(由于未在所有就诊中均对其进行测量)意味着它们给模型带来了额外的噪声并增强了信号。使用更完整的数据集进行的进一步测试可能显示出这些和其他生物标志物的更高预测能力。
最近,血清SDMA浓度被建议作为GFR的替代标志物,因为它与猫的血浆肌酐(Jepson等,2008年)和血浆中碘海醇的清除率密切相关(Barff等,2014年)。回顾性分析存储的纵向样本,这些样本是作为营养研究的猫群管理的一部分而收集的,结果表明,在检测到血浆肌酐增加之前,在21只患了氮血症的猫中,有17只猫的SDMA血清浓度增加超出了实验室参考范围。平均而言,在肌酐升高之前17个月(1.5至48个月)检测到SDMA升高(Hall等人,2014年)。一小群猫和这项研究的回顾性性质可能高估了SDMA作为氮血症CKD的发展指标的敏感性和特异性。在收集本研究中使用的数据的大部分时间里,SDMA都不可用。有趣的是,从这些大型纵向数据集(涉及大量猫科动物,这些猫科动物向兽医实践展示了一系列不同疾病)中设计的算法,能够利用兽医实践中常规收集的数据预测甚至在其发作的3年前氮血症CKD的发展。SDMA的纵向测量是否可以提高本研究开发的算法的预测价值,值得进一步研究。
尽管EHR数据无疑与临床相关,但在科学环境中使用它仍然是一个挑战。因此,确认CKD诊断的准确性是重要的第一步。用于建立和验证该模型的数据来自超过20年时间的大量诊所和兽医,并且经过正式CKD诊断的猫显示出与当前公认的指导原则一致血液和尿液模式(图16);这本身就为将这些数据用作开发模型的参考点提供了信心。在没有正式的CKD诊断的情况下确定补充组猫的健康状况是更有问题的。其中的一个子集,被归类为“可能的CKD”,在血液和/或尿液测试结果中有明确的CKD指征或在暗示CKD的医疗记录中有提及。这组猫包括兽医不确定诊断的猫(最有可能是由于信息冲突)或因为猫处于疾病的早期阶段,或由于正式原因而无法诊断的猫。但是,在运算敏感性时不包括该组,并且意识到可能包含更难预测的情况,因此这可能会使估计值产生偏差。对于没有正式CKD诊断的其他猫,则需推行2年观察窗口期和无CKD以确信其“无CKD”状态。这也可能会使特异性估计值产生偏差,因为某些可能在CKD的早期就已经存在。
患有CKD的猫的预后取决于诊断时疾病的严重程度,据报道,在IRIS4期鉴定出的猫的预期寿命比在早期诊断出的猫具有更短的预期寿命(Boyd等,2008年;Geddes等,2013年;Syme等,2006年)。CKD的早期检测允许早期实施能够减缓疾病进展,改善临床前景和生活质量的护理途径,并避免可能导致肾功能恶化和急性肾损伤的情况(Levin andStevens,2011年)。因此,工作继续开发和验证新颖的诊断工具,该诊断工具支持临床医生对CKD的早期诊断,并代表了当前兽医实践中常规应用的临床措施(例如血浆肌酐、USG)的改进;其局限性已广为人知。在此,在有和没有CKD诊断的猫之间,一系列常规应用的诊断标准的分布之间存在明显的重叠(图16)。这突显了CKD的内在多因素性质,这意味着仅一个现有的临床参数就没有足够的鉴别力来告知诊断。
在这项研究中开发的CKD预测模型为兽医实践带来了许多优势。首先是支持兽医根据当前可获得的血液和尿液检测数据针对特定病例做出正确诊断。CKD的多因素性质使诊断变得复杂,个体猫通常在这些参数的演变中表现出差异(图17),很可能是由于病因和疾病进展方面的细微差异。有人甚至可能会争论人类是否能够学习所有可能的模式,因为在个体猫之间,这些模式可能会完全不同(例如,比较图17E和图17H中的CKD猫)。因此,有一个突出显示CKD的风险的算法可能是对执业兽医工具包的一个很有用的补充。第二个优势是该算法预测CKD风险的能力领先普通诊断策略–诊断前2年成功率(敏感性)为44.2%,诊断前1年成功率为63%。但是,为了能够及早发现,重要的是,猫不仅要定期(每半年一次或每年一次)就诊兽医,而且每次就诊时都要采集血液和尿液样本。从数据库中判断,这目前并不常见(表33)。诸如此类的方法突显了预防性护理的价值,增加的筛查频率不仅支持早期发现CKD,而且及时提供了主动监测通过常规临床措施诊断出的更广泛疾病的机会。最后,重要的是要根据CKD的早期预测来开发和验证护理途径,例如开始特别配制的饮食以减慢或阻止疾病的进展。
总之,这里提出了使用机器学习来构建算法的证据,该算法可预测在诊断之前长达2年的处于患CKD风险的猫。该算法的高特异性(>99%)以及63%的敏感性,意味着在100只患病率为15%的猫中,有90例将被正确预测为在接下来的12个月内不会患氮血症或患氮血症。当前方法的特别优势在于使用作为常规兽医实践的一部分而被收集的健康筛查数据,这意味着该模型可以快速实施到医院实践和/或诊断实验室软件中,以直接支持兽医做出临床决策。
参考文献
Boyd LM,Langston C,Thompson K等,患有自然发生的慢性肾脏病的猫的存活率(2000-2002),兽医实习医师2008;22:1111-1117。(Boyd LM,Langston C,Thompson K,etal.Survival in cats with naturally occurring chronic kidney disease(2000–2002).J Vet Intern Med 2008;22:1111–1117.)
Brown SA,慢性肾脏病的管理,Elliott J,Grauer GF(编辑),英国小动物兽医协会(BSAVA)犬科动物和猫科动物肾病和泌尿科手册,2007年。(Brown SA.Management ofchronic kidney disease.In Elliott J,Grauer GF(editors).British Small AnimalVeterinary Association(BSAVA)Manual of Canine and Feline Nephrology andUrology 2007.)
Brown CA,Elliott J,Schmiedt CW,Brown SA.老年猫的慢性肾脏病:临床特征、形态和拟定病因,兽医病理学,2016;53(2):309-26。(Brown CA,Elliott J,Schmiedt CW,Brown SA.Chronic Kidney Disease in Aged Cats:Clinical Features,Morphology,andProposed Pathogeneses.Vet Pathol.2016;53(2):309-26.)
Callahan A,Shah NH,医疗保健中的机器学习,临床信息学的重要进展2018:279-291。(Callahan A,Shah NH.Machine Learning in Healthcare Key Advances inClinical Informatics 2018:279-291)
Conroy M,Chang YM,Brodbelt D,Elliott J.在英国接受初级护理的猫被诊断为高血压后的存活率,兽医实习医师2018;1–10。(Conroy M,Chang YM,Brodbelt D,ElliottJ.Survival after diagnosis of hypertension in cats attending primary carepractice in the United Kingdom.J Vet Intern Med.2018;1–10.)
Finch NC,猫肾小球滤过率的测量;方法和优于常规肾功能指标的优势,猫科动物医学杂志,2014;16(9):736-48。(Finch NC.Measurement of glomerular filtrationrate in cats;Methods and advantages over routine markers of renal function.JFeline Med Surg.2014;16(9):736-48.)
Finch NC,Geddes RF,Syme HM,等,患有早期非氮血症慢性肾脏病(CKD)的猫和健康的老年猫的成纤维细胞生长因子23(FGF-23)浓度,兽医实习医师2013;27:227-233。(Finch NC,Geddes RF,Syme HM,et al.Fibroblast growth factor 23(FGF-23)concentrations in cats with early non azotemic chronic kidney disease(CKD)andin healthy geriatric cats.J Vet Intern Med 2013;27:227–233.)
Geddes RF,Finch NC,Elliott J等。猫科动物慢性肾脏病中的成纤维细胞生长因子23,兽医实习医师2013;27:234-241。(Geddes RF,Finch NC,Elliott J,etal.Fibroblast growth factor 23in feline chronic kidney disease.J Vet InternMed 2013;27:234–241.)
Gultepe,Eren等,从败血症患者的生命体征到临床结果:临床决策支持系统的机器学习基础,美国医学信息学会期刊2013年;21.2:315-325。(Gultepe,Eren,et al.Fromvital signs to clinical outcomes for patients with sepsis:a machine learningbasis for a clinical decision support system.Journal of the American MedicalInformatics Association 2013;21.2:315-325.)
Hall JA,Yerramilli M,obare E等,慢性肾脏病猫的对称性二甲基精氨酸和肌酐作为肾脏功能生物标志物的血清浓度比较,兽医实习医师2014;28:1676–1683.(Hall JA,Yerramilli M,obare E,et al.Comparison of serum concentrations of symmetricdimethylarginine and creatinine as kidney function biomarkers in cats withchronic kidney disease.J Vet Intern Med 2014;28:1676–1683.)
Hochreiter S,SchmidhuberJ,长期短期记忆,神经计算,1997;9(8):1735-1780,https://doi.org/10.1162/neco.1997.9.8.1735。(Hochreiter S,Schmidhuber J.LongShort-Term Memory.Neural Computation.1997;9(8):1735–1780.https://doi.org/10.1162/neco.1997.9.8.1735.)
Jepson RE,Brodbelt D,Vallance C,Syme HM,Elliott J.对猫氮血症预测因子的评估,兽医实习医师2009;23:806-813。(Jepson RE,Brodbelt D,Vallance C,Syme HM,Elliott J.Evaluation of the predictors of azotemia in cats.J Vet Intern Med2009;23:806-813)
Levin A,Stevens PE,CKD的早期检测:优点、局限性及对预后的影响。自然综述肾脏病学,2011 28;7(8):446-57。(Levin A,Stevens PE.Early detection of CKD:thebenefits,limitations and effects on prognosis.Nat Rev Nephrol.2011 28;7(8):446-57.)
Lulich等,执业兽医继续教育简编,1992;14:127。(Lulich et al.,Compendiumon Continuing Education for the Practising Veterinarian 1992;14:127.)
Marino CL,Lascelles BD,Vaden SL,Gruen ME,Marks SL,从四个年龄组随机选择的猫和招募用于退化性关节疾病研究的猫中慢性肾脏病的患病率和分类。猫科动物医学杂志,2014;16(6):465-72。(Marino CL,Lascelles BD,Vaden SL,Gruen ME,MarksSL.Prevalence and classification of chronic kidney disease in cats randomlyselected from four age groups and in cats recruited for degenerative jointdisease studies.J Feline Med Surg.2014;16(6):465-72.)
Morota,Gota等,机器学习和数据挖掘可促进精准畜牧业中的预测性大数据分析。动物科学杂志2018。(Morota,Gota,et al.Machine learning and data mining advancepredictive big data analysis in precision animal agriculture.J Animal Sci2018.)
O'Neill D,Church D,McGreevy P,Thompson P,Brodbelt D.在英格兰参加初级护理兽医实践的猫中记录的疾病患病率,兽医杂志2014;202:286–291。(O'Neill D,ChurchD,McGreevy P,Thompson P,Brodbelt D.Prevalence of disorders recorded in catsattending primary-care veterinary practice in England.Vet J 2014;202:286–291)
O'Neill DG,Church DB,McGreevy PD等,在英格兰参加初级护理兽医实践的猫的寿命和死亡率,猫科动物医学杂志,2015;17:125-133。(O’Neill DG,Church DB,McGreevyPD,et al.Longevity and mortality of cats attending primary care veterinarypractices in England.J Feline Med Surg 2015;17:125–133)
Parikh RB,Kakad M,Bates DW,2016,将预测分析整合到高价值护理中:精确投放的曙光,JAMA 315,651652。(Parikh RB,Kakad M,Bates DW.2016.Integratingpredictive analytics into high-value care:the dawn of precision delivery.JAMA315,651652.)
Peck JS,Benneyan JC,Nightingale DJ,Gaehde SA,预测急诊科的住院人数,以改善当天的患者流量,急救医学理论杂志2012;19:E1045E1054。(Peck JS,Benneyan JC,Nightingale DJ,Gaehde SA.Predicting emergency department inpatient admissionsto improve same-day patient flow.Acad Emerg Med 2012;19:E1045E1054.)
Peck JS,Gaehde SA,Nightingale DJ,Gelman DY,Huckins DS,Lemons MF等人,一种简单的方法可用于预测急诊科的住院人数。急救医学理论杂志2013;20:11561163。(Peck JS,Gaehde SA,Nightingale DJ,Gelman DY,Huckins DS,Lemons MF,et al.,Generalizability of a simple approach for predicting hospital admission froman emergency department.Acad Emerg Med 2013;20:11561163.)
Pencina MJ,Peterson ED,从临床试验转向精密医学:预测建模的作用,JAMA2016;315:17131714。(Pencina MJ,Peterson ED.Moving from clinical trials toprecision medicine:the role for predictive modelling.JAMA 2016;315:17131714.)
Perez和Wang(2017),使用深度学习的图像分类中数据增强的有效性,arXiv:1712.04621。(Perez and Wang(2017).The Effectiveness of Data Augmentation inImage Classification using Deep Learning.arXiv:1712.04621.)
Pineda,Arturo Lopez等,深度学习有助于使用人类和兽医的临床叙述来快速识别队列,BioRxiv 2018:429720。(Pineda,Arturo Lopez,et al.Deep learningfacilitates rapid cohort identification using human and veterinary clinicalnarratives.BioRxiv 2018:429720.)
R核心团队,R:统计计算的语言和环境,R统计计算基金会,维也纳,奥地利,2017https://www.R-project.org/(R Core Team.R:A language and environment forstatistical computing.R Foundation for Statistical Computing,Vienna,Austria.2017 https://www.R-project.org/)
Ross LA,Finco DR,Crowell WA,饮食中磷的限制对肾脏质量降低的猫肾脏的影响,美国兽医学会,1982;43(6):1023-6。(Ross LA,Finco DR,Crowell WA.Effect ofdietary phosphorus restriction on the kidneys of cats with reduced renalmass.Am J Vet Res.1982;43(6):1023-6.)
Sparkes AH,Caney S,Chalhoub S,Elliott J,Finch N,Gajanayake I,LangstonC,Lefebvre HP,White J,QuimbyJ,猫科动物慢性肾脏病诊断和管理的ISFM共识指南。猫科动物医学杂志,2016;18(3):219-39。(Sparkes AH,Caney S,Chalhoub S,Elliott J,FinchN,Gajanayake I,Langston C,Lefebvre HP,White J,Quimby J.ISFM ConsensusGuidelines on the Diagnosis and Management of Feline Chronic Kidney Disease.JFeline Med Surg.2016;18(3):219-39.)
Srivastava等,2014,“丢弃:防止神经网络过度拟合的一种简单方法”,机器学习研究杂志15:1929-1958。(Srivastava et al.(2014).Dropout:a simple way to preventneural networks from overfitting.Journal of Machine Learning Research 15:1929-1958.)
Stekhoven等,(2012),MissForest-混合类型数据的非参数缺失值插补,牛津生物信息学杂志28:112-118。(Stekhoven et al.(2012).MissForest–nonparametric missingvalue imputation for mixed-type data.Oxford Journal Bionformatics 28:112-118.)
Syme HM,Markwell PJ,Pfeiffer D等,具有自然发生的慢性肾衰竭的猫的存活与蛋白尿的严重程度有关。兽医实习医师2006;20:528-535。(Syme HM,Markwell PJ,Pfeiffer D,et al.Survival of cats with naturally occurring chronic renalfailure is related to severity of proteinuria.J Vet Intern Med 2006;20:528–535.)
Tang J,Alelyani S和Liu(2014)分类的特征选择:综述,在:数据分类:算法和应用,CRC出版社。(Tang J,Alelyani S and Liu(2014)Feature selection forclassification:a review.In:Data Classification:Algorithms andapplications.CRC press.)
Tsoukalas A,Albertson T,Tagkopoulos I,从数据到最佳决策:数据驱动的概率机器学习方法为败血症患者提供决策支持,JMIR医学信息学201;53.1。(Tsoukalas A,Albertson T,Tagkopoulos I.From data to optimal decision making:a data-driven,probabilistic machine learning approach to decision support for patients withsepsis.JMIR medical informatics 201;53.1.)
***
虽然已经详述了本发明公开的主题及其优点,但是应当理解可以在本文中做出各种变化、替换和改变而不脱离如所附权利要求书所定义的本发明精神和范围。此外,本申请的范围不旨在限于说明书中描述的过程、机器、制造和物质组合物、装置、方法和步骤的特定实施例。本领域普通技术人员将从本发明公开的主题、过程、机器、制造、物质组合物、装置、方法或步骤的公开内容容易地理解,可以根据本发明公开的主题利用与本发明描述的相应实施方案执行基本相同的功能或实现基本相同的结果的目前存在或稍后开发的内容。因而,所述所附权利要求书意图将在这类过程、机器、制造法、物质组成、手段、方法或步骤包括在它们的范围内。
在本申请自始至终援引了专利、专利申请、出版物、产品描述和方案,所述文献的公开内容通过引用的方式完整并入本文用于全部目的。