CN117238522A - 一种非布司他的疗效预测系统、设备及介质 - Google Patents
一种非布司他的疗效预测系统、设备及介质 Download PDFInfo
- Publication number
- CN117238522A CN117238522A CN202311473797.2A CN202311473797A CN117238522A CN 117238522 A CN117238522 A CN 117238522A CN 202311473797 A CN202311473797 A CN 202311473797A CN 117238522 A CN117238522 A CN 117238522A
- Authority
- CN
- China
- Prior art keywords
- data
- febuxostat
- medical record
- record data
- curative effect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- BQSJTQLCZDPROO-UHFFFAOYSA-N febuxostat Chemical compound C1=C(C#N)C(OCC(C)C)=CC=C1C1=NC(C)=C(C(O)=O)S1 BQSJTQLCZDPROO-UHFFFAOYSA-N 0.000 title claims abstract description 96
- 229960005101 febuxostat Drugs 0.000 title claims abstract description 96
- 230000000694 effects Effects 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000012360 testing method Methods 0.000 claims abstract description 76
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims abstract description 55
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims abstract description 54
- 229940116269 uric acid Drugs 0.000 claims abstract description 54
- 210000002966 serum Anatomy 0.000 claims abstract description 53
- 238000010801 machine learning Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 14
- 201000005569 Gout Diseases 0.000 claims description 22
- 238000011282 treatment Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 17
- 238000012886 linear function Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000011088 calibration curve Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000001225 therapeutic effect Effects 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000002560 therapeutic procedure Methods 0.000 claims description 4
- 206010051728 Bone erosion Diseases 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 239000003814 drug Substances 0.000 abstract description 4
- 208000014205 familial febrile seizures Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 108010074051 C-Reactive Protein Proteins 0.000 description 3
- 102100032752 C-reactive protein Human genes 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013211 curve analysis Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 201000001431 Hyperuricemia Diseases 0.000 description 2
- 108010093894 Xanthine oxidase Proteins 0.000 description 2
- 102100033220 Xanthine oxidase Human genes 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000000378 dietary effect Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000009304 Acute Kidney Injury Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010061619 Deformity Diseases 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 208000033626 Renal failure acute Diseases 0.000 description 1
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 201000011040 acute kidney failure Diseases 0.000 description 1
- 208000012998 acute renal failure Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- WHQCHUCQKNIQEC-UHFFFAOYSA-N benzbromarone Chemical compound CCC=1OC2=CC=CC=C2C=1C(=O)C1=CC(Br)=C(O)C(Br)=C1 WHQCHUCQKNIQEC-UHFFFAOYSA-N 0.000 description 1
- 229960002529 benzbromarone Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- RQFQJYYMBWVMQG-IXDPLRRUSA-N chitotriose Chemical compound O[C@@H]1[C@@H](N)[C@H](O)O[C@H](CO)[C@H]1O[C@H]1[C@H](N)[C@@H](O)[C@H](O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)N)[C@@H](CO)O1 RQFQJYYMBWVMQG-IXDPLRRUSA-N 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- 208000022831 chronic renal failure syndrome Diseases 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019441 ethanol Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000011866 long-term treatment Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000014102 seafood Nutrition 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本说明书实施例公开了一种非布司他的疗效预测系统、设备及介质,涉及大数据及医学技术领域,用于解决现有预测可靠性低且速度慢的问题。系统包括:数据采集单元,用于获取训练集与外部测试集中的病历数据;数据筛选单元,用于通过最小绝对收缩算子模型对训练集的病历数据进行特征选择,获得关键特征数据;模型训练单元,用于将关键特征数据输入预置不同类型的机器学习模型进行训练,并基于外部测试集中的关键特征数据对各机器学习模型进行性能评价,获得最佳模型;疗效预测单元,用于基于最佳模型与所述模型训练单元训练过程中获得的学习参数,计算当前非布司他治疗患者的血清尿酸达标率。
Description
技术领域
本说明书涉及大数据及医学技术领域,尤其涉及一种非布司他的疗效预测系统、设备及介质。
背景技术
痛风是长期嘌呤代谢紊乱导致血尿酸增高、尿酸盐晶体(MSU)沉积引起组织损伤的一种经典代谢性性疾病,除导致关节畸形、急慢性肾衰,还会诱发和加重心脑血管疾病。由于当前科技的发展和经济水平的提高,居民的饮食结构发生了较大的调整,肉类海鲜酒精等嘌呤含量较多的食物逐渐占据居民饮食结构的重要部分,此类食物进入人体后,代谢产生的尿酸水平升高进而使得痛风的发病率也呈上升趋势由其导致的高尿酸血症患病人数以及痛风患病人数逐年增多,已成为严重危害国民健康的重大疾病。非布司他(Febuxostat Tablets,简称FEB)主要成分为非布佐司他,其化学名为2-[(3-氰基-4-异丁氧基)苯基]-4-甲基-5-噻唑羧酸,为黄嘌呤氧化酶(XO)抑制剂,适用于具有痛风症状的高尿酸血症的长期治疗,而为了便于医生更好地基于非布司他对于痛风患者进行治疗,预测小剂量非布司他的疗效是临床应用中分析疗效的一个重要过程。
现有的疗效预测一般是基于临床试验队列进行,也就是在志愿者病人进行药物系统性研究后在根据临床试验获得的志愿者病人的相关数据利用线性回归或者逻辑回归等简单的手段进行药物疗效模型的建立,然而仅基于线性回归或逻辑回归进行疗效预测时,既难以准确考虑到病历数据中的变量数据,难以处理多个特征变量之间的交互作用,也难以基于病历数据快速获得相应的线性回归模型。使得仅基于临床试验进行数据统计与规律总结后,获得的线性回归模型进行非布司他疗效预测时,其疗效预测的可靠性与准确性较低且预测速度较慢。
发明内容
为了解决上述技术问题,本说明书一个或多个实施例提供了一种非布司他的疗效预测系统、设备及介质。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种非布司他的疗效预测系统,系统包括:
数据采集单元,用于获取训练集与外部测试集中的病历数据;其中,所述病历数据包括:通过相关痛风检测获取的患者临床参数、以及包含痛风石数据、双轨征数据、骨侵蚀数据的放射学数据;
数据筛选单元,用于通过最小绝对收缩算子模型对所述训练集的病历数据进行特征选择,获得关键特征数据;
模型训练单元,用于将所述关键特征数据输入预置不同类型的机器学习模型进行训练,并基于所述外部测试集中的关键特征数据对各机器学习模型进行性能评价,获得最佳模型;
疗效预测单元,用于基于所述最佳模型与所述模型训练单元训练过程中获得的学习参数,计算当前非布司他治疗患者的血清尿酸达标率。
可选地,在本说明书一个或多个实施例中,所述数据采集单元,具体用于:
基于预置采集周期与预设随访时间对观察性队与临床试验队列中的患者进行数据采集;其中,所述观察性队列对应于接受非布司他治疗的患者,所述临床试验队列对应于接受非布司他治疗的患者;
基于目标预置血清尿酸与病历数据中各时间点的血清尿酸,确定各病历数据的非布司他疗效标签,以基于所述非布司他疗效标签对各病历数据进行标记;其中,所述非布司他疗效标签包括:未达标、部分缓解、完全缓解;
基于所述训练集与外部测试集的样本比,确定训练集的第一病历数据量与外部测试集的第二病历数据量;
基于所述第一病历数据量采集观察性队与临床试验队列中的病历数据,作为训练集的病历数据,并基于第二病历数据量采集临床试验队列中的病历数据,作为外部测试集中的病历数据;其中,所述训练集与外部测试集中的病历数据对应于不同的非布司他治疗患者。
可选地,在本说明书一个或多个实施例中,所述标签定义单元,具体用于:
获取病历数据中各时间点的血清尿酸,若确定各时间点的血清尿酸均大于所述目标预置血清尿酸,则确定所述非布司他疗效标签为未达标;其中,目标预置血清尿酸为sUA<6mg/dL;
基于预设随访时间对病历数据中的随访血清尿酸进行提取,若确定所述随访血清尿酸小于所述目标预置血清尿酸,则确定所述非布司他疗效标签为部分缓解;
根据预设治疗终点时间对病历数据中的终点血清尿酸进行提取,若确定所述终点血清尿酸小于所述目标预置血清尿酸,则确定所述非布司他疗效标签为完全缓解。
可选地,在本说明书一个或多个实施例中,所述数据筛选单元,具体用于:
获取所述训练集中的各病历数据内的变量数据,以对所述变量数据进行最小最大归一化处理,获得归一化处理后的变量数据;
基于内部测试集对所述训练集归一化处理后的变量数据进行十折交叉验证,获得各个归一化处理后的变量数据的差错率;其中,所述内部测试集基于观察性队中采集的病历数据构成;
使用R包glmne对各所述变量数据的差错率,进行最小绝对收缩选择算子回归,以提取十折交叉验证中误差最小的数据作为关键特征数据。
可选地,在本说明书一个或多个实施例中,所述系统还包括:缺失数据补偿单元,用于:
获取训练集与外部测试集中存在缺失数据的待补偿病历数据,以基于所述缺失数据占所述待补偿病历数据的比例,确定所述待补偿病历数据的数据缺失占比;
若确定所述数据缺失占比小于预设缺失值,则基于欧氏距离确定所述待补偿病历数据所在集合中的各病历数据之间的相似性;
基于所述相似性确定预设数量的与所述待补偿病历数据相对应的邻居病历数据,基于所述邻居病历数据的均值估计所述待补偿病历数据的缺失值,基于所述缺失值对所述训练集与所述外部测试集的待补偿病历数据进行插补。
可选地,在本说明书一个或多个实施例中,所述模型训练单元,具体用于:
获取不同类型的机器学习模型,以将所述关键特征数据进行交叉校验后输入各所述机器学习模型进行训练,获得各所述机器学习模型的输出;其中,所述机器学习模型包括:逻辑回归、随机森林、随机梯度下降分类器、极端梯度增强、线性支持向量分类器;
基于所述外部测试集中接受非布司他治疗的病历对比,确定所述外部测试集的非布司他疗效预测结果;
基于所述外部测试集的非布司他疗效预测结果评价各所述机器学习模型的输出,确定各所述机器学习模型的性能评价值,以基于所述性能评价值获得最佳模型。
可选地,在本说明书一个或多个实施例中,所述系统还包括:指标评价单元,用于:
使用R包rms绘制各所述机器学习模型的校准曲线,以基于所述校准曲线确定各所述机器学习模型的校准度;
使用R包rmda绘制各所述机器学习模型的决策曲线,以基于所述决策曲线评价各所述机器学习模型的实用价值;
基于R包circlize对各所述机器学习模型的校准度、实用价值与所述性能评价值之间的相关性进行分析,以获得各所述机器学习模型的综合评价。
可选地,在本说明书一个或多个实施例中,所述疗效预测单元,具体用于:
根据所述最佳模型的输出结果与所述模型训练单元训练过程中获得的学习参数,确定所述非布司他疗效所对应的线性函数;其中,所述学习参数包括:初始线性函数、截距、逻辑回归方程;
根据所述非布司他疗效所对应的线性函数确定预设治疗时间内痛风患者的血清尿酸达标率;
根据所述血清尿酸达标率与预设目标达标率,预测所述非布司他在所述预设治疗时间内的疗效。
本说明书一个或多个实施例提供一种非布司他的疗效预测设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:执行上述系统执行的任一过程。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:能够执行上述系统执行的任一过程。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过采集训练集与外部测试集中的病历数据进行后续分析引入了外部测试集,方便了后续对于机器学习模型的多指标评价提高了后续模型预测的可靠性。基于数据筛选单元的最小绝对收缩算子模型进行筛选获得关键特征数据,并设置模型训练模块建立机器学习算法模型对关键特征数据进行高效处理,以基于最佳模型得到非布司他治疗患者的血清尿酸达标率,用于对痛风患者的非布司他使用疗效进行准确评估,有助于明确非布司他的获益人群,方便医生对痛风患者进行精准治疗。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种非布司他的疗效预测系统组成结构示意图;
图2为本说明书实施例提供的一种训练数据集和外部测试数据集队列的特征表图;
图3为本说明书实施例提供的一种各模型性能及其对外部试验数据集的比较表;
图4为本说明书实施例提供的一种非布司他的疗效预测设备内部结构示意图;
图5为本说明书实施例提供的一种非易失性存储介质的内部结构示意图。
具体实施方式
本说明书实施例提供一种非布司他的疗效预测系统、设备及介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如图1所示,本说明书实施例提供了一种非布司他的疗效预测系统组成结构示意图。由图1可知,本说明书一个或多个实施例中,一种非布司他的疗效预测系统,系统包括:数据采集单元1,数据筛选单元2,模型训练单元3以及疗效预测单元4。
其中,数据采集单元1用于获取训练集与外部测试集中的病历数据。需要说明的是病历数据是临床试验中基于痛风患者同意后进行的采集记录与分析,采集的病历数据包括:通过相关痛风检测获取的患者临床参数、以及包含痛风石数据、双轨征数据、骨侵蚀数据的放射学数据。具体地,在本说明书一个或多个实施例中,数据采集单元,具体用于:
根据预置采集周期与预设随访时间对观察性队与临床试验队列中的患者进行数据采集。其中,需要说明的是为了更好的预测小剂量(20mg/day)非布司他治疗后的血清尿酸是否达标,本说明书实施例中的观察性队列对应于接受非布司他治疗的患者,而临床试验队列对应于接受非布司他治疗的患者。通过纳入具有前瞻性的观察性队列进行数据采集扩充了可以支撑非布司他疗效预测的数据范围,相对于仅基于临床试验确定疗效线性模型的方式提高了数据的可靠性,有助于提高后续模型的精确度。即在本说明书实施例某实验场景中自愿进行疗效观察的观察性队列的痛风患者接受20 mg非布司他治疗并每4周访视一次,以确定CA-724对痛风发作的预测能力,此外还接受以及一项评价壳聚糖寡糖治疗的疗效和安全性的随机临床试验,以在预置采集周期与预设随访时间中对观察性队列中各痛风患者的病历数据进行采集。此外另一队列也就是外部测试集所对应的临床试验队列在确诊的痛风患者中比较低剂量非布司他与低剂量苯溴马隆的疗效和安全性。其中,需要说明的是训练集与外部测试集中的病历数据均为接受20mg的FEB治疗的痛风患者的病历数据,如果某痛风患者接受了至少12周的非布司他治疗且具有可用的人口统计学、临床和随访数据,则将其纳入训练集或外部测试集,而将12周内失访或在开始治疗后停用FEB的患者从研究人群中排除。
根据预置采集周期与预设随访时间对观察性队与临床试验队列中的患者进行数据采集之后,为了后续获取基于模型训练单元3获取的最佳单元预测的疗效,数据采集单元会基于目标预置血清尿酸与病历数据中各时间点的血清尿酸,确定各病历数据的非布司他疗效标签,以基于非布司他疗效标签对各病历数据进行标记;其中,需要说明的是非布司他疗效标签包括:未达标、部分缓解、完全缓解。然后再基于训练集与外部测试集的样本比,确定出训练集的第一病历数据量与外部测试集的第二病历数据量。根据第一病历数据量采集观察性队与临床试验队列中的病历数据,作为训练集的病历数据,并基于第二病历数据量采集临床试验队列中的病历数据,作为外部测试集中的病历数据。其中,训练集与外部测试集中的病历数据对应于不同的非布司他治疗患者。例如:在训练数据集中,纳入了230例接受非布司他20mg每日一次治疗12周的患者,其中20%被选该训练数据集的内部验证集。在外部试验数据集中,纳入了80例患者。
进一步地,数据采集单元中基于目标预置血清尿酸与病历数据中各时间点的血清尿酸,确定各病历数据的非布司他疗效标签的过程,具体包括以下过程:
首先,获取病历数据中各时间点的血清尿酸,如果能够确定各时间点的血清尿酸均大于目标预置血清尿酸,那么可以确定非布司他疗效标签为未达标。其中,目标预置血清尿酸为sUA<6mg/dL。同时根据预设随访时间对病历数据中的随访血清尿酸进行提取,如果确定随访血清尿酸小于所述目标预置血清尿酸,那么可以确定非布司他疗效标签为部分缓解。根据预设治疗终点时间对病历数据中的终点血清尿酸进行提取,如果确定终点血清尿酸小于目标预置血清尿酸,那么可以确定非布司他疗效标签为完全缓解。
进一步地,为了处理缺失数据保证样本的完整性,在本说明书一个或多个实施例中,系统还包括:缺失数据补偿单元5,用于:获取训练集与外部测试集中存在缺失数据的待补偿病历数据,从而根据缺失数据在待补偿病历数据中所占的比例,确定出待补偿病历数据的数据缺失占比。如果确定数据缺失占比小于预设缺失值,那么就根据各病历数据与待补偿病历数据之间的欧氏距离,确定出待补偿病历数据所在集合中病历数据之间的相似性。基于确定的相似性确定出预设数量k个与待补偿病历数据最相似的病历数据作为相对应的邻居病历数据。以便于根据基于邻居病历数据的均值,来估计待补偿病历数据的缺失值,并通过估计获得的缺失值对训练集与外部测试集的待补偿病历数据进行插补。
数据筛选单元2,用于通过最小绝对收缩算子模型对训练集的病历数据进行特征选择,获得关键特征数据。如下图2所示的训练数据集和外部测试数据集队列的特征表可知,病历数据也就是自愿患者的临床参数与放射学数据中包含了收缩压、身体质量指数BMI、血清尿酸盐、甘油三酯、血尿素等29个变量数据,因此为了减少多变量数据进行疗效预测时分析复杂,以及由于观察性队与临床试验队列的指标不同对后续分析造成的不利影响,本说明书实时例中数据筛选单元需要在病历数据的多个变量数据中进行数据特征的筛选获得关键特征数据进行后续的训练学习预测非布司他的疗效。
具体地,在本说明书一个或多个实施例中,数据筛选单元,具体用于实现以下过程:
由于训练集与外部测试集的病历数据的指标可能不一致,如果对未标准化的数据直接进行建模,可能会导致模型对数值大的变量学习过多,而对数值小的变量训练不够充分,往往会导致模型效果不好,所以在建模之前,都需要对数据进行标准化处理,以消除量纲的影响。本申请实施例中的数据筛选单元首先获取训练集中的各病历数据内的变量数据,从而对变量数据进行最小最大归一化处理,获得归一化处理后的变量数据。其中,需要说明的是最大最小归一化就是利用数据列也就是不同时间采集获得的变量数据中的最大值和最小值进行标准化处理,标准化后的数值处于[0,1]之间,计算方式为数据与该列的最小值作差,再除以极差。
在对变量数据进行最小最大归一化处理后,基于内部测试集对训练集归一化处理后的变量数据进行十折交叉验证,从而获得各个归一化处理后的变量数据的差错率。其中,需要说明的是内部测试集基于观察性队中采集的病历数据构成,以便用于后续模型训练单元进行模型训练时基于内部测试集对机器学习模型进行性能评价。还需要说明的是十折交叉验证,用来测试准确性是常用的测试方法。通过将归一化处理后的变量数据分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验获得每次试验的差错率,进而基于均值确定各个归一化处理后的变量数据的差错率。然后使用R包glmne对各变量数据的差错率,进行最小绝对收缩选择算子回归,以提取十折交叉验证中误差最小的数据作为关键特征数据。其中需要说明的是R语言glmnet包为LASSO算法中的包。
模型训练单元3,用于将关键特征数据输入预置不同类型的机器学习模型进行训练,并基于外部测试集中的关键特征数据对各机器学习模型进行性能评价,获得最佳模型。具体地,为了获得预测较好的模型进行非布司他的疗效的疗效预测,在本说明书一个或多个实施例中,模型训练单元,具体用于:
获取不同类型的机器学习模型也就是逻辑回归、随机森林、随机梯度下降分类器、极端梯度增强、线性支持向量分类器的机器学习模型,为了避免模型过拟合将关键特征数据进行交叉校验后,再输入到各机器学习模型进行训练,获得各机器学习模型的输出。然后基于外部测试集中接受非布司他治疗的病历对比,确定外部测试集的非布司他疗效预测结果。然后根据外部测试集的非布司他疗效预测结果,评价各机器学习模型的输出,确定各机器模型的性能评价值,从而根据性能评价值获得最佳模型。
进一步地,由于不同模型在不同方向的表现不同,所以除去准确度等模型性能评价之外,在本说明书实施例中,所述系统还包括:指标评价单元6,用于:
使用R包rms绘制各机器学习模型的校准曲线,以基于校准曲线确定各所述机器学习模型的校准度。同时使用R包rmda绘制各机器学习模型的决策曲线,以基于决策曲线评价各所述机器学习模型的实用价值,基于R包circlize对各机器学习模型的校准度、实用价值与性能评价值之间的相关性进行分析,以获得各机器学习模型的综合评价。在本说明书实施例某应用场景中,使用外部测试数据集评价最佳训练模型输出后。根据受试者工作曲线下面积(AUC)评价模型性能,还计算了阳性预测值、阴性预测值、灵敏度和特异性,以便进行模型评价也就是说:使用观察和预测风险的校准图和拟合优度检验评价预测模型的校准。R包“rms”用于绘制校准曲线并计算P值统计量。为了估计预测模型的临床效用,使用R包“rmda”进行决策曲线分析,目的是计算训练集和测试集中阈值概率范围的净获益。决策曲线分析的阈值概率是预测的预期回报等于避免预测的预期回报。决策曲线分析是假阳性和假阴性之间的权衡,主要用于衡量医疗干预策略、筛选受益者和评价整个模型的实用价值。为了显示模型特征之间的相关性,使用R包“circlize”可视化特征之间的相关性分析。
即如下图3所示的各模型性能及其对外部试验数据集的比较表。其中,AUC表示受试者工作曲线下面积,PPV表示阳性预测值,NPV表示阴性预测值,XGB分类器表示极端梯度增强分类器,线性SVC表示线性支持向量分类器,SGD表示随机梯度下降。基于图3中的比较表可知,SGD分类器在内部验证数据集中表现最好,其AUC为0.873[95%CI(0.763,0.942)]。在鉴于SGD模型的AUC高于其他模型的基础上,基于该表所示的外部试验数据集的准确度、灵敏度、特异性、阳性预测值和阴性预测值可以进一步评价SGD模型为最佳模型。
疗效预测单元4,用于基于所述最佳模型与所述模型训练单元训练过程中获得的学习参数,计算当前非布司他治疗患者的血清尿酸达标率。具体地,在本说明书一个或多个实施例中,疗效预测单元,具体用于:
根据最佳模型的输出结果与模型训练单元训练过程中获得的学习参数,确定非布司他疗效所对应的线性函数;其中,需要说明的是学习参数包括:初始线性函数、截距、逻辑回归方程。然后根据非布司他疗效所对应的线性函数确定预设治疗时间内痛风患者的血清尿酸达标率。根据血清尿酸达标率与预设目标达标率,预测非布司他在预设治疗时间内的疗效。基于不同类型的机器学习模型进行模型训练后获得最佳模型进行非布司他疗效预测的方式,避免了基于简单的线性模型难以实现复杂变量数据分析,导致疗效预测可靠性低且效率低的问题。
此外,本说明书一个或多个实施例中非布司他的疗效预测系统还包括模型解释模块,用于计算数据筛选单元选择出的关键特征数据对预测输出的贡献值SHAP值,以便于探讨关键特征数据对非布司他疗效预测模型的影响,以便于确定非布司他可能适用的痛风疾病活动度。
基于上述系统,本说明书实施例在进行实验室试验时获得了如下结果:首先对于观察性队与临床试验队列,实验室试验时在数据采集单元中,在训练数据集1纳入了230例接受非布司他20 mg每日一次治疗12周的患者,其中20%被选为内部验证集。230例患者中共有138例(60%)对低剂量方案无应答(FEB-IR)。与无应答者基线相比,低剂量非布司他应答者的年龄更大(50 vs. 43岁,p<0.001)、体重指数(BMI)更低(26.4 vs. 27.4 kg/m2,p =0.012)、基线sUA更低(513.0vs. 585.4 μmol/L,p<0.001)、甘油三酯(TG)更低(1.6 vs.2.4 mmol/L,p<0.001)、高密度脂蛋白胆固醇更高(1.3 vs. 1.2 mmol/L,p<0.001)、C反应蛋白(CRP)水平更低(1.8 vs. 3.4 mg/L,p = 0.008)、淋巴细胞和白细胞计数更小。在外部试验数据集中,纳入了80例患者,其中37例(46.3%)确定为FEB-IR。在数据筛选单元2中选择了29个可用变量中的5个作为最佳预测组合:年龄、BMI、TG、sUA和CRP水平。然后在模型训练单元中采用5个机器学习模型随机森林分类器、logistic回归、线性SVC、SGD分类器和XGBoost预测FEB治疗反应。每个模型的性能及其对外部试验数据集的比较后确定,SGD分类器在内部验证数据集中表现最好,AUC为0.873[95%CI(0.763,0.942)]。结果在外部试验集中重现良好,AUC为0.706[95%CI(0.636,0.727)]。鉴于SGD模型的AUC高于其他模型,因此进一步评价为我们的最佳模型。在确定出最佳模型后,疗效预测单元4中,使用最佳模型SGD模型确定了试验队列中未达到sUA目标的应答者中70.3%(灵敏度,95%CI:65.9%,88.2%)的应答不足。该模型预测IR的准确度为66.3%(95%CI:60.9%,70.1%)。
如图4所示,本说明书一个或多个实施例中提供了一种非布司他的疗效预测设备内部结构示意图。由图4可知,一种非布司他的疗效预测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:执行上述系统任一执行的过程。
如图5所示,本说明书实施例提供了一种非易失性存储介质的内部结构示意图。由图5可知,一种非易失性存储介质,存储有计算机可执行指令501,所述计算机可执行指令501能够执行上述系统任一执行的过程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种非布司他的疗效预测系统,其特征在于,所述系统包括:
数据采集单元,用于获取训练集与外部测试集中的病历数据;其中,所述病历数据包括:通过相关痛风检测获取的患者临床参数、以及包含痛风石数据、双轨征数据、骨侵蚀数据的放射学数据;
数据筛选单元,用于通过最小绝对收缩算子模型对所述训练集的病历数据进行特征选择,获得关键特征数据;
模型训练单元,用于将所述关键特征数据输入预置不同类型的机器学习模型进行训练,并基于所述外部测试集中的关键特征数据对各机器学习模型进行性能评价,获得最佳模型;
疗效预测单元,用于基于所述最佳模型与所述模型训练单元训练过程中获得的学习参数,计算当前非布司他治疗患者的血清尿酸达标率。
2.根据权利要求1所述的一种非布司他的疗效预测系统,其特征在于,所述数据采集单元,具体用于:
基于预置采集周期与预设随访时间对观察性队与临床试验队列中的患者进行数据采集;其中,所述观察性队列对应于接受非布司他治疗的患者,所述临床试验队列对应于接受非布司他治疗的患者;
基于目标预置血清尿酸与病历数据中各时间点的血清尿酸,确定各病历数据的非布司他疗效标签,以基于所述非布司他疗效标签对各病历数据进行标记;其中,所述非布司他疗效标签包括:未达标、部分缓解、完全缓解;
基于所述训练集与外部测试集的样本比,确定训练集的第一病历数据量与外部测试集的第二病历数据量;
基于所述第一病历数据量采集观察性队与临床试验队列中的病历数据,作为训练集的病历数据,并基于第二病历数据量采集临床试验队列中的病历数据,作为外部测试集中的病历数据;其中,所述训练集与外部测试集中的病历数据对应于不同的非布司他治疗患者。
3.根据权利要求2所述的一种非布司他的疗效预测系统,其特征在于,所述基于目标预置血清尿酸与病历数据中各时间点的血清尿酸,确定各病历数据的非布司他疗效标签,具体包括:
获取病历数据中各时间点的血清尿酸,若确定各时间点的血清尿酸均大于所述目标预置血清尿酸,则确定所述非布司他疗效标签为未达标;其中,目标预置血清尿酸为sUA<6mg/dL;
基于预设随访时间对病历数据中的随访血清尿酸进行提取,若确定所述随访血清尿酸小于所述目标预置血清尿酸,则确定所述非布司他疗效标签为部分缓解;
根据预设治疗终点时间对病历数据中的终点血清尿酸进行提取,若确定所述终点血清尿酸小于所述目标预置血清尿酸,则确定所述非布司他疗效标签为完全缓解。
4.根据权利要求1所述的一种非布司他的疗效预测系统,其特征在于,所述数据筛选单元,具体用于:
获取所述训练集中的各病历数据内的变量数据,以对所述变量数据进行最小最大归一化处理,获得归一化处理后的变量数据;
基于内部测试集对所述训练集归一化处理后的变量数据进行十折交叉验证,获得各个归一化处理后的变量数据的差错率;其中,所述内部测试集基于观察性队中采集的病历数据构成;
使用R包glmne对各所述变量数据的差错率,进行最小绝对收缩选择算子回归,以提取十折交叉验证中误差最小的数据作为关键特征数据。
5.根据权利要求1所述的一种非布司他的疗效预测系统,其特征在于,所述系统还包括:缺失数据补偿单元,用于:
获取训练集与外部测试集中存在缺失数据的待补偿病历数据,以基于所述缺失数据占所述待补偿病历数据的比例,确定所述待补偿病历数据的数据缺失占比;
若确定所述数据缺失占比小于预设缺失值,则基于欧氏距离确定所述待补偿病历数据所在集合中的各病历数据之间的相似性;
基于所述相似性确定预设数量的与所述待补偿病历数据相对应的邻居病历数据,基于所述邻居病历数据的均值估计所述待补偿病历数据的缺失值,基于所述缺失值对所述训练集与所述外部测试集的待补偿病历数据进行插补。
6.根据权利要求2所述的一种非布司他的疗效预测系统,其特征在于,所述模型训练单元,具体用于:
获取不同类型的机器学习模型,以将所述关键特征数据进行交叉校验后输入各所述机器学习模型进行训练,获得各所述机器学习模型的输出;其中,所述机器学习模型包括:逻辑回归、随机森林、随机梯度下降分类器、极端梯度增强、线性支持向量分类器;
基于所述外部测试集中接受非布司他治疗的病历对比,确定所述外部测试集的非布司他疗效预测结果;
基于所述外部测试集的非布司他疗效预测结果评价各所述机器学习模型的输出,确定各所述机器学习模型的性能评价值,以基于所述性能评价值获得最佳模型。
7.根据权利要求6所述的一种非布司他的疗效预测系统,其特征在于,所述系统还包括:指标评价单元,用于:
使用R包rms绘制各所述机器学习模型的校准曲线,以基于所述校准曲线确定各所述机器学习模型的校准度;
使用R包rmda绘制各所述机器学习模型的决策曲线,以基于所述决策曲线评价各所述机器学习模型的实用价值;
基于R包circlize对各所述机器学习模型的校准度、实用价值与所述性能评价值之间的相关性进行分析,以获得各所述机器学习模型的综合评价。
8.根据权利要求1所述的一种非布司他的疗效预测系统,其特征在于,所述疗效预测单元,具体用于:
根据所述最佳模型的输出结果与所述模型训练单元训练过程中获得的学习参数,确定所述非布司他疗效所对应的线性函数;其中,所述学习参数包括:初始线性函数、截距、逻辑回归方程;
根据所述非布司他疗效所对应的线性函数确定预设治疗时间内痛风患者的血清尿酸达标率;
根据所述血清尿酸达标率与预设目标达标率,预测所述非布司他在所述预设治疗时间内的疗效。
9.一种非布司他的疗效预测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:执行上述权利要求1-8中所述系统执行的任一过程。
10.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行上述权利要求1-8中所述系统执行的任一过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473797.2A CN117238522A (zh) | 2023-11-08 | 2023-11-08 | 一种非布司他的疗效预测系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473797.2A CN117238522A (zh) | 2023-11-08 | 2023-11-08 | 一种非布司他的疗效预测系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117238522A true CN117238522A (zh) | 2023-12-15 |
Family
ID=89093076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473797.2A Pending CN117238522A (zh) | 2023-11-08 | 2023-11-08 | 一种非布司他的疗效预测系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238522A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011124385A1 (en) * | 2010-04-07 | 2011-10-13 | Novadiscovery | Computer based system for predicting treatment outcomes |
CN113470816A (zh) * | 2021-06-30 | 2021-10-01 | 中国人民解放军总医院第一医学中心 | 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置 |
CN114464310A (zh) * | 2020-11-10 | 2022-05-10 | 查理高特(青岛)健康科技有限公司 | 一种用于提高痛风患者分型判断准确率的方法 |
CN115762764A (zh) * | 2022-11-25 | 2023-03-07 | 中山大学附属第三医院 | 一种hiv阴性隐球菌脑膜炎治疗结局预测模型及其构建方法 |
-
2023
- 2023-11-08 CN CN202311473797.2A patent/CN117238522A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011124385A1 (en) * | 2010-04-07 | 2011-10-13 | Novadiscovery | Computer based system for predicting treatment outcomes |
CN114464310A (zh) * | 2020-11-10 | 2022-05-10 | 查理高特(青岛)健康科技有限公司 | 一种用于提高痛风患者分型判断准确率的方法 |
CN113470816A (zh) * | 2021-06-30 | 2021-10-01 | 中国人民解放军总医院第一医学中心 | 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置 |
CN115762764A (zh) * | 2022-11-25 | 2023-03-07 | 中山大学附属第三医院 | 一种hiv阴性隐球菌脑膜炎治疗结局预测模型及其构建方法 |
Non-Patent Citations (3)
Title |
---|
李治纲等: "不同剂量非布司他治疗痛风伴高尿酸血症的疗效观察及影响因素分析", 《中国医院用药评价与分析》, vol. 23, no. 5, pages 539 - 542 * |
胡学强等: "《多发性硬化诊断和治疗中国专家共识实践手册》", 31 December 2021, pages: 80 * |
谢梁等: "《数据科学工程实践用户行为分析与建模、A/B试验、SQLFlow》", 31 July 2021, pages: 235 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065171B (zh) | 基于集成学习的川崎病风险评估模型的构建方法及系统 | |
CN109273093B (zh) | 一种川崎病风险评估模型的构建方法及构建系统 | |
CN109243604B (zh) | 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统 | |
CN109215781B (zh) | 一种基于logistic算法的川崎病风险评估模型的构建方法及构建系统 | |
CN115240803A (zh) | 模型训练方法、并发症预测方法及系统、设备和介质 | |
Yun et al. | Prediction of critical care outcome for adult patients presenting to emergency department using initial triage information: an XGBoost algorithm analysis | |
CN113066574A (zh) | 基于神经网络的动脉瘤破裂预测方法、装置及存储介质 | |
Khanna et al. | Deep learning based computer-aided automatic prediction and grading system for diabetic retinopathy | |
CN113128654B (zh) | 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 | |
CN116913551A (zh) | 一种预测抗结核药物性肝损伤的系统及方法 | |
CN117238522A (zh) | 一种非布司他的疗效预测系统、设备及介质 | |
CN112669929B (zh) | 克罗恩病英夫利昔单抗药效预测方法及终端设备 | |
Suneetha et al. | Fine tuning bert based approach for cardiovascular disease diagnosis | |
CN114141360A (zh) | 基于惩罚cox回归的乳腺癌预测方法 | |
Umut et al. | Prediction of sepsis disease by Artificial Neural Networks | |
Kavya et al. | Heart Disease Prediction Using Logistic Regression | |
TW202143248A (zh) | 生醫資料預測風險系統與方法 | |
Nandhini et al. | Federated learning based prediction of chronic kidney diseases | |
Abreu et al. | P157 Patient-reported disease activity in a large sample of ulcerative colitis patients using social media-delivered questionnaires | |
Lim et al. | Machine learning classification of polycystic ovary syndrome based on radial pulse wave analysis | |
CN117672495B (zh) | 基于人工智能的房颤合并冠心病患者远期死亡率预测方法 | |
VARATHARAJAN | AN EFFICIENT EARLY DIAGNOSIS FOR DIABETIC RETINOPATHY USING QUICK CONVOLUTIONAL DIAGNOSIS | |
US11925474B2 (en) | Methods and systems for patient baseline estimation | |
Ashcroft | Does machine learning improve the accuracy of clinical risk predictions? An exemplar examining risk of cardiovascular disease | |
Bahuguna et al. | Statistical Analysis and Prediction of Heart Disease Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |