CN117235555A - 一种基于shap特征聚类技术的脓毒症分型方法及系统 - Google Patents

一种基于shap特征聚类技术的脓毒症分型方法及系统 Download PDF

Info

Publication number
CN117235555A
CN117235555A CN202311348170.4A CN202311348170A CN117235555A CN 117235555 A CN117235555 A CN 117235555A CN 202311348170 A CN202311348170 A CN 202311348170A CN 117235555 A CN117235555 A CN 117235555A
Authority
CN
China
Prior art keywords
clustering
sepsis
value
data
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311348170.4A
Other languages
English (en)
Other versions
CN117235555B (zh
Inventor
吴涛
王蕾
王大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Healsci Chuanglian Health Technology Co ltd
Original Assignee
Beijing Healsci Chuanglian Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Healsci Chuanglian Health Technology Co ltd filed Critical Beijing Healsci Chuanglian Health Technology Co ltd
Priority to CN202311348170.4A priority Critical patent/CN117235555B/zh
Publication of CN117235555A publication Critical patent/CN117235555A/zh
Application granted granted Critical
Publication of CN117235555B publication Critical patent/CN117235555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于SHAP特征聚类技术的脓毒症分型方法及系统,包括步骤S1:采集样本的特征数据;步骤S2:基于脓毒症预测模型获取每个样本的预测结果,计算每个预测结果下、样本中各个特征数据的SHAP值;步骤S3:确定目标聚类数量;步骤S4:将位于同一第二数据组中样本特征数据的SHAP值输入至聚类模型中,获得每个第二数据组的第一聚类结果,对第一聚类结果中的样本再次进行聚类,获得第二聚类结果,同一第二聚类结果中的样本包括相同的脓毒症类型;步骤S5:基于第一聚类结果和第二聚类结果生成第一贡献度和第二贡献图。本发明所采用的聚类方式消除了不同特征数据之间数量级的差异,从而获得更好的分型结果,便于后续的分析。

Description

一种基于SHAP特征聚类技术的脓毒症分型方法及系统
技术领域
本发明属于机器学习技术领域,具体涉及一种基于SHAP特征聚类技术的脓毒症分型方法及系统。
背景技术
脓毒症是一种严重的感染性疾病,通常是由细菌或其他微生物引起的。当人体免疫系统无法有效地对抗感染时,就会发生脓毒症。尽管实施积极地治疗,发病率和病死率仍较高,如果在患病前或患病初期确认临床表型,对脓毒症患者早期治疗干预更有利,当前对于脓毒症表型的建立方法研究较少,一般是通过聚类找出相同表型的患者,然而,表型的各种原始特征值具有不同的数据尺度,将其直接输入至聚类模型中的聚类效果不佳。
另外,当前还是通过建立脓毒症预测模型,通过收集患者的实际表型数据来对其未来某个时间点发生脓毒症的概率进行预测,如中国专利申请“CN115049069A”公开了一种可视化交互式的脓毒症早期智能预警方法,该方法首先建立病人数据库,然后与数据库进行交互,完成病人临床电子病历数据的获取,构建以小时为单位步长的患者表格化时间序列,提取出病人信息采集中反映测量频率、测量时间间隔等信息的特征;最后基于LightGBM等算法完成模型的训练及部署,并搭建临床可解释、可视化、可交互界面。
然而,如上述专利所述,在获得特征的SHAP值后,只能获得单个实例下、特征对预测结果的贡献度,因此获得可视化结果较为分散,后续还需要通过人工进行分类特征之间的关系、特征与患病之间的关系,如此则还会付出较大的劳动力。
发明内容
为解决上述问题,本发明提供了一种基于SHAP特征聚类技术的脓毒症分型方法及系统,以解决现有技术中的问题。
为了达到上述的发明目的,本发明提出一种基于SHAP特征聚类技术的脓毒症分型方法,包括:
步骤S1:获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的所述特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;
步骤S2:基于所述基础时间点为所述样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括所述未患病标签所述样本的所述特征数据输入至脓毒症预测模型中,获得每个所述样本的预测结果,所述预测结果包括脓毒症类型和发病概率,计算每个所述预测结果下、所述样本中各个所述特征数据的SHAP值;
步骤S3:基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定所述目标聚类数量;
步骤S4:建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;
步骤S5:基于所述第一聚类结果和所述第二聚类结果生成第一贡献度和第二贡献图。
进一步的,所述步骤S5中,基于以下步骤生成所述第一贡献图:
将所述第一聚类结果依次定义为表型1~N,生成第一表格,所述第一表格包括表型1~N的第一频率、第二频率、第三频率和第四频率,所述第一频率为脓毒症类型中各个表型的出现频率,所述第二频率为同一表型在所有脓毒症类型中的合计出现频率,所述第三频率为不同表型在相同脓毒症类型下的合计出现频率,所述第四频率为所有表型的合计出现频率,设置第一阈值,将所述第二频率小于所述第一阈值的表型从所述第一表格中删除,获得第二表格;
基于第一公式计算表型n的统计值statn,所述第一公式为:其中,Num1n,p为表型n在第p个脓毒症类型下的所述第一频率,Num2n为表型n的所述第二频率,Num3p为第p个脓毒症类型下的所述第三频率,Num4为所述第四频率,1≤n≤N,P为脓毒症类型的总数量,基于所述统计值由大至小对所述第二表格中的表型重新进行排序,获得第三表格,设置第二阈值,将所述第三表格中位置序号小于所述第二阈值的表型删除,获得第四表格;
基于第二公式计算所述第四表格中,表型n与第p个脓毒症类型的匹配值fitn,p,所述第二公式为:其中,δ和ε分别为预设的第一数值和第二数值,基于所述匹配值生成与每个表型对应的所述第一贡献图,所述第一贡献图用于显示表型与脓毒症类型的所述匹配值。
进一步的,所述步骤S5中,基于以下步骤生成所述第二贡献图:
计算同一所述第二聚类结果中、每个所述特征数据的平均值,以及所述样本发病概率的平均值,基于第三公式计算第i个所述特征数据的代表比率Avei,所述第三公式为:其中,xi为第i个所述特征数据的平均值,I为所述特征数据的数量,η为所述样本发病概率的平均值,以时间为横轴、发病概率为纵轴建立坐标系,基于所述样本发病概率的平均值以及所述特征数据的所述代表比率绘制生成所述第二贡献图。
进一步的,在生成所述第一贡献图后,基于以下步骤生成关联特征:
基于第四公式计算表型n中、第m个所述第二聚类结果第k个所述特征数据与第p个脓毒症类型之间的贡献值Supm,k,所述第四公式为:Supm,k=λm,k·SHAPm,k·fitn,p,其中,λm,k为第m个所述第二聚类结果第k个所述特征数据的平均值,SHAPm,k为第m个所述第二聚类结果第k个所述特征数据SHAP值的平均值,计算不同表型之间、相同脓毒症类型所述特征数据所述贡献值的差值,设定第三阈值,将差值小于所述第三阈值的所述特征数据合并为特征组合,统计各个所述特征组合的出现次数,若存在所述特征组合的出现次数大于第四阈值,则将所述特征组合包括的特征设置为所述关联特征。
进一步的,在生成所述第一贡献图后,设置基准数值,抽取所述基准数值的表型,基于第五公式计算抽取的表型向第p个所述脓毒症类型发展的趋势值trep,所述第五公式为:其中,G为所述基准数值,计算完成后,计算最大数值和最小数值的所述趋势值的差值,设置第五阈值,若该差值大于所述第五阈值,则定义最大数值所述趋势值对应的脓毒症类型为趋势脓毒症。
本发明还提供了一种基于SHAP特征聚类技术的脓毒症分型系统,该系统用于实现上述所述的一种基于SHAP特征聚类技术的脓毒症分型方法,该系统包括:
预处理模块,所述预处理模块用于获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的所述特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;
预测模块,所述预测模块内建立有脓毒症预测模型,基于所述基础时间点为所述样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括所述未患病标签所述样本的所述特征数据输入至脓毒症预测模型中,获得每个所述样本的预测结果,所述预测结果包括脓毒症类型和发病概率,所述预测模块还计算每个所述预测结果下、所述样本中各个所述特征数据的SHAP值;
第一聚类模块,所述第一聚类模块基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定所述目标聚类数量;
第二聚类模块,建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;
图形生成模块,基于所述第一聚类结果和所述第二聚类结果生成第一贡献度和第二贡献图。
与现有技术相比,本发明的有益效果至少如下所述:
本发明首先收集各个时间点的特征数据,并对其进行归类、过滤和筛选,从而建立针对不同时间点的数据集;之后将每个数据集内的特征数据依次输入至训练好的脓毒症预测模型中,从而获得到每个样本的的脓毒症类型和发病概率,之后以预测结果为基础,获得模型在预测过程中,针对每个特征的SHAP值,最后以特征的SHAP值为基础对样本进行聚类,从而将SHAP值接近的样本聚类在一个簇内,相比于传统的聚类方式,本发明所采用的聚类方式消除了不同特征数据之间数量级的差异,从而获得更好的分型结果,便于后续的分析。
本发明在获得第一聚类结果后,还对第一聚类结果再次进行聚类,获得第二聚类结果,如此可以将预测相同脓毒症类型的样本划分至一个簇内,之后基于第一聚类结果和第二聚类结果生成第一贡献图和第二贡献图,通过第一贡献图使得研究人员可以更为直观的了解到在各个基础时间点内,各个表型的发展趋势,从而为临床诊断提供决策建议,通过第二贡献图可以展现每个表型内不同基础时间点特征的变化情况,从而便于研究人员进行更为细致的分析。
附图说明
图1为本发明基于SHAP特征聚类技术的脓毒症分型方法的步骤流程图;
图2为本发明拒聚类结果的原理示意图;
图3为本发明第一表格的示意图;
图4为本发明的第一贡献图;
图5为本发明的第二贡献图;
图6为本发明基于SHAP特征聚类技术的脓毒症分型系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种基于SHAP特征聚类技术的脓毒症分型方法,包括:
步骤S1:获取监测时长,监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在监测时长内每两小时收集一次数据,定义在监测时长内收集的时间点为基础时间点,将相同基础时间点的特征数据划分至同一第一数据组内,对每个第一数据组进行一次处理和二次处理,获得第二数据组,一次处理用于过滤特征数据,二次处理用于补偿缺失的特征数据。
具体的,首先收集历史病例作为样本,历史病例包括患者的生理数据和脓毒症类型,监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在监测时长内每两小时收集一次数据,也即每两小时聚合一次数据;之后确定要收集的特征,并采集上述基础时间点每个样本各个特征的数值,特征数据包括身高、呼吸频率、体温等,然后将相同时间点样本特征数据划分至同一个第一数据组,如第一数据组1包括样本1~3在发病前8小时的特征数据,第一数据组2包括样本1~3在发病前6小时的特征数据,之后对各个第一数据组内的数据进行过滤和补偿,过滤是指过滤掉不符号条件的样本特征数值,例如特征的数值与常规数值不符,使得特征数值不具备参考性;对数据补偿是指填充缺失的数据,例如根据历史记录采用中值填充的方法,具体补偿方法为现有技术,此处不再赘述。在获得第二数据组后,对各个特征数值进行归一化处理,以平衡特征数据之间数量级的差异。
步骤S2:基于基础时间点为样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括未患病标签样本的特征数据输入至脓毒症预测模型中,获得每个样本的预测结果,预测结果包括脓毒症类型和发病概率,计算每个预测结果下、样本中各个特征数据的SHAP值。
具体的,在收集样本、并且确定基础时间点后,确定样本在该基础时间点是否已经发病,若已经发病,则为该样本标注患病标签,将患病概率设置为空,这里将患病概率设置为空的意义在于,若将患病概率设置为0,容易和不患病且病情很轻的患者混淆;若还未发病,则为该样本标注未患病标签,将未患病标签样本的特征数据输入至脓毒症模型中,从而获得其未来的发病概率。本实施例的脓毒症模型基于LightGBM建立,通过将归一化后的特征数值输入至基于LightGBM算法建立的脓毒症预测模型中,模型输出在未来某个时间点患者脓毒症类型和发病几率,本实施将脓毒症类型划分为脓毒症A、脓毒症B和脓毒症C,在其它实施例中,还可根据实际情况将脓毒症划分为不同的类型,而基于LightGBM算法建立的脓毒症预测模型,以及获取每个样本各个特征的SHAP值均为本领域技术人员所熟知的,此处不再展开描述。
步骤S3:基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定目标聚类数量。
在本实施中,第一法则、第二法则和第三法则分别为肘部法,轮廓系数法,一致性矩阵,根据这三种法则分别确定较为理想的聚类数目,聚类数目即为要将样本划分为几种表型,若三种法则获得的聚类数目均相同,则直接将获得的聚类数量设置为目标聚类数量,若不同,则基于投票法,将其中占据较多的聚类数量设置为目标聚类数量,例如第一聚类数量和第二聚类数量为5,第三聚类数量为4,则将5设置为目标聚类数量。
步骤S4:建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型。
基于K-means算法建立聚类模型,将目标聚类数量设置为聚类模型要聚类的数量,另外,本实施例中还设置了聚类时刻,聚类时刻可以为患者患病后第一天、死亡前一天或者其他时间长度,通过设置聚类时刻对第二数据组各个样本进行筛选,过滤掉位于聚类时刻之外的基础时间点,如此可以过滤掉一进入ICU即患病(该类患者无法计算SHAP值)以及整个过程中从未诊断为SEPSIS的患者。之后将第二数据组各个样本特征的SHAP值输入至聚类模型中,从而获得针对每个基础时间点的多个第一聚类结果,并且在聚类过程中,对数据进行降维,从而将聚类结果投影至二维空间,且降维过程中,通过调整降维参数,以提升不同聚类结果在二维空间内的可分性。也即是不同簇之间具有较远的间距。如此通过SHAP值作为输入,消除了特征数值之间数量级的差异,此时位于同一聚类结果中各个特征的特征数值可能不同,但其SHAP值接近,也就表明各个特征的贡献度接近,如此就可以获得更好的分型结果,同时也便于后续进行分析。之后再对第一聚类结果再次进行聚类,从而将相同脓毒症类型的样本划分至同一类别中,获得第二聚类结果,如图2所示,为表型1、表型2和表型5在患病前8小时的第一聚类结果,在表型1的聚类结果中包括了第二聚类结果A、B、C,也即第二聚类结果A的预测结果为发生脓毒症A,第二聚类结果B的预测结果为发生脓毒症B,其他表型的聚类结果未在图中展示。
步骤S5:基于第一聚类结果和第二聚类结果生成第一贡献度和第二贡献图。
第一贡献图为各个表型(即第一聚类结果)偏向生成不同脓毒症类型的趋势,因此生成第一贡献图使得研究人员可以更为直观的了解到在各个基础时间点内,各个表型的发展趋势,从而为临床诊断提供决策建议;第二贡献图包括同一聚类结果内,SHAP值随时间的变化情况,通过第二贡献图可以展现每个表型内不同基础时间点特征的变化情况,从而便于研究人员进行更为细致的分析。
本发明首先收集各个时间点的特征数据,并对其进行归类、过滤和筛选,从而建立针对不同时间点的数据集;之后将每个数据集内的特征数据依次输入至训练好的脓毒症预测模型中,从而获得到每个样本的的脓毒症类型和发病概率,之后以预测结果为基础,获得模型在预测过程中,针对每个特征的SHAP值,最后以特征的SHAP值为基础对样本进行聚类,从而将SHAP值接近的样本聚类在一个簇内,相比于传统的聚类方式,本发明所采用的聚类方式消除了不同特征数据之间数量级的差异,从而获得更好的分型结果,便于后续的分析。
本发明在获得第一聚类结果后,还对第一聚类结果再次进行聚类,获得第二聚类结果,如此可以将预测相同脓毒症类型的样本划分至一个簇内,之后基于第一聚类结果和第二聚类结果生成第一贡献图和第二贡献图,通过第一贡献图使得研究人员可以更为直观的了解到在各个基础时间点内,各个表型的发展趋势,从而为临床诊断提供决策建议,通过第二贡献图可以展现每个表型内不同基础时间点特征的变化情况,从而便于研究人员进行更为细致的分析。
在本实施例中,基于以下步骤生成第一贡献图:
将第一聚类结果依次定义为表型1~N,生成第一表格,第一表格包括表型1~N的第一频率、第二频率、第三频率和第四频率,第一频率为脓毒症类型中各个表型的出现频率,第二频率为同一表型在所有脓毒症类型中的合计出现频率,第三频率为不同表型在相同脓毒症类型下的合计出现频率,第四频率为所有表型的合计出现频率,设置第一阈值,将第二频率小于第一阈值的表型从第一表格中删除,获得第二表格。
如图2和3所示,例如将五个第一聚类结果定义为表型1~5,之后结合第二聚类结果生成第一表格,表型1中存在7个样本,其中4个样本聚类为类型A,也即在脓毒症A中,表型1的出现频率为4,那么表型1的第一频率P1为4;之后,获取所有表型的第一频率,并基于第一频率计算出第二频率、第三频率和第四频率,具体参照图3,将同一行或同一列的第一频率相加,获得第二频率P2或第三频率P3,将所有第一频率相加,获得第四频率P4,之后,将第二频率小于第一阈值的表型从第一表格中删除,这里的第一阈值为5,将表型5从第一表格中删除,因为此种类型的样本较少,计算时不具备参考性。
基于第一公式计算表型n的统计值statn,第一公式为:其中,Num1n,p为表型n在第p个脓毒症类型下的第一频率,Num2n为表型n的第二频率,Num3p为第p个脓毒症类型下的第三频率,Num4为第四频率,1≤n≤N,P为脓毒症类型的总数量,基于统计值由大至小对第二表格中的表型重新进行排序,获得第三表格,设置第二阈值,将第三表格中位置序号小于第二阈值的表型删除,获得第四表格。
下面对第一公式的计算过程进行解释,例如要计算表型1的统计值,则计算过程为由图3可知,表型1在脓毒症A下的第一频率与第二频率的比值在0-1之间,且比值越大,表明表型1越倾向于向脓毒症A的发展;对于脓毒症A下第三频率和第四频率的比值,其代表整体表型倾向于向脓毒症A发展的趋势,该数值越大,表明整体上,各个表型均倾向于向脓毒症A发展,在此基础上,表型1在脓毒症A下的第一频率与第二频率的比值,与第三频率和第四频率比值之差越小,表明在整体上,表型1与脓毒症A的关联程度较弱,可以这样理解,所有表型均倾向于向脓毒症A发展,那么即便表型1倾向于向脓毒症A发展,由于整体具有向脓毒症A的发展趋势,其关联的可能性较小,但是假如表型1倾向于向脓毒症B发展,与整体趋势不同,此时就意味着表型1与脓毒症B关联性强;最后,通过计算每个脓毒症类型下的差值并相加,获得和越小,就表明表型与各个脓毒症的关联性都很小,那么排序后,此种表型的排序较为靠后,后续便会将其删除,通过此种方式可以将不具备突出性的表型删除,减少后续研究人员的负担。
基于第二公式计算第四表格中,表型n与第p个脓毒症类型的匹配值fitn,p,第二公式为:其中,δ和ε分别为预设的第一数值和第二数值,基于匹配值生成与每个表型对应的第一贡献图,第一贡献图用于显示表型与脓毒症类型的匹配值。
下面对第二公式的计算过程进行解释,例如要计算表型1与脓毒症A的匹配值,则计算过程为该公式的原理为,计算第二频率与第一频率的第一差值,第四频率与第三频率的第二差值,之后再计算第一差值和第二差值的比值,基于上述第一公式的原理,该比值代表表型1与脓毒症A不相关联的程度,也即第一差值和第二差值的比值越大,表型1余脓毒症A越不相关,在该比值的基础上进行对数运算,由对数的运算原理可知,在lgN中,在N小于1的情况下,N的数值越小,其获得的数值越大,那么比值越小,经过对数运算后所获得的数值越大,此时也就将表型1与脓毒症A的不相关数值转换为相关数值,也即为匹配值;这里第一数值和第二数值分别设置为0.3和4,,设置的目的是为了避免分子或分母出现0的情况,一方面避免计算错误,另一方面使得表型与每个脓毒症类型均有对应的匹配值;如图4所示,根据每个表型的计算结果生成第一贡献图,如在发病前8小时的基础时间点,表型1与脓毒症A、B、C的匹配值分别为0.91,0.74和0.79;这样生成的第二贡献图使得研究人员可以快速了解表型与脓毒症之间的关联程度,从而便于制定出合适的诊断策略。
在本实施例中,基于以下步骤生成第二贡献图:
计算同一第二聚类结果中、每个特征数据的平均值,以及样本发病概率的平均值,基于第三公式计算第i个特征数据的代表比率Avei,第三公式为:其中,xi为第i个特征数据的平均值,I为特征数据的数量,η为样本发病概率的平均值,以时间为横轴、发病概率为纵轴建立坐标系,基于样本发病概率的平均值以及特征数据的代表比率绘制生成第二贡献图。
例如在样本1~3三个特征数据1的SHAP值为0.1,0.12,0.11,则计算特征数据1的平均值为(0.1+0.12+0.11)/3=0.11,同理,以此方法计算不同特征数据的平均值,之后,将同一时间点的特征转化为贡献比例,例如计算后获得特征数据1~4的平均值均为0.1,那么转换后每个特征的代表比率为0.1/0.4=0.25。另外,如果特征的SHAP值为负值,则对应计算出的贡献比例也为负值,在第三公式中,将代表比率与对应的发病概率相乘,获得特征的贡献比率,例如发病概率为80%,代表比率为0.25,则贡献比率为80%*0.25=20%;如此生成的第二贡献图如图5所示,在图5中,每个条状图中以不同的颜色区分不同特征数据代表比率与发病概率的乘积,那通过此图,研究人员可以直观的获取到同一表型和脓毒症类型下、各个基础时间点不同特征对预测结果的贡献程度。
本实施例在生成第一贡献图后,基于以下步骤生成关联特征:
基于第四公式计算表型n中、第m个第二聚类结果第k个特征数据与第p个脓毒症类型之间的贡献值Supm,k,第四公式为:Supm,k=λm,k·SHAPm,k·fitn,p,其中,λm,k为第m个第二聚类结果第k个特征数据的平均值,SHAPm,k为第m个第二聚类结果第k个特征数据SHAP值的平均值,计算不同表型之间、相同脓毒症类型特征数据贡献值的差值,设定第三阈值,将差值小于第三阈值的特征数据合并为特征组合,统计各个特征组合的出现次数,若存在特征组合的出现次数大于第四阈值,则将特征组合包括的特征设置为关联特征。
例如表型1有第二聚类结果11、第二聚类结果12和第二聚类结果13,第二聚类结果11特征数据1的平均值为100,对应的SHAP平均值为0.1,那么第二聚类结果1中的特征1与脓毒症A之间的贡献值为100·0.1·0.91=9.1,重复此方法计算每个第二聚类结果中,各个特征与不同脓毒症类型的贡献值;之后,将位于不同表型内相同类型的第二聚类结果的贡献值相减,如表型2有有第二聚类结果21和第二聚类结果22,将第二聚类结果11中特征数据1和第二聚类结果21中特征数据1相减,可以获得贡献值的差值,若差值小于第三阈值,则保留该特征,之后再计算第二聚类结果11中特征数据2和第二聚类结果21中特征数据2的差值,若两者的差值小于第三阈值,则继续保留该特征,最后将保留的所有特征划分为组合特征,基于第一聚类结果11和第二聚类结果21生成的组合特征中包括了特征1和特征2,这里定义为组合特征1;当针对所有第二聚类结果处理完成后,获取相同组合特征的出现次数,如组合特征1出现了四次,之后将出现次数大于第四阈值的组合特征设置为关联特征。
通过该方法可以发现在不同表型下、针对相同脓毒症具有相同作用的多个特征组合,如此可以便于研究人员发现位于不同的表型下各个特征之间的关联关系,如特征1和特征2的组合在不同表型下均对脓毒症A的发生产生了促进效果。
生成第一贡献图后,设置基准数值,抽取基准数值的表型,基于第五公式计算抽取的表型向第p个脓毒症类型发展的趋势值trep,第五公式为:其中,G为基准数值,计算完成后,计算最大数值和最小数值的趋势值的差值,设置第五阈值,若该差值大于第五阈值,则定义最大数值趋势值对应的脓毒症类型为趋势脓毒症
例如基准数值为5,则抽取5个表型,将5个表型与脓毒症A的匹配值相加,获得向脓毒症A发展的第一趋势值,同理,将5个表型与脓毒症B的匹配值相加,获得向脓毒症B发展的第二趋势值,将5个表型与脓毒症C的匹配值相加,获得向脓毒症C发展的第三趋势值,若其中最大数值为第一趋势值,最小数值为第三趋势值,将第一趋势值减去第三趋势值,获得两者差值,差值大于第五阈值,表明上述5种脓毒症都倾向于向脓毒症A发展。如此研究人员就可以根据需要抽取指定的多个表型,并根据上述方法自动分析抽取表型的整体发展趋势。
如图6所示,本发明还提供了一种基于SHAP特征聚类技术的脓毒症分型系统,该系统用于实现上述的一种基于SHAP特征聚类技术的脓毒症分型方法,该系统包括:
预处理模块,所述预处理模块用于获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的所述特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;
预测模块,预测模块内建立有脓毒症预测模型,基于基础时间点为样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括未患病标签样本的特征数据输入至脓毒症预测模型中,获得每个样本的预测结果,预测结果包括脓毒症类型和发病概率,预测模块还计算每个预测结果下、样本中各个特征数据的SHAP值
第一聚类模块,第一聚类模块基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定目标聚类数量
第二聚类模块,建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;
图形生成模块,基于第一聚类结果和第二聚类结果生成第一贡献度和第二贡献图。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,包括:
步骤S1:获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的所述特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;
步骤S2:基于所述基础时间点为所述样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括所述未患病标签所述样本的所述特征数据输入至脓毒症预测模型中,获得每个所述样本的预测结果,所述预测结果包括脓毒症类型和发病概率,计算每个所述预测结果下、所述样本中各个所述特征数据的SHAP值;
步骤S3:基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定所述目标聚类数量;
步骤S4:建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;
步骤S5:基于所述第一聚类结果和所述第二聚类结果生成第一贡献度和第二贡献图。
2.根据权利要求1所述的一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,所述步骤S5中,基于以下步骤生成所述第一贡献图:
将所述第一聚类结果依次定义为表型1~N,生成第一表格,所述第一表格包括表型1~N的第一频率、第二频率、第三频率和第四频率,所述第一频率为脓毒症类型中各个表型的出现频率,所述第二频率为同一表型在所有脓毒症类型中的合计出现频率,所述第三频率为不同表型在相同脓毒症类型下的合计出现频率,所述第四频率为所有表型的合计出现频率,设置第一阈值,将所述第二频率小于所述第一阈值的表型从所述第一表格中删除,获得第二表格;
基于第一公式计算表型n的统计值statn,所述第一公式为:其中,Num1n,p为表型n在第p个脓毒症类型下的所述第一频率,Num2n为表型n的所述第二频率,Num3p为第p个脓毒症类型下的所述第三频率,Num4为所述第四频率,1≤n≤N,P为脓毒症类型的总数量,基于所述统计值由大至小对所述第二表格中的表型重新进行排序,获得第三表格,设置第二阈值,将所述第三表格中位置序号小于所述第二阈值的表型删除,获得第四表格;
基于第二公式计算所述第四表格中,表型n与第p个脓毒症类型的匹配值fitn,p,所述第二公式为:其中,δ和ε分别为预设的第一数值和第二数值,基于所述匹配值生成与每个表型对应的所述第一贡献图,所述第一贡献图用于显示表型与脓毒症类型的所述匹配值。
3.根据权利要求2所述的一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,所述步骤S5中,基于以下步骤生成所述第二贡献图:
计算同一所述第二聚类结果中、每个所述特征数据的平均值,以及所述样本发病概率的平均值,基于第三公式计算第i个所述特征数据的代表比率Avei,所述第三公式为:其中,xi为第i个所述特征数据的平均值,I为所述特征数据的数量,η为所述样本发病概率的平均值,以时间为横轴、发病概率为纵轴建立坐标系,基于所述样本发病概率的平均值以及所述特征数据的所述代表比率绘制生成所述第二贡献图。
4.根据权利要求3所述的一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,在生成所述第一贡献图后,基于以下步骤生成关联特征:
基于第四公式计算表型n中、第m个所述第二聚类结果第k个所述特征数据与第p个脓毒症类型之间的贡献值Supm,k,所述第四公式为:Supm,k=λm,k·SHAPm,k·fitn,p,其中,λm,k为第m个所述第二聚类结果第k个所述特征数据的平均值,SHAPm,k为第m个所述第二聚类结果第k个所述特征数据SHAP值的平均值,计算不同表型之间、相同脓毒症类型所述特征数据所述贡献值的差值,设定第三阈值,将差值小于所述第三阈值的所述特征数据合并为特征组合,统计各个所述特征组合的出现次数,若存在所述特征组合的出现次数大于第四阈值,则将所述特征组合包括的特征设置为所述关联特征。
5.根据权利要求2所述的一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,在生成所述第一贡献图后,设置基准数值,抽取所述基准数值的表型,基于第五公式计算抽取的表型向第p个所述脓毒症类型发展的趋势值trep,所述第五公式为:其中,G为所述基准数值,计算完成后,计算最大数值和最小数值的所述趋势值的差值,设置第五阈值,若该差值大于所述第五阈值,则定义最大数值所述趋势值对应的脓毒症类型为趋势脓毒症。
6.一种基于SHAP特征聚类技术的脓毒症分型系统,用于实现如权利要求1-5任一项所述的基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,包括:
预处理模块,所述预处理模块用于获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的所述特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;
预测模块,所述预测模块内建立有脓毒症预测模型,基于所述基础时间点为所述样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括所述未患病标签所述样本的所述特征数据输入至脓毒症预测模型中,获得每个所述样本的预测结果,所述预测结果包括脓毒症类型和发病概率,所述预测模块还计算每个所述预测结果下、所述样本中各个所述特征数据的SHAP值;
第一聚类模块,所述第一聚类模块基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定所述目标聚类数量;
第二聚类模块,建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;
图形生成模块,基于所述第一聚类结果和所述第二聚类结果生成第一贡献度和第二贡献图。
CN202311348170.4A 2023-10-17 2023-10-17 一种基于shap特征聚类技术的脓毒症分型方法及系统 Active CN117235555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311348170.4A CN117235555B (zh) 2023-10-17 2023-10-17 一种基于shap特征聚类技术的脓毒症分型方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311348170.4A CN117235555B (zh) 2023-10-17 2023-10-17 一种基于shap特征聚类技术的脓毒症分型方法及系统

Publications (2)

Publication Number Publication Date
CN117235555A true CN117235555A (zh) 2023-12-15
CN117235555B CN117235555B (zh) 2024-04-02

Family

ID=89086059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311348170.4A Active CN117235555B (zh) 2023-10-17 2023-10-17 一种基于shap特征聚类技术的脓毒症分型方法及系统

Country Status (1)

Country Link
CN (1) CN117235555B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858522A (zh) * 2018-12-29 2019-06-07 国网天津市电力公司电力科学研究院 一种基于数据挖掘的管理线损异常识别方法
CN113723618A (zh) * 2021-08-27 2021-11-30 南京星环智能科技有限公司 一种shap的优化方法、设备及介质
CN114038563A (zh) * 2021-11-11 2022-02-11 安徽医科大学第二附属医院 一种临床撤机预测系统及其方法
CN114913921A (zh) * 2022-05-07 2022-08-16 厦门大学 一种标志基因识别的系统和方法
CN115049069A (zh) * 2022-06-01 2022-09-13 东南大学 一种可视化交互式的脓毒症早期智能预警方法
CN116172572A (zh) * 2022-12-23 2023-05-30 山东大学 一种基于shap值加权和分段hdbscan的心拍聚类方法及系统
CN116738261A (zh) * 2023-05-05 2023-09-12 北京元年科技股份有限公司 基于聚类分箱的数值型特征离散化归因分析方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858522A (zh) * 2018-12-29 2019-06-07 国网天津市电力公司电力科学研究院 一种基于数据挖掘的管理线损异常识别方法
CN113723618A (zh) * 2021-08-27 2021-11-30 南京星环智能科技有限公司 一种shap的优化方法、设备及介质
CN114038563A (zh) * 2021-11-11 2022-02-11 安徽医科大学第二附属医院 一种临床撤机预测系统及其方法
CN114913921A (zh) * 2022-05-07 2022-08-16 厦门大学 一种标志基因识别的系统和方法
CN115049069A (zh) * 2022-06-01 2022-09-13 东南大学 一种可视化交互式的脓毒症早期智能预警方法
CN116172572A (zh) * 2022-12-23 2023-05-30 山东大学 一种基于shap值加权和分段hdbscan的心拍聚类方法及系统
CN116738261A (zh) * 2023-05-05 2023-09-12 北京元年科技股份有限公司 基于聚类分箱的数值型特征离散化归因分析方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SNEHASHIS CHAKRABORTY ET AL: "Unleashing the power of explainable AI: sepsis sentinel’s clinical assistant for early sepsis identification", 《MULTIMEDIA TOOLS AND APPLICATIONS》, 15 May 2023 (2023-05-15) *
XIAO LU ET AL: "Prediction and risk assessment of sepsis‑associated encephalopathy in ICU based on interpretable machine learning", 《SCIENTIFIC REPORTS》, 31 December 2022 (2022-12-31) *
ZHENGYU JIANG ET AL: "Interpretable machine-learning model for real-time, clustered risk factor analysis of sepsis and septic death in critical care", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》, 20 August 2023 (2023-08-20) *
朱玉莲: "基于特征贡献度的儿童脓毒症危险因素分析", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 January 2023 (2023-01-15) *

Also Published As

Publication number Publication date
CN117235555B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
Wang et al. A high-precision arrhythmia classification method based on dual fully connected neural network
Shi et al. Automated heartbeat classification based on deep neural network with multiple input layers
CN105512477B (zh) 基于降维组合分类算法非计划性再入院风险评估预测模型
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
GB2582124A (en) Analysis of cardiac data
US11580432B2 (en) System monitor and method of system monitoring to predict a future state of a system
CN107845424B (zh) 诊断信息处理分析的方法和系统
CN111387938A (zh) 一种基于特征重排一维卷积神经网络的病人心衰死亡风险预测系统
CN114707608B (zh) 医疗质控数据处理方法、装置、设备、介质及程序产品
Pal Identification of paddy leaf diseases using a supervised neural network
Mahmud et al. Sleep apnea event detection from sub-frame based feature variation in EEG signal using deep convolutional neural network
CN115336973A (zh) 基于自注意力机制和单导联心电信号的睡眠分期系统构建方法、及睡眠分期系统
CN111540467A (zh) 精神分裂症分类识别方法、运行控制装置及医疗设备
CN112951441B (zh) 基于多维度的监测预警方法、装置、设备及存储介质
CN117235555B (zh) 一种基于shap特征聚类技术的脓毒症分型方法及系统
Akbar et al. Comparison of Machine Learning Techniques for Heart Disease Diagnosis and Prediction
JP2024027086A (ja) 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム
Paul et al. Hybrid shallow and deep learned feature mixture model for arrhythmia classification
US20210298625A1 (en) System and method for detecting and predicting an occurrence of cardiac events from electrocardiograms
WO2019171015A1 (en) Method and apparatus for monitoring a human or animal subject
Berdaly et al. Comparative machine-learning approach: study for heart diseases
Islam et al. Predicting fetal condition from cardiotocography results using the random forest method
CN114366116A (zh) 一种基于Mask R-CNN网络及心电图的参数获取方法
Rajmohan et al. G-Sep: A Deep Learning Algorithm for Detection of Long-Term Sepsis Using Bidirectional Gated Recurrent Unit
CN117524464B (zh) 一种基于大数据的计算手术后目标血红蛋白的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant