CN113113131B - 死亡风险预测模型的生成方法、终端及计算机存储介质 - Google Patents
死亡风险预测模型的生成方法、终端及计算机存储介质 Download PDFInfo
- Publication number
- CN113113131B CN113113131B CN202110313916.2A CN202110313916A CN113113131B CN 113113131 B CN113113131 B CN 113113131B CN 202110313916 A CN202110313916 A CN 202110313916A CN 113113131 B CN113113131 B CN 113113131B
- Authority
- CN
- China
- Prior art keywords
- feature
- feature combination
- next generation
- combinations
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 19
- 230000003902 lesion Effects 0.000 claims abstract description 29
- 210000004351 coronary vessel Anatomy 0.000 claims abstract description 21
- 238000007637 random forest analysis Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000035772 mutation Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 6
- 238000007675 cardiac surgery Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013146 percutaneous coronary intervention Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- CVSVTCORWBXHQV-UHFFFAOYSA-N creatine Chemical compound NC(=[NH2+])N(C)CC([O-])=O CVSVTCORWBXHQV-UHFFFAOYSA-N 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 229960003624 creatine Drugs 0.000 description 1
- 239000006046 creatine Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000250 revascularization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 231100000216 vascular lesion Toxicity 0.000 description 1
- 230000002861 ventricular Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提出死亡预报模型的生成方法、设备、终端机计算机存储介质,方法包括:步骤1、基于冠脉三支病变数据确定临床参数;步骤2、生成初代的多个特征组合;步骤3、确定特征组合的适应度;步骤4、确定每个特征组合的概率;步骤5、选择进入到下一代的特征组合;步骤6、对进入到下一代的特征组合进行特征交叉和/或特征变异;步骤7、重复执行步骤3‑步骤6,直到迭代的次数达到预设次,并选择最终特征组合;步骤8、基于随机森林算法与最终特征组合建立基于冠脉三支病变人群的全因死亡风险预测模型。本方案基于更优的测试数据建立的全因死亡风险预测模型更精准,以此利于早期准确识别高危患者,且对精准化干预起到了很好的预警作用。
Description
技术领域
本发明涉及风险预测技术领域,特别涉及死亡风险预测模型的生成方法、终端及计算机存储介质。
背景技术
冠脉三支病变是一种严重的冠状动脉疾病,其特征是三支冠状动脉均明显狭窄,并有很大的死亡风险,社会危害极大,已有的治疗方案包括冠脉介入治疗和冠脉搭桥的方法,其可以改善冠脉三支病变患者的长期预后,但仍然有部分患者生存周期有限;如何能准确预测冠脉三支病变患者死亡风险有助于准确识别高危冠脉三支患者,并能够根据不同危险因素作精确干预,这对本病有重要的临床意义,目前,有一些方法来对本病的风险进行预测:
其中,EuroSCORE是1999年首次提出预测心脏手术患者死亡风险的方法,但该预测方法是将EuroSCORE用于预测心脏手术患者的死亡风险模型,其高估了心脏手术中的手术死亡风险,且EuroSCORE的模型只能用于预测心脏手术中的死亡风险,而不是针对独立疾病的死亡风险。
另外,2013年发布了SYNTAX score II(SYNTAX scoreⅡ用于预测冠脉三支病变患者的4年的死亡风险),其包含八个预测因子:分析SYNTAX score、年龄、肌酸清除率、左室射血分数(LVEF)、无保护的左主联合技术(ULMCA)释放、下肢血管病变、慢性阻塞性肺病(COPD)。SYNTAX score II显著预测了CABG患者与PCI患者4年死亡率的差异,但这种预测模型高估了经皮冠状动脉介入治疗组比冠状动脉搭桥组的死亡率,这种原因在一方面可能是在开发和验证人群中使用了不同的支架,因此使用不安全有效的支架建立的模型会高估接受更安全有效的冠状动脉支架治疗的患者的预后;另一方面,在较高的SYNTAX score II预测死亡率的五分位数中,PCI显示较低的完全血运重建,这可能与死亡率预测相混淆,由此,SYNTAX score II的辨别能力有限,无法更准确的预测死亡的风险。
由此可见,准确的预测冠脉三支病变患者的死亡风险目前是临床重大的挑战,只有准确预测死亡风险,才能有助于识别最高危的人群,做到有效预防。虽然目前存在一些方案,其目前的方案整体预测性能仍然不高,临床实际工作迫切要求提出更为精准的预测模型。
发明内容
有鉴于此,本发明提出了死亡预报模型的生成方法、设备、终端机计算机存储介质。通过本方案的方式对特征组合进行筛选,得到最优特征组合,并基于最优特征组合以及随机森林算法建立冠脉三支病变人群的全因死亡风险预测模型,由于得到了更优的测试数据,因此基于此建立的全因死亡风险预测模型能更精准地识别高危人群,以此利于早期准确识别高危患者,且对精准化干预起到了很好的预警作用。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种死亡风险预测模型的生成方法,其特征在于,包括:步骤1、获取冠脉三支病变数据,并基于所述冠脉三支病变数据确定多个临床参数;步骤2、基于多个所述临床参数生成初代的多个特征组合;其中,每个所述特征组合由相同数量的特征组成;每个所述特征对应一所述临床参数,且用于标识所对应的所述临床参数是否被选中;同一所述临床参数在不同的所述特征组合中对应的特征的位置一致;步骤3、确定每个所述特征组合的适应度;步骤4、基于所述适应度确定每个所述特征组合的概率;所述适应度越高,则所述概率越大;步骤5、基于所述概率选择进入到下一代的所述特征组合;步骤6、对进入到下一代的所述特征组合进行特征交叉和/或特征变异,以将进入到下一代的所述特征组合的数量扩充为初代的所述特征组合的数量;步骤7、重复执行步骤3-步骤6,直到迭代的次数达到预设次,并选择适应度最高的所述特征组合作为最终特征组合;步骤8、基于随机森林算法与所述最终特征组合建立基于冠脉三支病变人群的全因死亡风险预测模型。
在一个具体的实施例中,所述特征组合由二进制数字表述;每个所述二进制数字代表一个所述特征;当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数未被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数被选中;或当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数未被选中。在一个具体的实施例中,初代的所述特征组合的数量为20,迭代的次数为5000。
在一个具体的实施例中,所述适应度是基于以下公式来确定的:
其中,Merits为包含k个特征的特征组合的适应度、为特征-类平均相关性、为特征-特征平均相关性;r为Pearson相关系数。
在一个具体的实施例中,所述步骤4,具体包括:将所述适应度与预设值的乘积作为每个所述特征组合的概率;其中,所述预设值为正数。
在一个具体的实施例中,对进入到下一代的所述特征组合进行特征交叉,包括:选择进入到下一代的两个所述特征组合;将选择的两个所述特征组合中同一位置的特征进行交换,以生成新的所述特征组合。
在一个具体的实施例中,所述选择进入到下一代的两个所述特征组合,包括:从进入到下一代的所述特征组合中随机选择两个所述特征组合。
在一个具体的实施例中,对进入到下一代的所述特征组合进行特征变异,包括:按照一定的概率改变进入下一代的所述特征组合中位于预设位置的特征,以生成新的所述特征组合;所述改变包括:将所述特征从标识所对应的所述临床参数被选中变更为标识所对应的所述临床参数未被选中,或将所述特征从标识所对应的所述临床参数未被选中变更为标识所对应的所述临床参数被选中。
本发明还公开了一种终端,包括存储器以及处理器;其中,所述存储器中存储有代码,所述处理器在运行所述代码时执行上述的方法。
本发明还公开了一种计算机存储介质,所述计算机存储介质中存储有用于执行上述的方法的应用程序。
以此,与现有技术相比,本发明实施例具有以下效果:通过本方案的方式,以计算各个特征组合适应度的方式选择进入下一代的特征组合,且不断进行迭代的方式对特征组合进行筛选,以此得到最优特征组合,并基于最优特征组合以及随机森林算法建立冠脉三支病变人群的全因死亡风险预测模型,由于得到了更优的测试数据,因此基于此建立的全因死亡风险预测模型能更精准地识别高危人群,以此利于早期准确识别高危患者,且对精准化干预起到了很好的预警作用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种死亡预报模型的生成方法的流程示意图;
图2为本发明实施例提出的一种死亡预报模型的生成方法的框架流程示意图;
图3为本发明实施例提出的一种死亡预报模型的生成方法的性能测试示意图;
图4为本发明实施例提出的一种终端的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种死亡风险预测模型的生成方法,如图1所示,包括:
步骤1、获取冠脉三支病变数据,并基于所述冠脉三支病变数据确定多个临床参数;
具体的,从冠脉三支病变数据获取的临床参数可以如下表所示:
表1
具体的临床参数,以及临床参数的数量可以根据实际的情况进行灵活的选取,并不限于所列举的例子。例如可以从冠脉三支病变数据中抽取出80个临床参数。
步骤2、基于多个所述临床参数生成初代的多个特征组合;其中,每个所述特征组合由相同数量的特征组成;每个所述特征对应一所述临床参数,且用于标识所对应的所述临床参数是否被选中;同一所述临床参数在不同的所述特征组合中对应的特征的位置一致;
具体的,所述特征组合由二进制数字表述;每个所述二进制数字代表一个所述特征;当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数未被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数被选中;或当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数未被选中。
在一个实施例中,例如以选择80个临床参数为例,则特征组合例如可以为100…001、011…000、111…010、……、000…111等等,其中,每个特征组合的二进制数字有80位,每位数字也即每个特征对应一个临床参数,且还通过0以及1标识该临床参数是否被选中,其中,例如特征组合100…001的第一位数字为1,则代表第一位数字对应的临床参数被选中了,再例如特征组合011…000的第一为数字为0,则代表第一位数字对应的临床参数没有被选中。
此外,仍以80个临床参数为例来进行说明,在不同的特征组合中,同一临床参数的位置是相同的,例如第一位数字对应的临床参数为血小板,则在其他特征组合中,第一位数字对应的临床参数也为血小板。
在一个具体的场景中,特征组合的数量可以为例如20个,30个等等,每个特征组合中包含的特征数量是相同的,例如一个特征组合为100…001、011…000、111…010、……、000…111等等,均包括有80个特征(也即包括80位数字),每个数字对应一个特征。
在一个具体的实施例中,例如初代的所述特征组合的数量为20,迭代的次数为5000。经过试验,将特征组合的数量设置为20,且迭代的次数设置为5000,可以在效率以及特征选择的效果上取得平衡,利于快速获取到很准确的特征。
步骤3、确定每个所述特征组合的适应度;
具体的,在形成有每代的特征组合,包括初代的特征组合后,针对其中的每个特征组合,计算每个特征组合的适应度,具体的所述适应度是基于以下公式来确定的:
其中,Merits为包含k个特征的特征组合的适应度、为特征-类平均相关性、为特征-特征平均相关性;r为Pearson相关系数。
仍以上述为例来进行说明,例如
101…001适应度为0.5;011…000适应度为0.2;111…010适应度为0.4;……;000…111适应度为0.9等等,然后给予适应度计算进入下一代的概率,也即执行步骤4。
步骤4、基于所述适应度确定每个所述特征组合的概率;所述适应度越高,则所述概率越大;
具体的,所述步骤4,具体包括:将所述适应度与预设值的乘积作为每个所述特征组合的概率;其中,所述预设值为正数。按照第3步计算出的个体适应度,采用与适应度成正比的概率,将其复制到下一代特征组合中。适应度越大,该特征组合进入下一代中的概率也越大。
例如:
101…001适应度为0.5,进入下一代概率25%;
011…000适应度为0.2,进入下一代概率10%;
111…010适应度为0.4,进入下一代概率20%;
……
000…111适应度为0.9,进入下一代概率45%;
步骤5、基于所述概率选择进入到下一代的所述特征组合;
具体的,在步骤5中,基于概率选择进入到下一代的特征组合,例如初代的特征组合数量为20,而根据概率,进入到下一代的特征组合的数量例如为15个,少于初代的20个,在此情况下,执行步骤6。
步骤6、对进入到下一代的所述特征组合进行特征交叉和/或特征变异,以将进入到下一代的所述特征组合的数量扩充为初代的所述特征组合的数量;
由于步骤5中是按照步骤4中的概率选择的特征组件,假设初始的特征组合的数量为20个,而由步骤5得到的进入下一代的特征组合的数量例如为15个,而每次迭代的特征组合的数量都保持为一致,仍以初代的特征组合数量为20来进行说明,则后续每次进行迭代的特征组合的数量都需要保持为20个。因此需要补充特征组合的数量,具体的执行步骤6中,具体的,例如进行特征交叉、特征变异等方式来增加特征组合的数量,以保证进入下一代的特征组合的数量为初代的特征组合的数量。
具体对进入到下一代的所述特征组合进行特征交叉,包括:选择进入到下一代的两个所述特征组合;具体的,例如可以从进入到下一代的所述特征组合中随机选择两个所述特征组合。将选择的两个所述特征组合中同一位置的特征进行交换,以生成新的所述特征组合。
具体的,例如将两个特征组合:111…010和000…111两者的第1位数字进行交换,生成的两个新的特征组合,分别为011…010和100…111。
至于对进入到下一代的所述特征组合进行特征变异,包括:按照一定的概率改变进入下一代的所述特征组合中位于预设位置的特征,以生成新的所述特征组合;所述改变包括:将所述特征从标识所对应的所述临床参数被选中变更为标识所对应的所述临床参数未被选中,或将所述特征从标识所对应的所述临床参数未被选中变更为标识所对应的所述临床参数被选中。
例如特征组合011…010的第2位发生变异,变为新的特征组合001…010。
通过上述两种方式或者任意一种方式,保证进入下一代的特征组合的数量为初代的特征组合的数量。
步骤7、重复执行步骤3-步骤6,直到迭代的次数达到预设次,并选择适应度最高的所述特征组合作为最终特征组合;
具体的,例如预设次可以为5000,具体的预设次可以根据特征组合的数量以及其他实际情况进行灵活的调整。
步骤8、基于随机森林算法与所述最终特征组合建立基于冠脉三支病变人群的全因死亡风险预测模型。
在获取到最终特征组合后,结合随机森林算法建立基于冠脉三支病变人群的全因死亡风险预测模型,由于最终特征组合是以计算各个特征组合适应度的方式选择进入下一代的特征组合,且不断进行迭代的方式对特征组合进行筛选得到的,是最有代表性的特征,因此基于最终特征组合建立的全因死亡风险预测模型能更精准地识别高危人群,以此利于早期准确识别高危患者,且对精准化干预起到了很好的预警作用。
此外,随机森林是利用多个决策树对样本进行预测的一种算法。随机森林结合两种随机方法得到多个相关性较弱的决策树模型,一种随机方法是随机在原始训练数据中有放回的选取等量的数据作为训练样本,还一种随机方法是在建立决策树时,随机的从所有特征中选取一部分特征建立决策树。这两种随机使得各个决策树之间的相关性较小,可以进一步提高模型的准确性。在一个具体的实施例中,为了控制模型的过拟合程度,本方案中限定如下参数:所述决策树的深度不超过10、设置停止分裂的最小样本数不小于100。
此外,如图2所示,本方案还可以包括:从所述冠脉三支病变数据中选择测试数据;基于所述测试数据评估所述全因死亡风险预测模型的性能。具体的,性能的评估可以转换为二值分类问题,其中,正类表示死亡,负类表示存活。对于一个二值分类系统,其输出结果存在四种可能性,如表2所示。本身是正类又被正确地预测为正类的样本被称为正确的肯定,本身是负类又被正确地预测为负类的样本被称为正确的否定,本身是正类又被错误地预测为负类的样本被称为错误的否定,本身是负类又被错误地预测为正类的样本被称为错误的肯定。
表2:二值预报结果的四种可能结果
预测的正类 | 预测的负类 | |
真实的正类 | 正确的肯定(TP) | 错误的否定(FN) |
真实的负类 | 错误的肯定(FP) | 正确的否定(TN) |
基于表2所示的四类输出,定义如下两个指标刻画预报模型的性能:
TP rate=NTP/(NTP+NFN);其中,NTP是正确的肯定样本数,NFN是错误的否定样本数。而TN rate=NTN/(NTN+NFP);其中,NTN是正确的否定样本数,NFP是错误的肯定样本数;TPrate和TN rate分别用于评价死亡预测的准确程度和存活预测的准确程度。
由此,如图3所示,以(1-TN rate)为横坐标,TP rate为纵坐标,在模型取不同阈值的条件下,形成接受者操作特性(ROC)曲线,用以全面评价预测模型的性能,可见预测的准确率在特定阈值如0.81的情况下,有95%以上的准确率。
在一个具体的实施例中,所述测试数据在所述冠脉三支病变数据中的占比低于训练数据(也即建立全因死亡风险预测模型所用到的冠脉三支病变数据中的数据)在所述冠脉三支病变数据中的占比。具体的,例如80%的数据用来训练预测模型,20%的数据用来测试模型的性能。
实施例2
本发明实施例2还公开了一种终端,包括存储器以及处理器;其中,所述存储器中存储有代码,本发明实施例提供的终端设如图4所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、电脑等任意终端设备,以终端为电脑为例:
图4示出的是与本发明实施例提供的终端相关的电脑的部分结构的框图。参考图4,电脑包括:存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图4中示出的结构并不构成对电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对电脑的各个构成部件进行具体的介绍:
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行电脑的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电脑的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与电脑的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及电脑的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图4中,触控面板1531与显示面板1541是作为两个独立的部件来实现电脑的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现电脑的输入和输出功能。
音频电路1560、扬声器1561,传声器1562可提供用户与电脑机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;
WiFi属于短距离无线传输技术,电脑通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块1570,但是可以理解的是,其并不属于电脑的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是电脑的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行电脑的各种功能和处理数据,从而对电脑进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
电脑还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
在本发明实施例中,该终端所包括的处理器1580还具有执行以下步骤的功能:
步骤1、获取冠脉三支病变数据,并基于所述冠脉三支病变数据确定多个临床参数;
步骤2、基于多个所述临床参数生成初代的多个特征组合;其中,每个所述特征组合由相同数量的特征组成;每个所述特征对应一所述临床参数,且用于标识所对应的所述临床参数是否被选中;同一所述临床参数在不同的所述特征组合中对应的特征的位置一致;
步骤3、确定每个所述特征组合的适应度;
步骤4、基于所述适应度确定每个所述特征组合的概率;所述适应度越高,则所述概率越大;
步骤5、基于所述概率选择进入到下一代的所述特征组合;
步骤6、对进入到下一代的所述特征组合进行特征交叉和/或特征变异,以将进入到下一代的所述特征组合的数量扩充为初代的所述特征组合的数量;
步骤7、重复执行步骤3-步骤6,直到迭代的次数达到预设次,并选择适应度最高的所述特征组合作为最终特征组合;
步骤8、基于随机森林算法与所述最终特征组合建立基于冠脉三支病变人群的全因死亡风险预测模型。
在一个具体的实施例中,所述特征组合由二进制数字表述;每个所述二进制数字代表一个所述特征;
当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数未被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数被选中;或
当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数未被选中。
在一个具体的实施例中,初代的所述特征组合的数量为20,迭代的次数为5000。
在一个具体的实施例中,所述适应度是基于以下公式来确定的:
其中,Merits为包含k个特征的特征组合的适应度、为特征-类平均相关性、为特征-特征平均相关性;r为Pearson相关系数。
在一个具体的实施例中,所述步骤4,具体包括:
将所述适应度与预设值的乘积作为每个所述特征组合的概率;其中,所述预设值为正数。
在一个具体的实施例中,对进入到下一代的所述特征组合进行特征交叉,包括:
选择进入到下一代的两个所述特征组合;
将选择的两个所述特征组合中同一位置的特征进行交换,以生成新的所述特征组合。
在一个具体的实施例中,所述选择进入到下一代的两个所述特征组合,包括:
从进入到下一代的所述特征组合中随机选择两个所述特征组合。
在一个具体的实施例中,对进入到下一代的所述特征组合进行特征变异,包括:
按照一定的概率改变进入下一代的所述特征组合中位于预设位置的特征,以生成新的所述特征组合;
所述改变包括:将所述特征从标识所对应的所述临床参数被选中变更为标识所对应的所述临床参数未被选中,或将所述特征从标识所对应的所述临床参数未被选中变更为标识所对应的所述临床参数被选中。
实施例3
本发明实施例3还公开了一种计算机存储介质,所述计算机存储介质中存储有用于执行实施例1与实施例2中任意一项所述的方法的应用程序。
在具体的实施过程中,存储介质包括:通用串行总线闪存盘(Universal SerialBus flash drive,USB)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。
在本发明实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性或其它的形式。
在本发明实施例中的各功能单元可以集成在一个处理单元中,或者各个单元也可以均是独立的物理模块。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备,例如可以是个人计算机,服务器,或者网络设备等,或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (9)
1.一种死亡风险预测模型的生成方法,其特征在于,包括:
步骤1、获取冠脉三支病变数据,并基于所述冠脉三支病变数据确定多个临床参数;
步骤2、基于多个所述临床参数生成初代的多个特征组合;其中,每个所述特征组合由相同数量的特征组成;每个所述特征对应一所述临床参数,且用于标识所对应的所述临床参数是否被选中;同一所述临床参数在不同的所述特征组合中对应的特征的位置一致;
步骤3、确定每个所述特征组合的适应度;
步骤4、基于所述适应度确定每个所述特征组合的概率;所述适应度越高,则所述概率越大;
步骤5、基于所述概率选择进入到下一代的所述特征组合;
步骤6、对进入到下一代的所述特征组合进行特征交叉和/或特征变异,以将进入到下一代的所述特征组合的数量扩充为初代的所述特征组合的数量;所述特征交叉包括选择进入到下一代的两个所述特征组合,将选择的两个所述特征组合中同一位置的特征进行交换,以生成新的所述特征组合;所述特征变异包括按照一定的概率改变进入下一代的所述特征组合中位于预设位置的特征,以生成新的所述特征组合;
步骤7、重复执行步骤3-步骤6,直到迭代的次数达到预设次,并选择适应度最高的所述特征组合作为最终特征组合;
步骤8、基于随机森林算法与所述最终特征组合建立基于冠脉三支病变人群的全因死亡风险预测模型。
2.如权利要求1所述的方法,其特征在于,所述特征组合由二进制数字表述;每个所述二进制数字代表一个所述特征;
当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数未被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数被选中;或
当所述临床参数二进制数字为0时,表示所代表的所述特征对应的所述临床参数被选中,当所述临床参数二进制数字为1时,表示所代表的所述特征对应的所述临床参数未被选中。
3.如权利要求1所述的方法,其特征在于,初代的所述特征组合的数量为20,迭代的次数为5000。
4.如权利要求1所述的方法,其特征在于,所述适应度是基于以下公式来确定的:
其中,Merits为包含k个特征的特征组合的适应度、为特征-类平均相关性、/>为特征-特征平均相关性;r为Pearson相关系数。
5.如权利要求1所述的方法,其特征在于,所述步骤4,具体包括:
将所述适应度与预设值的乘积作为每个所述特征组合的概率;其中,所述预设值为正数。
6.如权利要求1所述的方法,其特征在于,所述选择进入到下一代的两个所述特征组合,包括:
从进入到下一代的所述特征组合中随机选择两个所述特征组合。
7.如权利要求1所述的方法,其特征在于,所述改变包括:将所述特征从标识所对应的所述临床参数被选中变更为标识所对应的所述临床参数未被选中,或将所述特征从标识所对应的所述临床参数未被选中变更为标识所对应的所述临床参数被选中。
8.一种终端,其特征在于,包括存储器以及处理器;其中,所述存储器中存储有代码,所述处理器在运行所述代码时执行权利要求1-7中任意一项所述的方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有用于执行权利要求1-7中任意一项所述的方法的应用程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313916.2A CN113113131B (zh) | 2021-03-24 | 2021-03-24 | 死亡风险预测模型的生成方法、终端及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313916.2A CN113113131B (zh) | 2021-03-24 | 2021-03-24 | 死亡风险预测模型的生成方法、终端及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113113131A CN113113131A (zh) | 2021-07-13 |
CN113113131B true CN113113131B (zh) | 2024-02-13 |
Family
ID=76711562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110313916.2A Active CN113113131B (zh) | 2021-03-24 | 2021-03-24 | 死亡风险预测模型的生成方法、终端及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113131B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376564A (zh) * | 2018-02-06 | 2018-08-07 | 天津艾登科技有限公司 | 基于随机森林算法的疾病诊断并发症识别方法及系统 |
CN109273093A (zh) * | 2018-09-14 | 2019-01-25 | 苏州贝斯派生物科技有限公司 | 一种川崎病风险评估模型的构建方法及构建系统 |
CN110349666A (zh) * | 2019-07-04 | 2019-10-18 | 南京工业大学 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
CN111178656A (zh) * | 2019-07-31 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 信用模型训练方法、信用评分方法、装置及电子设备 |
CN111242179A (zh) * | 2020-01-02 | 2020-06-05 | 西安交通大学 | 一种基于cfs_kl的新型贝叶斯加权方法 |
CN112270994A (zh) * | 2020-10-14 | 2021-01-26 | 中国医学科学院阜外医院 | 一种风险预测模型的构建方法、设备、终端及存储介质 |
CN112420196A (zh) * | 2020-11-20 | 2021-02-26 | 长沙市弘源心血管健康研究院 | 急性心肌梗死患者5年内生存率的预测方法和系统 |
CN112509701A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 急性冠脉综合征的风险预测方法及装置 |
CN112509695A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病患者的急性冠脉综合征预警方法及装置 |
CN112509704A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的急性冠脉综合征预警方法及装置 |
CN112509635A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033681A2 (en) * | 2012-08-31 | 2014-03-06 | Koninklijke Philips N.V. | Modeling techniques for predicting mortality in intensive care units |
-
2021
- 2021-03-24 CN CN202110313916.2A patent/CN113113131B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376564A (zh) * | 2018-02-06 | 2018-08-07 | 天津艾登科技有限公司 | 基于随机森林算法的疾病诊断并发症识别方法及系统 |
CN109273093A (zh) * | 2018-09-14 | 2019-01-25 | 苏州贝斯派生物科技有限公司 | 一种川崎病风险评估模型的构建方法及构建系统 |
CN110349666A (zh) * | 2019-07-04 | 2019-10-18 | 南京工业大学 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
CN111178656A (zh) * | 2019-07-31 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 信用模型训练方法、信用评分方法、装置及电子设备 |
CN111242179A (zh) * | 2020-01-02 | 2020-06-05 | 西安交通大学 | 一种基于cfs_kl的新型贝叶斯加权方法 |
CN112270994A (zh) * | 2020-10-14 | 2021-01-26 | 中国医学科学院阜外医院 | 一种风险预测模型的构建方法、设备、终端及存储介质 |
CN112420196A (zh) * | 2020-11-20 | 2021-02-26 | 长沙市弘源心血管健康研究院 | 急性心肌梗死患者5年内生存率的预测方法和系统 |
CN112509701A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 急性冠脉综合征的风险预测方法及装置 |
CN112509695A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病患者的急性冠脉综合征预警方法及装置 |
CN112509704A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的急性冠脉综合征预警方法及装置 |
CN112509635A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113113131A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Richter et al. | A review of statistical and machine learning methods for modeling cancer risk using structured clinical data | |
CN110598802B (zh) | 一种内存检测模型训练的方法、内存检测的方法及装置 | |
Azzawi et al. | Lung cancer prediction from microarray data by gene expression programming | |
US10885439B1 (en) | Automated neural network generation using fitness estimation | |
CN112270994B (zh) | 一种风险预测模型的构建方法、设备、终端及存储介质 | |
CN104572583B (zh) | 用于数据致密化的方法和系统 | |
CN105022957B (zh) | 随选检测恶意程序的方法及其电子装置 | |
Moore et al. | Genome-wide genetic analysis using genetic programming: The critical need for expert knowledge | |
JP2019145057A (ja) | 健康年齢の予測方法 | |
Blischak et al. | Chromosome‐scale inference of hybrid speciation and admixture with convolutional neural networks | |
CN114127747A (zh) | 用于分布外检测的似然比 | |
CN113113131B (zh) | 死亡风险预测模型的生成方法、终端及计算机存储介质 | |
Di et al. | Combining polygenic risk score and voice features to detect major depressive disorders | |
CN114124456B (zh) | 综合能源系统安全检测方法、装置、电子设备及存储介质 | |
Verma et al. | A machine learning-based predictive model for 30-day hospital readmission prediction for copd patients | |
KR20200023916A (ko) | 골밀도에 대한 예측 정보를 제공하는 컴퓨팅 장치 | |
Strickland et al. | Assessment of machine learning methods to predict massive blood transfusion in trauma | |
KR102102848B1 (ko) | 전립선암 위험점수 산출기, 상기 산출기의 동작 방법 | |
Esteban et al. | A step-by-step algorithm for combining diagnostic tests | |
KR102371655B1 (ko) | 각 유전 변이 정보에 개별적인 가중치를 부여한 전립선암 유전위험점수 산출장치, 산출방법 및 이의 기록매체 | |
KR102305806B1 (ko) | 임상 정보와 유전자 다형성 정보를 이용한 폐암 환자의 수술 후 예후 예측 방법 | |
US11435357B2 (en) | System and method for discovery of gene-environment interactions | |
Imperiale et al. | Risk stratification strategies for colorectal cancer screening: from logistic regression to artificial intelligence | |
KR20210059325A (ko) | 딥러닝을 이용한 암의 예후 예측 모델 | |
KR20210052855A (ko) | 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |