CN113808747A - 一种缺血性脑卒中复发预测方法 - Google Patents
一种缺血性脑卒中复发预测方法 Download PDFInfo
- Publication number
- CN113808747A CN113808747A CN202111180311.7A CN202111180311A CN113808747A CN 113808747 A CN113808747 A CN 113808747A CN 202111180311 A CN202111180311 A CN 202111180311A CN 113808747 A CN113808747 A CN 113808747A
- Authority
- CN
- China
- Prior art keywords
- data
- patient
- sample
- similarity
- recurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 208000032382 Ischaemic stroke Diseases 0.000 title claims description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 210000004556 brain Anatomy 0.000 claims abstract description 6
- 238000007634 remodeling Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000003745 diagnosis Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000009534 blood test Methods 0.000 claims description 2
- 238000009535 clinical urine test Methods 0.000 claims description 2
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 206010008092 Cerebral artery thrombosis Diseases 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007812 deficiency Effects 0.000 abstract 2
- 230000004927 fusion Effects 0.000 abstract 1
- 208000006011 Stroke Diseases 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009533 lab test Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 1
- 108010082126 Alanine transaminase Proteins 0.000 description 1
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 108010074051 C-Reactive Protein Proteins 0.000 description 1
- 102100032752 C-reactive protein Human genes 0.000 description 1
- 238000008789 Direct Bilirubin Methods 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 108090001005 Interleukin-6 Proteins 0.000 description 1
- 229940127218 antiplatelet drug Drugs 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 108091005995 glycated hemoglobin Proteins 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种缺血性脑卒中复发预测方法,首先,提取患者多维数据进行融合,将融合后的数据进行Lasso分析,输出关键因子。其次,对数据集中的空缺值进行填充,对未复发且存在住院史的患者、没有住院史的患者缺失量较多的特征以及没有住院史的患者缺失量较少的特征,分别采用三种不同的方式进行填充。然后对数据集中存在的样本不平衡采取样本不平衡处理方式进行处理。同时取患者脑部CT影像数据,采用GCForest多粒度扫描层对影像数据进行卷积学习,通过特征重塑将特征规整为[32,1]大小。将重塑后的特征作为固定特征与结构化特征联合传入至GCForest多粒度扫描层进行特征增强,最后传入至级联森林进行模型训练。本发明为人工智能技术在医疗的应用提供新思路。
Description
技术领域
本发明涉及缺血性脑卒中复发预测技术领域,具体为一种缺血性脑卒中复发预测方法。
背景技术
脑卒中为我国人口死亡和致残的首要原因,复发率高达14.7%,缺血性脑卒中复发后致死和致残的风险为首发卒中的9.4倍。复发的风险预测,有助于识别卒中复发的高危人群,为三早预防提供决策信息支持。当前的医疗预测技术主要有三类:一类是传统的机器学习算法,如:Logistic回归、SVM、决策树等;另一类是深度神经网络,如:多层感知机MLP、LSTM、GRU等;还有一类就是集成算法,如:随机森林、Adboost、Xgboost等。上诉医疗预测方法和技术在医疗领域已经取得了一定的成绩。但依旧没有一个能够通用的方法可以适用于解决医疗预测问题。且对缺血性脑卒中患者出院后复发预测研究相对较少,在该研究领域研究者并未对缺血性脑卒中数据空缺数据填充以及样本不平衡展开研究,其二,研究者也并未将影像数据与住院结构化特征数据进行融合去构建模型。
发明内容
本发明的目的在于提供一种缺血性脑卒中复发预测方法,基于现有医疗数据存在样本量不足、数据缺失严重、正负样本极其不平衡的特点提出了一种多样化数据预处理方法,同时基于GCForest对图像数据以及结构化数据都能通过多粒度扫描进行特征增强的优势进行特征提取,其次GCForest具有预测准确性高,模型泛化推广能力强等特点,利用GCForest算法处理缺血性脑卒中患者数据,并建立预测模型。
为实现上述目的,本发明提供如下技术方案:一种缺血性脑卒中复发预测方法,包括以下步骤:
步骤1,通过提取患者诊疗数据、既往史数据、人口统计学数据并进行融合,将融合后的数据进行Lasso分析,输出关键特征因子;
步骤2,对数据集中的空缺值进行填充,分为三种方式进行填充:
①对未复发且存在既往住院记录的患者,采用最近一次住院记录数据进行填补;
②对没有既往住院的患者,对缺失量较多的特征采用Lasso回归得出的重要特征因子进行聚类,并对每个簇类中与其邻接的K个样本计算其均值、或者众数填充;
③对没有既往住院的患者,针对缺失量较少的特征,利用Lasso回归得到的重要特征因子作为自变量,将缺失特征作为因变量,建立ANN模型,通过预测模型预测缺失值;
步骤3,对数据集中存在的样本不平衡现象采取样本不平衡处理方式进行处理,利用Lasso回归得到的重要性特征因子作为自变量,是否复发作为因变量,建立基于随机森林RF的缺血性脑卒中复发预测模型,并基于每个基础模型对每个样本建立样本相似度矩阵;
步骤4,通过相似度矩阵随机选取K个最近邻中的一个样本,利用线性插值法生成少数类样本;
步骤5,取所有患者脑部CT图像数据,采用GCForest多粒度扫描层对影像数据进行卷积学习,并通过特征重塑将特征规整为[32,1]大小;
步骤6,将经重塑后的影像特征作为固定特征,缺血性脑卒中患者结构化作为滑动特征传入至GCForest多粒度扫描层进行特征增强,并将已经融合好的特征传入至级联森林进行模型学习。
进一步的,所述步骤1中提取患者诊疗数据具体包括:
①从医疗His信息库中抽取患者在院时的诊疗数据,包括患者的血液检验数据、尿液检验数据、基因检测数据、病程记录文本数据、住院记录文本数据;
②从医疗影像数据库中抽取患者在院时的脑部CT影像数据;
③从医疗Lis系统库中抽取患者的患者在院的检验数据。
进一步的,所述步骤2具体包括以下步骤:
步骤2.1,对获取的数据,将数据集分为两组,未复发组J0,复发组J1;
其中n代表数据样本量,k代表特征大小,fnk代表第n个样本第k个特征值大小;f’nk代表复发组第n个样本第k个特征值。
步骤2.2,观测数据集中数据分布,对未复发组中寻找其既往住院信息,用距离本次住院最近的住院数据填补其缺失变量,其中HJ0代表未复发患者既往住院数据。
步骤2.3,采用Lasso回归对数据集中结构化数据特征进行特征重要性分析,制定合适的特征重要性阈值,对大于阈值的关键因子依次作为因变量,其他关键因子作为自变量进行模型构建;选择ANN作为基础模型;
步骤2.4,对步骤2.3中已经得到的关键因子,进行Kmeans聚类,对其他的缺失特征用该簇类下,相邻m个样本均数或者众数进行填充。
进一步的,所述步骤3具体包括以下步骤:
步骤3.1,对已经填补好的数据进行随机森林模型的构建,并依照随机森林算法中的M个基础模型得出的预测值矩阵;
步骤3.3,对所有的样本两两之间相似度构造相似度矩阵;
步骤3.4,由上述相似度矩阵可以知道,pi,j值越大则代表两个样本相似性越高,同时也说明两个样本越近,为了与欧式距离一致,将相似度进行转换
此时,相似度距离越小则代表相似度越高。
与现有技术相比,本发明的有益效果是:
本发明结合缺血性脑卒中患者人口统计学、实验室检验、影像图片、生物标志物、抗血小板药物抵抗检测以及mRS评分、用药及复发情况等复杂多维数据,利用GCForest算法特征提取能力强,准确性高、非线性因子挖掘能力强等优势,构建基于GCForest算法的缺血性脑卒中复发风险预测模型。为缺血性脑卒中复发风险预测,降低复发率,提供新方法,为人工智能技术在医疗的应用提供新思路。
附图说明
图1为本发明的基本流程图;
图2为本发明的数据填充流程图;
图3为本发明的数据上采样流程图;
图4为本发明的GCForest特征强化及模型构建流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
一种缺血性脑卒中复发预测方法,其流程图如图1所示,首先,通过提取患者诊疗数据、既往史数据、人口统计学数据并进行融合,将融合后的数据进行Lasso分析,输出关键特征因子。其次,对数据集中的空缺值进行填充,分为三种方式进行填充:1)对未复发且存在既往住院记录的患者,采用最近一次住院记录数据进行填补;2)对没有既往住院的患者,对缺失量较多的特征采用Lasso回归得出的重要特征因子进行聚类,并对每个簇类中与其邻接的K个样本计算其均值、或者众数填充;3)对没有既往住院的患者,针对缺失量较少的特征,利用Lasso回归得到的重要特征因子作为自变量,将缺失特征作为因变量,建立ANN模型,通过预测模型预测缺失值。然后对数据集中存在的样本不平衡现象采取样本不平衡处理方式进行处理,利用Lasso回归得到的重要性特征因子作为自变量,是否复发作为因变量,建立基于随机森林RF的缺血性脑卒中复发预测模型,并基于每个基础模型对每个样本建立样本相似度矩阵。通过相似度矩阵随机选取K个最近邻中的一个样本,利用线性插值法生成少数类样本。其次取所有患者脑部CT图像数据,采用GCForest多粒度扫描层对影像数据进行卷积学习,并通过特征重塑将特征规整为[32,1]大小。最后将经重塑后的影像特征作为固定特征,缺血性脑卒中患者结构化作为滑动特征传入至GCForest多粒度扫描层进行特征增强,并将已经融合好的特征传入至级联森林进行模型学习。具体包括以下步骤:
数据填充流程如图2所示,包括步骤(1)-(4):
(1)对获取的数据,将数据集分为两组,未复发组J0,复发组J1;
其中n代表数据样本量,k代表特征大小,fnk代表第n个样本第k个特征值大小;f’nk代表复发组第n个样本第k个特征值。
(2)观测数据集中数据分布,对未复发组中寻找其既往住院信息,用距离本次住院最近的住院数据填补其缺失变量,其中HJ0代表未复发患者既往住院数据。
(3)采用Lasso回归对数据集中结构化数据特征进行特征重要性分析,制定合适的特征重要性阈值,对大于阈值的关键因子依次作为因变量,其他关键因子作为自变量进行模型构建;选择ANN作为基础模型;
(4)对步骤(3)中已经得到的关键因子,进行Kmeans聚类,对其他的缺失特征用该簇类下,相邻m个样本均数或者众数进行填充。
数据上采样流程如图3所示,包括步骤(5)-(9):
(5)对已经填补好的数据进行随机森林模型的构建,并依照随机森林算法中的M个基础模型得出的预测值矩阵;
(7)对所有的样本两两之间相似度构造相似度矩阵;
(8)由上述相似度矩阵可以知道,pi,j值越大则代表两个样本相似性越高,同时也说明两个样本越近,为了与欧式距离一致,将相似度进行转换
此时,相似度距离越小则代表相似度越高。
(9)对每个低占比样本下连续变量选用其相似度高的k个样本进行均值生成,离散变量则选用众数生成。
GCForest特征强化及模型构建流程如图4所示,包括步骤(10)-(11):
(10)对采样到的影像数据进行分类,通过卷积神经网络进行学习,并将特征压缩至一定的大小,并与患者结构化特征进行融合。
(11)对已经融合好的特征,传入深度森林多粒度扫描层,制定一定的滑动窗口大小,将也在进行强化学习,并传入级联森林中的普通随机森林与完全随机森林算法中,通过调整模型中的超参数进行最优模型的输出。
实施例
(1)采取医疗大数据研究中心前瞻性队列2817例缺血性脑卒中患者住院记录,该部分患者都经MRI验证为缺血性脑卒中。其中数据大致分为:人口统计学信息(性别、年龄、婚姻)、住院实验室检验数据、住院电子病历后结构化数据、影像学数据。
(2)分析其中在之后一年的随访记录中所有样本分布情况,复发326人,未复发2491,复发率约为13.08%,其存在极度样本不平衡现象。观测未复发组中有163人存在既往住院信息,因此,对该部分患者空缺值采用最近一次住院的信息进行填充。
(3)依次计算数据结构化特征中与因变量是否复发的相关性大小,选择其中相关性绝对值大于0.1的特征,共15个,如下表。
序号 | 特征 | 特征重要性 |
1 | 住院天数 | 0.317 |
2 | 肺部感染 | 0.265 |
3 | 红细胞分布宽度 | 0.211 |
4 | 碱性磷酸酶 | 0.203 |
5 | 高血压 | 0.172 |
6 | 直接胆红素 | 0.166 |
7 | C反应蛋白 | 0.161 |
8 | 糖化血红蛋白 | 0.159 |
9 | 糖尿病 | 0.137 |
10 | 谷丙转氨酶 | 0.128 |
11 | IL-6 | 0.114 |
12 | IL-33 | 0.106 |
13 | 肽素 | 0.103 |
14 | 吸烟史 | 0.103 |
15 | 年龄 | 0.101 |
(4)选择上述15个因子全部不为空的样本进行ANN模型的构建,分别以每一个因子作为因变量,其余14个特征以及是否复发作为自变量进行模型构建,其中构建的模型分别为:AF1_model,AF2_model,.....,AF14_model,AF15_model。并将上述15个模型进行存储。
(5)对其余15个特征因子存在空缺值的样本采用上述对应的模型进行预测填充。
(6)对上述15个特征对所有的样本进行kmeans聚类,根据其年龄分段,[0-30,30-50,50-60,60-100]选择簇类大小为年龄分段大小一致,即k为4。对每个簇类下,空缺值的特征采用其邻接的几个样本的均值或者众数进行填充。
(7)对已经完全处理好的数据的特征,采用多种不同的机器学习算法进行模型构建,并观测每一个样本在不同模型下被分类的结果,并根据预测结果构建相似度矩阵。
(8)对相似度矩阵进行转换,得到转换后的相似度矩阵。
(9)收集样本的影像数据,采用GCForest的多粒度扫描层对数据进行扫描,并最终将特征重塑为一个[1,32]的特征。
(10)将上述影像数据多粒度扫描后的特征与结构化特征进行融合,并将影像转换后的特征作为GCForest多粒度扫描固定特征,融合窗口大小的结构化数据特征,进行扫描,然后传入将扫描结果转入级联森林中的随机森林与完全随机森林中进行模型训练,通过不断优化参数,得到最优模型。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种缺血性脑卒中复发预测方法,其特征在于:包括以下步骤:
步骤1,通过提取患者诊疗数据、既往史数据、人口统计学数据并进行融合,将融合后的数据进行Lasso分析,输出关键特征因子;
步骤2,对数据集中的空缺值进行填充,分为三种方式进行填充:
①对未复发且存在既往住院记录的患者,采用最近一次住院记录数据进行填补;
②对没有既往住院的患者,对缺失量较多的特征采用Lasso回归得出的重要特征因子进行聚类,并对每个簇类中与其邻接的K个样本计算其均值、或者众数填充;
③对没有既往住院的患者,针对缺失量较少的特征,利用Lasso回归得到的重要特征因子作为自变量,将缺失特征作为因变量,建立ANN模型,通过预测模型预测缺失值;
步骤3,对数据集中存在的样本不平衡现象采取样本不平衡处理方式进行处理,利用Lasso回归得到的重要性特征因子作为自变量,是否复发作为因变量,建立基于随机森林RF的缺血性脑卒中复发预测模型,并基于每个基础模型对每个样本建立样本相似度矩阵;
步骤4,通过相似度矩阵随机选取K个最近邻中的一个样本,利用线性插值法生成少数类样本;
步骤5,取所有患者脑部CT图像数据,采用GCForest多粒度扫描层对影像数据进行卷积学习,并通过特征重塑将特征规整为[32,1]大小;
步骤6,将经重塑后的影像特征作为固定特征,缺血性脑卒中患者结构化作为滑动特征传入至GCForest多粒度扫描层进行特征增强,并将已经融合好的特征传入至级联森林进行模型学习。
2.根据权利要求1所述的一种缺血性脑卒中复发预测方法,其特征在于:所述步骤1中提取患者诊疗数据具体包括:
①从医疗His信息库中抽取患者在院时的诊疗数据,包括患者的血液检验数据、尿液检验数据、基因检测数据、病程记录文本数据、住院记录文本数据;
②从医疗影像数据库中抽取患者在院时的脑部CT影像数据;
③从医疗Lis系统库中抽取患者的患者在院的检验数据。
3.根据权利要求1所述的一种缺血性脑卒中复发预测方法,其特征在于:所述步骤2具体包括以下步骤:
步骤2.1,对获取的数据,将数据集分为两组,未复发组J0,复发组J1;
其中n代表数据样本量,k代表特征大小,fnk代表未复发组第n个样本第k个特征值大小;f’nk代表复发组第n个样本第k个特征值;
步骤2.2,观测数据集中数据分布,对未复发组中寻找其既往住院信息,用距离本次住院最近的住院数据填补其缺失变量;其中HJ0代表未复发患者既往住院数据;
步骤2.3,采用Lasso回归对数据集中结构化数据特征进行特征重要性分析,制定合适的特征重要性阈值,对大于阈值的关键因子依次作为因变量,其他关键因子作为自变量进行模型构建;选择ANN作为基础模型;
步骤2.4,对步骤2.3中已经得到的关键因子,进行Kmeans聚类,对其他的缺失特征用该簇类下,相邻m个样本均数或者众数进行填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111180311.7A CN113808747B (zh) | 2021-10-11 | 2021-10-11 | 一种缺血性脑卒中复发预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111180311.7A CN113808747B (zh) | 2021-10-11 | 2021-10-11 | 一种缺血性脑卒中复发预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808747A true CN113808747A (zh) | 2021-12-17 |
CN113808747B CN113808747B (zh) | 2023-12-26 |
Family
ID=78939345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111180311.7A Active CN113808747B (zh) | 2021-10-11 | 2021-10-11 | 一种缺血性脑卒中复发预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808747B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346665A (zh) * | 2022-10-19 | 2022-11-15 | 南昌大学第二附属医院 | 视网膜病变发病风险预测模型的构建方法、系统及设备 |
CN116930512A (zh) * | 2023-09-19 | 2023-10-24 | 细胞生态海河实验室 | 一种用于脑卒中再发风险分析的生物标志物及其应用 |
WO2023241012A1 (zh) * | 2022-06-16 | 2023-12-21 | 南京医科大学 | 基于深度学习的脑卒中早期康复后功能预测模型建立方法 |
CN117976225A (zh) * | 2024-03-05 | 2024-05-03 | 齐鲁工业大学(山东省科学院) | 血肿变化概率的预测方法、系统、存储介质及设备 |
CN118430819A (zh) * | 2024-07-04 | 2024-08-02 | 南昌大学第二附属医院 | 一种脑卒中预测复发方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778042A (zh) * | 2017-01-26 | 2017-05-31 | 中电科软件信息服务有限公司 | 心脑血管患者相似性分析方法及系统 |
CN108335734A (zh) * | 2018-02-07 | 2018-07-27 | 深圳安泰创新科技股份有限公司 | 临床图像记录方法、装置及计算机可读存储介质 |
CN110349652A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种融合结构化影像数据的医疗数据分析系统 |
CN110993106A (zh) * | 2019-12-11 | 2020-04-10 | 深圳市华嘉生物智能科技有限公司 | 一种结合病理图像和临床信息的肝癌术后复发风险预测方法 |
CN111243696A (zh) * | 2020-01-08 | 2020-06-05 | 温州医科大学 | 一种脑卒中发病的自动检测方法 |
CN112331349A (zh) * | 2020-11-03 | 2021-02-05 | 四川大学华西医院 | 一种脑卒中复发监测模型及监测方法 |
-
2021
- 2021-10-11 CN CN202111180311.7A patent/CN113808747B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778042A (zh) * | 2017-01-26 | 2017-05-31 | 中电科软件信息服务有限公司 | 心脑血管患者相似性分析方法及系统 |
CN108335734A (zh) * | 2018-02-07 | 2018-07-27 | 深圳安泰创新科技股份有限公司 | 临床图像记录方法、装置及计算机可读存储介质 |
CN110349652A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种融合结构化影像数据的医疗数据分析系统 |
CN110993106A (zh) * | 2019-12-11 | 2020-04-10 | 深圳市华嘉生物智能科技有限公司 | 一种结合病理图像和临床信息的肝癌术后复发风险预测方法 |
CN111243696A (zh) * | 2020-01-08 | 2020-06-05 | 温州医科大学 | 一种脑卒中发病的自动检测方法 |
CN112331349A (zh) * | 2020-11-03 | 2021-02-05 | 四川大学华西医院 | 一种脑卒中复发监测模型及监测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023241012A1 (zh) * | 2022-06-16 | 2023-12-21 | 南京医科大学 | 基于深度学习的脑卒中早期康复后功能预测模型建立方法 |
CN115346665A (zh) * | 2022-10-19 | 2022-11-15 | 南昌大学第二附属医院 | 视网膜病变发病风险预测模型的构建方法、系统及设备 |
CN115346665B (zh) * | 2022-10-19 | 2023-03-10 | 南昌大学第二附属医院 | 视网膜病变发病风险预测模型的构建方法、系统及设备 |
CN116930512A (zh) * | 2023-09-19 | 2023-10-24 | 细胞生态海河实验室 | 一种用于脑卒中再发风险分析的生物标志物及其应用 |
CN116930512B (zh) * | 2023-09-19 | 2024-01-05 | 细胞生态海河实验室 | 一种用于脑卒中再发风险分析的生物标志物及其应用 |
CN117976225A (zh) * | 2024-03-05 | 2024-05-03 | 齐鲁工业大学(山东省科学院) | 血肿变化概率的预测方法、系统、存储介质及设备 |
CN118430819A (zh) * | 2024-07-04 | 2024-08-02 | 南昌大学第二附属医院 | 一种脑卒中预测复发方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113808747B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113808747B (zh) | 一种缺血性脑卒中复发预测方法 | |
Zhang et al. | Integrated multi-omics analysis using variational autoencoders: application to pan-cancer classification | |
CN111145912B (zh) | 一种基于机器学习的个性化超促排卵方案的预测装置 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN113674864B (zh) | 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法 | |
CN111883258B (zh) | 一种构建ohss分度分型预测模型的方法 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN114743600A (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
CN111986814A (zh) | 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法 | |
Adi et al. | Stroke risk prediction model using machine learning | |
CN113707317B (zh) | 一种基于混合模型的疾病危险因素重要性分析方法 | |
CN114360654A (zh) | 一种基于基因表达的图神经网络数据集构建方法 | |
Hossen et al. | Examining the risk factors of liver disease: a machine learning approach | |
CN117637035A (zh) | 一种基于图神经网络的多组学可信整合的分类模型及方法 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Bhattacharya et al. | Diabetes Prediction using Logistic Regression and Rule Extraction from Decision Tree and Random Forest Classifiers | |
Lagergren et al. | Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa | |
CN114398991A (zh) | 基于Transformer结构搜索的脑电信号情绪识别方法 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
Cudic et al. | Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs | |
CN112365992A (zh) | 一种基于nrs-lda的医疗体检数据识别分析方法 | |
Modi et al. | Hyperglycemia Prediction Using Machine Learning | |
CN114974433B (zh) | 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |