CN117133459A - 一种基于机器学习的术后颅内感染预测方法及系统 - Google Patents
一种基于机器学习的术后颅内感染预测方法及系统 Download PDFInfo
- Publication number
- CN117133459A CN117133459A CN202311176801.9A CN202311176801A CN117133459A CN 117133459 A CN117133459 A CN 117133459A CN 202311176801 A CN202311176801 A CN 202311176801A CN 117133459 A CN117133459 A CN 117133459A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- training
- feature
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 208000015181 infectious disease Diseases 0.000 title claims abstract description 53
- 238000007917 intracranial administration Methods 0.000 title claims abstract description 43
- 230000002980 postoperative effect Effects 0.000 title claims abstract description 35
- 238000010801 machine learning Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000007637 random forest analysis Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000004140 cleaning Methods 0.000 claims abstract description 9
- 238000004806 packaging method and process Methods 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000011282 treatment Methods 0.000 claims description 11
- 239000008280 blood Substances 0.000 claims description 10
- 210000004369 blood Anatomy 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000005538 encapsulation Methods 0.000 claims description 8
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 238000001356 surgical procedure Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 4
- 206010052428 Wound Diseases 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000003862 glucocorticoid Substances 0.000 claims description 4
- 239000008103 glucose Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 102000009027 Albumins Human genes 0.000 claims description 3
- 108010088751 Albumins Proteins 0.000 claims description 3
- 206010008164 Cerebrospinal fluid leakage Diseases 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000012237 artificial material Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 230000003115 biocidal effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012407 engineering method Methods 0.000 claims description 3
- 239000012535 impurity Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 208000037920 primary disease Diseases 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000007920 subcutaneous administration Methods 0.000 claims description 3
- 238000010348 incorporation Methods 0.000 claims description 2
- 238000011321 prophylaxis Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 206010067268 Post procedural infection Diseases 0.000 description 1
- 208000002847 Surgical Wound Diseases 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000254 damaging effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002418 meninge Anatomy 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供一种基于机器学习的术后颅内感染预测方法及系统,涉及机器学习领域,包括如下:采集涉颅手术后患者的相关信息;对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正;利用粗糙集算法进行特征选择;对特征选择的结果进一步加工,将数据划分为训练集和测试集;利用代价敏感随机森林进行模型训练;在训练完成后,对得到的模型进行评估;在模型训练完成后整理出四类文件,进行接口封装,使用所述接口进行颅内感染预测。通过上述方法及系统可以提高术后颅内感染预测的精确性。
Description
技术领域
本发明涉及机器学习领域,具体而言涉及一种基于机器学习的术后颅内感染预测方法及系统。
背景技术
术后颅内感染是指在脑部手术后,颅内发生细菌或其他微生物感染的情况。这种感染可能发生在手术切口周围的软组织,也可能累及脑膜和脑组织。这种感染并不常见,但会对患者造成破坏性影响,如增加治疗强度、延长住院时间和增加费用。建立一个有效的术后颅内感染预测系统可以帮助医生决定患者是否需要更多的临床治疗,从而提高医疗质量。
在现有技术中通常采用logistic回归(LR)建模的回顾性队列研究术后感染。但术后颅内感染的发生率在2%-20%之间,导致临床数据资料分布不均衡;另一方面,为了获得充分的信息,研究不同变量对术后颅内感染预测的作用,需要收集大量变量,难以确定这些变量之间的关系;因此术后颅内感染相关的医疗数据具有高维特征和不平衡因子的特性,如果采用传统分类器进行直接预测,分类精度往往较低,无法达到临床应用的目的。
发明内容
为了解决现有技术中术后颅内感染预测分类精度往往较低,本发明提供一种基于机器学习的术后颅内感染预测方法及系统。
在本发明的一个方面,一种基于机器学习的术后颅内感染预测方法,如下步骤:步骤S1,数据收集,采集涉颅手术后患者的相关信息;步骤S2,数据预处理,对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正;步骤S3,利用粗糙集算法进行特征选择;步骤S4,对特征选择的结果进一步加工,增强特征的表征能力;步骤S5,将数据划分为训练集和测试集;步骤S6,利用代价敏感随机森林进行模型训练;步骤S7,在训练完成后,对得到的模型进行评估;步骤S8,在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件;步骤S9,进行接口封装,使用所述接口进行颅内感染预测。
进一步地,所述步骤S1采集的数据包括:患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。
进一步地,所述步骤S2中标准化具体包括:特征编码:将非数值特征转换为数值表示;特征缩放:对数值特征进行缩放,将数据特征均缩放至0~1内,以方便统一处理;数值化:将非数值数据转化成数值以便于处理。
进一步地,所述步骤S3具体包括:记U={x1,x2,…xn}是全部术后颅内感染数据;A是全部数据的特征集合;
在现有技术的粗糙集理论基础上引入模糊关系,
其中,x,y∈U,μRP是由特征子集P引起的模糊相似关系,其中P∈A;
其中,是数据x和y对于特征a的相似程度,a∈A;使用一下函数计算/>
其中,a(y)为y的a属性值,a(x)为x的a属性值,σa为a属性的方差;模糊正区域定义为
模糊正区域表示感染正相关;
其中,sup表示上界,P、Q属于A的子集;通过μQ(x)将模糊依赖粗糙函数定义为:
选定原始A为集合P,迭代地从集合P中去掉部分属性后的集合确定为Q,计算γp,如果γp变化超过预设阈值则表示去掉的属性重要性大,则将去掉的属性确定为选用特征;获取全部选用特征为后续机器学习的特征。
进一步地,所述步骤S4中对特征选择的结果进一步加工具体包括:组合特征:将不同特征进行组合,形成新的特征表示;特征转换:通过线性或非线性的特征转换方法,将原始特征映射到一个更高维度或非线性空间中,以提升特征的表征能力。
进一步地,所述步骤S6具体包括:将costij定义为将第i类预测为第j类的成本,其中0表示非感染者,1表示感染者;并且costii=0,cost10>cost01,总的成本定义为:
其中N为样本总数,xi为将非感染者预测成感染者的概率,yi为将感染者预测成非感染者的概率;在树构造过程中,使用一个基于开销的分割标准,首先计算每个树节点的代价,进一步地,根据算法总代价的降低计算每次分割的收益,具体计算公式如下
Ic(S)=min{cost(f0(s)),cost(f1(s))}
其中,Ic(S)表示为基于成本的杂质,cost(fi(s))表示错误分类所有第i类的代价,进一步地,假设样本取lj作为一个分裂点aj;将(aj,lj)定义为特征aj的分割规则,将样本S分为Sl和Sr;利用Ic(S)将分裂规则的增益定义为:
其中,Sl≤lj;Sr>lj;利用分裂规则的增益为目标,其余部分同现有技术中的随机森林模型,构建成本敏感决策树,根据构建好的成本敏感决策树对训练集进行训练。
进一步地,所述步骤S7具体包括:使用训练集来训练模型,然后使用测试集来评估模型的性能,所述训练集与测试集的分配比例为8:2。
进一步地,所述步骤S8具体包括:在模型训练完成后整理出四类文件,
Model文件:包含已经训练好的模型参数和结构,用于后续的模型保存和加载,Model文件保存模型的权重、偏置、网络结构信息,用于预测新的数据或继续训练模型;
Label编码文件:Label编码文件记录了原始标签和相应编码之间的映射关系,用于将预测结果转换回原始标签;
元数据文件:元数据文件记录了模型训练过程中使用的数据集的相关信息,包括数据集的特征信息、数据预处理方法、特征工程方法;
变量文件:使用粗糙集算法进行特征选择了特征的特征,同时在随机森林模型的训练过程中会产生特征权重信息,使用变量文件记录这些信息,用于后续的特征选择、特征重要性分析或解释模型的预测结果。
进一步地,所述步骤S9具体包括:
确定接口类型:首先确定要使用的接口类型;
定义输入和输出:确定接口的输入和输出格式;
封装模型调用逻辑:在接口中封装模型的调用逻辑;
处理异常情况:在接口中添加错误处理机制,确保能够及时捕获和处理异常情况;
部署和测试:将封装好的接口部署到适当的服务器或环境中,然后进行测试;通过发送请求并检查返回的预测结果,验证接口的功能和性能;
文档和API说明:编写文档和API说明,描述接口的使用方法、输入输出格式、参数说明。
另一方面,本发明还提供一种基于机器学习的术后颅内感染预测系统,所述系统用于执行前述的方法,所述系统具体包括:数据收集模块,用于采集涉颅手术后患者的相关信息;数据预处理模块,用于对接收的数据进行删除无用数据、数据清洗、标准化、错误修正;特征选择模块,用于利用粗糙集算法进行特征选择;特征增强模块,用于对特征选择的结果进一步加工,增强特征的表征能力;划分模块,用于将数据划分为训练集和测试集;训练模块,用于利用代价敏感随机森林进行模型训练;评估模块,用于在训练完成后,对得到的模型进行评估;存储模块,用于在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件;接口模块,用于进行接口封装。
本发明通过上述技术方案,建立了颅内感染预测的整套方法,并且在方法中使用粗糙集算法进行特征选择、利用代价敏感随机森林进行模型训练提高了术后颅内感染预测的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法示意图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出优选的描述。
本实施例通过如下步骤解决上术问题:
在一个实施例中,参考图1,本发明提供一种基于机器学习的术后颅内感染预测方法,所述方法包括如下步骤:
步骤S1,数据收集,采集术后患者的相关信息。
在确保获得合法的数据获取权限,遵守医疗数据保护法规的前提下,本发明可以通过电子健康记录系统(EHR)获取病历和临床数据、可以通过医疗设备获取实时数据,或者从实验室数据库中获取实验室结果数据等。具体的采集方法本发明不做过多限定,只要能获取相应数据即可。
具体地,相应数据可包括患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。
S2,数据预处理,对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正。
数据预处理是一个重要的步骤,旨在清洗、转换和准备原始数据,以便更好地适应机器学习算法的要求,包括对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正。
无用数据指标包括姓名、住院号、以及糖含量等属于诊断型数据格式指标,其可指示样本数据的来源等,但在对机器学习预测无作用,因此将相应的数据删除。
其中数据清洗是为了处理数据中的一些错误或异常,具体包括:
处理缺失值:检测和处理数据中的缺失值,可以删除缺失值所在的行或列,或使用插值等方法填充缺失值。
处理异常值:检测和处理数据中的异常值,可以通过统计方法或离群点检测算法识别和处理异常值。
处理重复值:检测和处理数据中的重复值,可以根据特定的属性或整行数据进行去重操作。
标准化是为了将数据处理成便于机器学习的格式,具体包括:
特征编码:将非数值特征转换为数值表示,例如使用独热编码(One-HotEncoding)将分类变量转换为二进制向量。
特征缩放:对数值特征进行缩放,常见的方法包括标准化(Normalization)和归一化(Scaling)。示例性地,可将数据特征均缩放至0~1内,以方便统一处理。
数值化:将非数值数据转化成数值以便于处理,如严重级别低、中、高转化成1、2、3等。
优选地,将数据保存成数据库文件。
S3,利用粗糙集算法进行特征选择。
由于术后颅内感染相关的特征非常多,过多的特征可能导致维度灾难,即维度过高而使模型难以学习和推广,通过减少特征数量,可以降低模型的复杂度和计算成本,加快训练和推理的速度,通过选择最相关的特征,可以减少过拟合的风险,提高模型的泛化能力。
现有技术中常见的特征选择方法包括基于统计的方法(如方差选择、相关系数、卡方检验)、基于模型的方法(如L1正则化、决策树重要性)、基于特征子集搜索的方法(如递归特征消除、前向选择、后向消除)等。但这些方法的前提是数据量达到一定的规模,并且数据之间平衡,然而颅内感染发生率不高,现有临床数据少,并且数据不平衡,如颅内引流管时间、腰池引流管时间等均为一次性数据,而开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素等,在整个恢复过程中会产生多个数据。使用传统的特征选择很容易忽略数据量少但非常重要的数据。
为了解决该问题,本实施例利用粗糙集算法进行特征选择,具体包括:
记U={x1,x2,…xn}是全部术后颅内感染数据;A是全部数据的特征集合,C是条件集合,条件集合是感染产生的条件,如特征数据的频率、持续时间、现出次数等,D是决策属性集合,如感染正相关、感染负相关、模糊相关等,其中模糊是指在相关与不相关边界的数据;具体的条件以及决策属性的设定本实施例不做限定,本领域技术人员可根据现有临床经验确定。
在现有技术的粗糙集理论基础上引入模糊关系,
其中,x,y∈U,是由特征子集P引起的模糊相似关系,其中P∈A;
其中,是数据x和y对于特征a的相似程度,a∈A;使用一下函数计算/>
其中,a(y)为y的a属性值,a(x)为x的a属性值,σa为a属性的方差;模糊正区域定义为
模糊正区域表示感染正相关;
其中,sup表示上界,P、Q属于A的子集;通过μQ(x)将模糊依赖粗糙函数定义为:
从上式可以得出,Q在一定程度上依赖于P;当一个属性从一组被考虑的条件属性中移除时,通过计算依赖性的变化,可以获得该属性重要性的度量;
选定原始A为集合P,迭代地从集合P中去掉部分属性后的集合确定为Q,计算γp,如果γp变化超过预设阈值则表示去掉的属性重要性大,则将去掉的属性确定为选用特征;获取全部选用特征确定为后续机器学习的特征。
优先地,迭代地从集合P中去掉部分属性后的集合确定为Q可以每次去掉一个特征,直到对每个特征都进行一次测试。
S4对特征选择的结果进一步加工,增强特征的表征能力;
增强特征的表征能力可以防止模型过于复杂和学习困难,具体地,进一步加工可以包括:
组合特征:将不同特征进行组合,形成新的特征表示。例如,可以通过加减乘除等操作,将多个特征进行组合,获得更高层次的特征表征。示例性地,将引流管时间相关的特征求平均,以减少特征的数据。
特征转换:通过线性或非线性的特征转换方法,将原始特征映射到一个更高维度或非线性空间中,以提升特征的表征能力。示例性地,采用主成分分析(PCA)、核方法(如核PCA、核映射)等进行特征转换。
S5将数据划分为训练集和测试集;
将训练数据按比例划分为训练集和测试集是为了评估模型的性能和泛化能力,通过将数据划分为训练集和测试集,可以使用训练集来训练模型,然后使用测试集来评估模型的性能。测试集是未参与模型训练的数据,可以用来模拟模型在实际应用中的性能。这样可以更客观地评估模型对未知数据的预测能力。数据划分还可以用于验证模型的假设和前提条件。通过将数据划分为训练集和测试集,可以检验模型是否能够对未知数据进行准确预测,从而验证模型的有效性和可靠性。
优选地,本发明中将数据按照8:2进行划分为训练集和测试集。
S6,利用代价敏感随机森林进行模型训练。
由于术后颅内感染临床数据不平衡,采用不同技术手段进行手术、不同医疗团队、不同医院获取的数据量差异巨大、部分特征数据缺失,部分特征数据量少等,如果采用传统的机器学习模型,则很容易忽略样本少的数据,导致过拟合、模型解释性低等问题。
为了解决上述问题,本实施例利用代价敏感随机森林进行模型训练,代价敏感学习为了衡量不同类型的误差所造成的不同损失,可以对误差赋值一个“不等成本;二元分类代价可以用一个2x2的代价矩阵表示,该矩阵引入两种正确分类和两种错误分类的相关代价。将costij定义为将第i类预测为第j类的成本,在本发明中0表示非感染者,1表示感染者;进一步地,costii=0,cost10>cost01,总的成本定义为:
其中N为样本总数,xi为将非感染者预测成感染者的概率,yi为将感染者预测成非感染者的概率。随机森林是一种基于决策树的集成学习方法。随机森林在决策树训练过程中引入了属性选择的随机性。具体来说,传统决策树在选择分割属性时,在当前节点的属性集(假设c个属性)中选择一个最优属性;在随机森林中,对于基决策树的每个节点,首先从该节点的属性集合中随机选取一个包含k(k≤c)个属性的子集,进一步地,从该子集中选择一个最优属性进行拆分。基础学习者的多样性不仅来自于样本扰动(对初始训练集进行采样),也来自于属性扰动,因此个体学习者差异程度的增加进一步提高了最终积分的泛化性能。本实施例提出的代价敏感随机森林(CSRF)分类器是基于代价敏感决策树(CSDT)的。在树构造过程中,使用了一个基于开销的分割标准。首先计算每个树节点的代价,进一步地,根据算法总代价的降低计算每次分割的收益。具体计算公式如下
Ic(S)=min{cost(f0(s)),cost(f1(s))}
其中,Ic(S)表示为基于成本的杂质,cost(fi(s))表示错误分类所有第i类的代价。进一步地,假设样本取lj作为一个分裂点aj;将(aj,lj)定义为特征aj的分割规则,将样本S分为Sl和Sr;利用Ic(S)将分裂规则的增益定义为:
其中,Sl≤lj;Sr>lj;利用分裂规则的增益为目标,其余部分同现有技术中的随机森林模型,构建了成本敏感决策树,根据构建好的成本敏感决策树对训练集进行训练。
通过不同的分裂点的设定,利用分裂规则的增益为目标,提高分裂增益,有利于将不同的类型的数据分裂为不同森,避免过多的同一类型的数据进行过多的分裂,从而忽略了类型少的数据。
S7在训练完成后,对得到的模型进行评估。
在训练完成后,对得到的模型进行评估是非常重要的,以了解模型的性能和泛化能力。本实施例将原始数据集划分为训练集和测试集。使用训练集来训练模型,然后使用测试集来评估模型的性能。具体地,可以使用各种指标(如准确率、精确度、召回率、F1分数等)来衡量模型在测试集上的性能。
进一步地,通过真实数据和预测数据进行比对,判定模型的好坏。
S8在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件。
为了便于模型的后续使用了部署,在模型训练完成后整理出四类文件。
Model文件:包含已经训练好的模型参数和结构,用于后续的模型保存和加载。Model文件可以是机器学习框架或库特定的格式,如.h5、.pkl、.ckpt等。Model文件保存了模型的权重、偏置、网络结构等信息,可以用于预测新的数据或继续训练模型。
Label编码文件:本实施方式是为了将感染进行分类,因此需要对标签进行编码,将其转换为机器学习算法可处理的数字形式。Label编码文件记录了原始标签和相应编码之间的映射关系,用于将预测结果转换回原始标签。这样可以方便地将预测结果解释为具体的类别或类别名称。
元数据文件:元数据文件记录了模型训练过程中使用的数据集的相关信息,包括数据集的特征信息、数据预处理方法、特征工程方法等。元数据文件可以用于复现模型训练过程,以及在部署和应用模型时了解模型所依赖的数据处理方法和输入要求。
变量文件:本实施例中,使用粗糙集算法进行特征选择了特征的特征,同时在随机森林模型的训练过程中会产生特征权重信息,使用变量文件记录这些信息,用于后续的特征选择、特征重要性分析或解释模型的预测结果。
这些文件可以在后续的模型使用、评估或部署过程中能够方便地调用和理解模型。
S9进行接口封装,以便实现对模型的调用返回预测结果。
为了方便后续对模型的调用,本实施全进一步进行接口封装,包括:
确定接口类型:首先确定要使用的接口类型,可以是Web接口(如RESTful API)或Python函数接口等,根据具体需求选择适合的接口类型。
定义输入和输出:确定接口的输入和输出格式。可选的,输入格式可以是JSON格式、表单参数、文件等。输出是模型的预测结果,也可以是JSON格式、简单文本等形式。
封装模型调用逻辑:在接口中封装模型的调用逻辑。这包括加载模型、预处理输入数据、调用模型进行预测、处理预测结果等步骤。
处理异常情况:考虑异常情况的处理,例如输入数据格式错误、模型加载失败等。在接口中添加必要的错误处理机制,确保能够及时捕获和处理异常情况。
部署和测试:将封装好的接口部署到适当的服务器或环境中,然后进行测试。通过发送请求并检查返回的预测结果,验证接口的功能和性能。
文档和API说明:编写文档和API说明,描述接口的使用方法、输入输出格式、参数说明等。这样可以方便其他开发人员或用户使用接口。
通过接口封装,可以使模型的调用更加灵活和可扩展,方便其他系统或应用程序通过调用接口来使用模型的预测能力。
在另一种实施方式中,本发明实施例提供了一种基于机器学习的术后颅内感染预测系统,包括:
数据收集模块,用于采集涉颅手术后患者的相关信息;
数据预处理模块,用于对接收的数据进行删除无用数据、数据清洗、标准化、错误修正;
特征选择模块,用于利用粗糙集算法进行特征选择;
特征增强模块,用于对特征选择的结果进一步加工,增强特征的表征能力;
划分模块,用于将数据划分为训练集和测试集;
训练模块,用于利用代价敏感随机森林进行模型训练;
评估模块,用于在训练完成后,对得到的模型进行评估;
存储模块,用于在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件;
接口模块,用于进行接口封装。
上述模块执行如前述实例例所述的方法。
本发明未特别明确的部分模块结构,以现有技术记载的内容为准。本发明在前述背景技术部分以及具体实施例部分提及的现有技术可作为本发明的一部分,用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。
Claims (10)
1.一种基于机器学习的术后颅内感染预测方法,其特征在于包括如下步骤:
步骤S1,数据收集,采集涉颅手术后患者的相关信息;
步骤S2,数据预处理,对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正;
步骤S3,利用粗糙集算法进行特征选择;
步骤S4,对特征选择的结果进一步加工,增强特征的表征能力;
步骤S5,将数据划分为训练集和测试集;
步骤S6,利用代价敏感随机森林进行模型训练;
步骤S7,在训练完成后,对得到的模型进行评估;
步骤S8,在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件;
步骤S9,进行接口封装,使用所述接口进行颅内感染预测。
2.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于:所述步骤S1采集的数据包括:患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。
3.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S2中标准化具体包括:
特征编码:将非数值特征转换为数值表示;特征缩放:对数值特征进行缩放,将数据特征均缩放至0~1内,以方便统一处理;数值化:将非数值数据转化成数值以便于处理。
4.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S3具体包括:
记U={x1,x2,…xn}是全部术后颅内感染数据;A是全部数据的特征集合;
在现有技术的粗糙集理论基础上引入模糊关系,
其中,x,y∈U,是由特征子集P引起的模糊相似关系,其中P∈A;
其中,是数据x和y对于特征a的相似程度,a∈A;使用一下函数计算/>
其中,a(y)为y的a属性值,a(x)为x的a属性值,σa为a属性的方差;
模糊正区域定义为
模糊正区域表示感染正相关;
其中,sup表示上界,P、Q属于A的子集;通过μQ(x)将模糊依赖粗糙函数定义为:
选定原始A为集合P,迭代地从集合P中去掉部分属性后的集合确定为Q,计算γp,如果γp变化超过预设阈值则表示去掉的属性重要性大,则将去掉的属性确定为选用特征;获取全部选用特征为后续机器学习的特征。
5.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S4中对特征选择的结果进一步加工具体包括:组合特征:将不同特征进行组合,形成新的特征表示;特征转换:通过线性或非线性的特征转换方法,将原始特征映射到一个更高维度或非线性空间中,以提升特征的表征能力。
6.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S6具体包括:将costij定义为将第i类预测为第j类的成本,其中0表示非感染者,1表示感染者;并且costii=0,cost10>cost01,总的成本定义为:
其中N为样本总数,xi为将非感染者预测成感染者的概率,yi为将感染者预测成非感染者的概率;在树构造过程中,使用一个基于开销的分割标准,首先计算每个树节点的代价,进一步地,根据算法总代价的降低计算每次分割的收益,具体计算公式如下
Ic(S)=min{cost(f0(s)),cost(f1(s))}
其中,Ic(S)表示为基于成本的杂质,cost(fi(s))表示错误分类所有第i类的代价,进一步地,假设样本取lj作为一个分裂点aj;将(aj,lj)定义为特征aj的分割规则,将样本S分为Sl和Sr;利用Ic(S)将分裂规则的增益定义为:
其中,Sl≤lj;Sr>lj;利用分裂规则的增益为目标,其余部分同现有技术中的随机森林模型,构建成本敏感决策树,根据构建好的成本敏感决策树对训练集进行训练。
7.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S7具体包括:使用训练集来训练模型,然后使用测试集来评估模型的性能,所述训练集与测试集的分配比例为8:2。
8.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S8具体包括:在模型训练完成后整理出四类文件,
Model文件:包含已经训练好的模型参数和结构,用于后续的模型保存和加载,Model文件保存模型的权重、偏置、网络结构信息,用于预测新的数据或继续训练模型;
Label编码文件:Label编码文件记录了原始标签和相应编码之间的映射关系,用于将预测结果转换回原始标签;
元数据文件:元数据文件记录了模型训练过程中使用的数据集的相关信息,包括数据集的特征信息、数据预处理方法、特征工程方法;
变量文件:使用粗糙集算法进行特征选择了特征的特征,同时在随机森林模型的训练过程中会产生特征权重信息,使用变量文件记录这些信息,用于后续的特征选择、特征重要性分析或解释模型的预测结果。
9.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法,其特征在于所述步骤S9具体包括:
确定接口类型:首先确定要使用的接口类型;
定义输入和输出:确定接口的输入和输出格式;
封装模型调用逻辑:在接口中封装模型的调用逻辑;
处理异常情况:在接口中添加错误处理机制,确保能够及时捕获和处理异常情况;
部署和测试:将封装好的接口部署到适当的服务器或环境中,然后进行测试;通过发送请求并检查返回的预测结果,验证接口的功能和性能;
文档和API说明:编写文档和API说明,描述接口的使用方法、输入输出格式、参数说明。
10.一种基于机器学习的术后颅内感染预测系统,所述系统用于执行所述权利要求1-9任意一项所述的方法,所述系统具体包括:
数据收集模块,用于采集涉颅手术后患者的相关信息;
数据预处理模块,用于对接收的数据进行删除无用数据、数据清洗、标准化、错误修正;
特征选择模块,用于利用粗糙集算法进行特征选择;
特征增强模块,用于对特征选择的结果进一步加工,增强特征的表征能力;
划分模块,用于将数据划分为训练集和测试集;
训练模块,用于利用代价敏感随机森林进行模型训练;
评估模块,用于在训练完成后,对得到的模型进行评估;
存储模块,用于在模型训练完成后整理出四类文件,包括Model文件、Label编码文件、元数据文件、变量文件;
接口模块,用于进行接口封装。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176801.9A CN117133459B (zh) | 2023-09-12 | 2023-09-12 | 一种基于机器学习的术后颅内感染预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176801.9A CN117133459B (zh) | 2023-09-12 | 2023-09-12 | 一种基于机器学习的术后颅内感染预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117133459A true CN117133459A (zh) | 2023-11-28 |
CN117133459B CN117133459B (zh) | 2024-04-09 |
Family
ID=88850835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176801.9A Active CN117133459B (zh) | 2023-09-12 | 2023-09-12 | 一种基于机器学习的术后颅内感染预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133459B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415832A (zh) * | 2019-07-31 | 2019-11-05 | 江苏省人民医院 | 基于人工智能的感染控制管理系统和方法 |
JP2020021371A (ja) * | 2018-08-02 | 2020-02-06 | Necソリューションイノベータ株式会社 | 手術後感染予測装置、手術後感染予測装置生産方法、手術後感染予測方法およびプログラム |
CN111938632A (zh) * | 2020-08-10 | 2020-11-17 | 中国科学院上海微系统与信息技术研究所 | 一种脑内信号采集器件及其制备方法、脑机接口 |
CN113593708A (zh) * | 2021-07-12 | 2021-11-02 | 杭州电子科技大学 | 基于集成学习算法的脓毒症预后预测方法 |
CN114664409A (zh) * | 2022-02-24 | 2022-06-24 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种复发鼻咽癌影像组学数据处理方法、系统、装置和存储介质 |
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
US20220409080A1 (en) * | 2019-11-18 | 2022-12-29 | City, University of London | Device and method for non-invasive prediction of intracranial pressure based on optical means |
US20230106138A1 (en) * | 2021-10-04 | 2023-04-06 | Crely Inc. | System and Method for Detecting and Predicting Surgical Wound Infections |
CN116259415A (zh) * | 2022-10-25 | 2023-06-13 | 西安理工大学 | 一种基于机器学习的患者服药依从性预测方法 |
CN116525103A (zh) * | 2023-05-16 | 2023-08-01 | 南京邮电大学通达学院 | 一种基于XGBoost机器学习的血糖采集预测方法 |
CN116705325A (zh) * | 2023-06-26 | 2023-09-05 | 国家康复辅具研究中心 | 一种伤口感染风险评估方法及其系统 |
-
2023
- 2023-09-12 CN CN202311176801.9A patent/CN117133459B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020021371A (ja) * | 2018-08-02 | 2020-02-06 | Necソリューションイノベータ株式会社 | 手術後感染予測装置、手術後感染予測装置生産方法、手術後感染予測方法およびプログラム |
CN110415832A (zh) * | 2019-07-31 | 2019-11-05 | 江苏省人民医院 | 基于人工智能的感染控制管理系统和方法 |
US20220409080A1 (en) * | 2019-11-18 | 2022-12-29 | City, University of London | Device and method for non-invasive prediction of intracranial pressure based on optical means |
CN111938632A (zh) * | 2020-08-10 | 2020-11-17 | 中国科学院上海微系统与信息技术研究所 | 一种脑内信号采集器件及其制备方法、脑机接口 |
CN113593708A (zh) * | 2021-07-12 | 2021-11-02 | 杭州电子科技大学 | 基于集成学习算法的脓毒症预后预测方法 |
US20230106138A1 (en) * | 2021-10-04 | 2023-04-06 | Crely Inc. | System and Method for Detecting and Predicting Surgical Wound Infections |
CN114664409A (zh) * | 2022-02-24 | 2022-06-24 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种复发鼻咽癌影像组学数据处理方法、系统、装置和存储介质 |
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
CN116259415A (zh) * | 2022-10-25 | 2023-06-13 | 西安理工大学 | 一种基于机器学习的患者服药依从性预测方法 |
CN116525103A (zh) * | 2023-05-16 | 2023-08-01 | 南京邮电大学通达学院 | 一种基于XGBoost机器学习的血糖采集预测方法 |
CN116705325A (zh) * | 2023-06-26 | 2023-09-05 | 国家康复辅具研究中心 | 一种伤口感染风险评估方法及其系统 |
Non-Patent Citations (2)
Title |
---|
孙吉林 等: "高血压脑出血微创穿刺引流术后并发颅内感染 的临床预测模型建立和验证", 《临床神经外科杂志》, vol. 20, no. 4, 15 August 2023 (2023-08-15), pages 420 - 425 * |
孙琛 等: "基于深度学习的术后医疗相关感染风险预测模型", 《中国医学科学院学报》, vol. 44, no. 1, 28 February 2022 (2022-02-28), pages 9 - 16 * |
Also Published As
Publication number | Publication date |
---|---|
CN117133459B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220254493A1 (en) | Chronic disease prediction system based on multi-task learning model | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
US10886025B2 (en) | Drug adverse event extraction method and apparatus | |
CN111967495B (zh) | 一种分类识别模型构建方法 | |
CN112419321B (zh) | X射线图像识别方法、装置、计算机设备及存储介质 | |
WO2017041651A1 (zh) | 一种用户数据分类的方法和设备 | |
US20170286843A1 (en) | Data driven featurization and modeling | |
CN109543718B (zh) | 修改病种描述的方法和装置 | |
CN111291131A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN117116488B (zh) | 一种评估老年肺癌患者术后严重并发症的方法及相关设备 | |
Rudd | Application of support vector machine modeling and graph theory metrics for disease classification | |
CN110729054A (zh) | 异常就诊行为检测方法、装置、计算机设备及存储介质 | |
CN114927230B (zh) | 基于机器学习的重症心衰患者预后决策支持系统及方法 | |
CN117133461B (zh) | 一种老年肺癌患者术后短期死亡风险评估的方法及装置 | |
CN114203306A (zh) | 医疗事件预测模型训练方法、医疗事件预测方法及装置 | |
Sudharson et al. | Performance analysis of enhanced adaboost framework in multifacet medical dataset | |
JP2024061599A (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN117133459B (zh) | 一种基于机器学习的术后颅内感染预测方法及系统 | |
Selvan et al. | [Retracted] An Image Processing Approach for Detection of Prenatal Heart Disease | |
CN109493975B (zh) | 基于xgboost模型的慢性病复发预测方法、装置和计算机设备 | |
Dua et al. | Classifying Pulmonary Embolism Cases in Chest CT Scans Using VGG16 and XGBoost | |
Khozama et al. | Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning | |
CN114201613B (zh) | 试题生成方法、试题生成装置、电子设备以及存储介质 | |
CN113593703B (zh) | 一种构建压力性损伤风险预测模型的装置及方法 | |
Lopatka et al. | Classification and Prediction of Diabetes Disease Using Modified k-neighbors Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |