CN117133459A

CN117133459A - 一种基于机器学习的术后颅内感染预测方法及系统

Info

Publication number: CN117133459A
Application number: CN202311176801.9A
Authority: CN
Inventors: 刘云; 季晶; 郭永安; 孙洪波; 岳震; 张申; 王宇翱
Original assignee: Nanjing Youda Medical Information Technology Co ltd; Jiangsu Province Hospital First Affiliated Hospital Of Nanjing Medical University; Nanjing University of Posts and Telecommunications
Current assignee: Nanjing Youda Medical Information Technology Co ltd; Jiangsu Province Hospital First Affiliated Hospital Of Nanjing Medical University; Nanjing University of Posts and Telecommunications
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-11-28
Anticipated expiration: 2043-09-12
Also published as: CN117133459B

Abstract

本发明提供一种基于机器学习的术后颅内感染预测方法及系统，涉及机器学习领域，包括如下：采集涉颅手术后患者的相关信息；对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正；利用粗糙集算法进行特征选择；对特征选择的结果进一步加工，将数据划分为训练集和测试集；利用代价敏感随机森林进行模型训练；在训练完成后，对得到的模型进行评估；在模型训练完成后整理出四类文件，进行接口封装，使用所述接口进行颅内感染预测。通过上述方法及系统可以提高术后颅内感染预测的精确性。

Description

一种基于机器学习的术后颅内感染预测方法及系统

技术领域

本发明涉及机器学习领域，具体而言涉及一种基于机器学习的术后颅内感染预测方法及系统。

背景技术

术后颅内感染是指在脑部手术后，颅内发生细菌或其他微生物感染的情况。这种感染可能发生在手术切口周围的软组织，也可能累及脑膜和脑组织。这种感染并不常见，但会对患者造成破坏性影响，如增加治疗强度、延长住院时间和增加费用。建立一个有效的术后颅内感染预测系统可以帮助医生决定患者是否需要更多的临床治疗，从而提高医疗质量。

在现有技术中通常采用logistic回归(LR)建模的回顾性队列研究术后感染。但术后颅内感染的发生率在2％-20％之间，导致临床数据资料分布不均衡；另一方面，为了获得充分的信息，研究不同变量对术后颅内感染预测的作用，需要收集大量变量，难以确定这些变量之间的关系；因此术后颅内感染相关的医疗数据具有高维特征和不平衡因子的特性，如果采用传统分类器进行直接预测，分类精度往往较低，无法达到临床应用的目的。

发明内容

为了解决现有技术中术后颅内感染预测分类精度往往较低，本发明提供一种基于机器学习的术后颅内感染预测方法及系统。

在本发明的一个方面，一种基于机器学习的术后颅内感染预测方法，如下步骤：步骤S1，数据收集，采集涉颅手术后患者的相关信息；步骤S2，数据预处理，对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正；步骤S3，利用粗糙集算法进行特征选择；步骤S4，对特征选择的结果进一步加工，增强特征的表征能力；步骤S5，将数据划分为训练集和测试集；步骤S6，利用代价敏感随机森林进行模型训练；步骤S7，在训练完成后，对得到的模型进行评估；步骤S8，在模型训练完成后整理出四类文件，包括Model文件、Label编码文件、元数据文件、变量文件；步骤S9，进行接口封装，使用所述接口进行颅内感染预测。

进一步地，所述步骤S1采集的数据包括：患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。

进一步地，所述步骤S2中标准化具体包括：特征编码：将非数值特征转换为数值表示；特征缩放：对数值特征进行缩放，将数据特征均缩放至0～1内，以方便统一处理；数值化：将非数值数据转化成数值以便于处理。

进一步地，所述步骤S3具体包括：记U＝{x₁，x₂，…x_n}是全部术后颅内感染数据；A是全部数据的特征集合；

在现有技术的粗糙集理论基础上引入模糊关系，

其中，x,y∈U，μ_RP是由特征子集P引起的模糊相似关系，其中P∈A；

其中，是数据x和y对于特征a的相似程度，a∈A；使用一下函数计算/>

其中，a(y)为y的a属性值，a(x)为x的a属性值，σ_a为a属性的方差；模糊正区域定义为

模糊正区域表示感染正相关；

其中，sup表示上界，P、Q属于A的子集；通过μ_Q(x)将模糊依赖粗糙函数定义为：

选定原始A为集合P，迭代地从集合P中去掉部分属性后的集合确定为Q，计算γ_p，如果γ_p变化超过预设阈值则表示去掉的属性重要性大，则将去掉的属性确定为选用特征；获取全部选用特征为后续机器学习的特征。

进一步地，所述步骤S4中对特征选择的结果进一步加工具体包括：组合特征：将不同特征进行组合，形成新的特征表示；特征转换：通过线性或非线性的特征转换方法，将原始特征映射到一个更高维度或非线性空间中，以提升特征的表征能力。

进一步地，所述步骤S6具体包括：将cost_ij定义为将第i类预测为第j类的成本，其中0表示非感染者，1表示感染者；并且cost_ii＝0，cost₁₀＞cost₀₁，总的成本定义为：

其中N为样本总数，x_i为将非感染者预测成感染者的概率，y_i为将感染者预测成非感染者的概率；在树构造过程中，使用一个基于开销的分割标准，首先计算每个树节点的代价，进一步地，根据算法总代价的降低计算每次分割的收益，具体计算公式如下

I_c(S)＝min{cost(f₀(s))，cost(f₁(s))}

其中，I_c(S)表示为基于成本的杂质，cost(f_i(s))表示错误分类所有第i类的代价，进一步地，假设样本取l^j作为一个分裂点a^j；将(a^j，l^j)定义为特征a^j的分割规则,将样本S分为S^l和S^r；利用I_c(S)将分裂规则的增益定义为：

其中，S^l≤l^j；S^r＞l^j；利用分裂规则的增益为目标，其余部分同现有技术中的随机森林模型，构建成本敏感决策树，根据构建好的成本敏感决策树对训练集进行训练。

进一步地，所述步骤S7具体包括：使用训练集来训练模型，然后使用测试集来评估模型的性能，所述训练集与测试集的分配比例为8：2。

进一步地，所述步骤S8具体包括：在模型训练完成后整理出四类文件，

Model文件：包含已经训练好的模型参数和结构，用于后续的模型保存和加载，Model文件保存模型的权重、偏置、网络结构信息，用于预测新的数据或继续训练模型；

Label编码文件：Label编码文件记录了原始标签和相应编码之间的映射关系，用于将预测结果转换回原始标签；

元数据文件：元数据文件记录了模型训练过程中使用的数据集的相关信息，包括数据集的特征信息、数据预处理方法、特征工程方法；

变量文件：使用粗糙集算法进行特征选择了特征的特征，同时在随机森林模型的训练过程中会产生特征权重信息，使用变量文件记录这些信息，用于后续的特征选择、特征重要性分析或解释模型的预测结果。

进一步地，所述步骤S9具体包括：

确定接口类型：首先确定要使用的接口类型；

定义输入和输出：确定接口的输入和输出格式；

封装模型调用逻辑：在接口中封装模型的调用逻辑；

处理异常情况：在接口中添加错误处理机制，确保能够及时捕获和处理异常情况；

部署和测试：将封装好的接口部署到适当的服务器或环境中，然后进行测试；通过发送请求并检查返回的预测结果，验证接口的功能和性能；

文档和API说明：编写文档和API说明，描述接口的使用方法、输入输出格式、参数说明。

另一方面，本发明还提供一种基于机器学习的术后颅内感染预测系统，所述系统用于执行前述的方法，所述系统具体包括：数据收集模块，用于采集涉颅手术后患者的相关信息；数据预处理模块，用于对接收的数据进行删除无用数据、数据清洗、标准化、错误修正；特征选择模块，用于利用粗糙集算法进行特征选择；特征增强模块，用于对特征选择的结果进一步加工，增强特征的表征能力；划分模块，用于将数据划分为训练集和测试集；训练模块，用于利用代价敏感随机森林进行模型训练；评估模块，用于在训练完成后，对得到的模型进行评估；存储模块，用于在模型训练完成后整理出四类文件，包括Model文件、Label编码文件、元数据文件、变量文件；接口模块，用于进行接口封装。

本发明通过上述技术方案，建立了颅内感染预测的整套方法，并且在方法中使用粗糙集算法进行特征选择、利用代价敏感随机森林进行模型训练提高了术后颅内感染预测的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法示意图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出优选的描述。

本实施例通过如下步骤解决上术问题:

在一个实施例中，参考图1，本发明提供一种基于机器学习的术后颅内感染预测方法，所述方法包括如下步骤：

步骤S1，数据收集，采集术后患者的相关信息。

在确保获得合法的数据获取权限，遵守医疗数据保护法规的前提下，本发明可以通过电子健康记录系统(EHR)获取病历和临床数据、可以通过医疗设备获取实时数据，或者从实验室数据库中获取实验室结果数据等。具体的采集方法本发明不做过多限定，只要能获取相应数据即可。

具体地，相应数据可包括患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。

S2，数据预处理，对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正。

数据预处理是一个重要的步骤，旨在清洗、转换和准备原始数据，以便更好地适应机器学习算法的要求，包括对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正。

无用数据指标包括姓名、住院号、以及糖含量等属于诊断型数据格式指标，其可指示样本数据的来源等，但在对机器学习预测无作用，因此将相应的数据删除。

其中数据清洗是为了处理数据中的一些错误或异常，具体包括：

处理缺失值：检测和处理数据中的缺失值，可以删除缺失值所在的行或列，或使用插值等方法填充缺失值。

处理异常值：检测和处理数据中的异常值，可以通过统计方法或离群点检测算法识别和处理异常值。

处理重复值：检测和处理数据中的重复值，可以根据特定的属性或整行数据进行去重操作。

标准化是为了将数据处理成便于机器学习的格式，具体包括：

特征编码：将非数值特征转换为数值表示，例如使用独热编码(One-HotEncoding)将分类变量转换为二进制向量。

特征缩放：对数值特征进行缩放，常见的方法包括标准化(Normalization)和归一化(Scaling)。示例性地，可将数据特征均缩放至0～1内，以方便统一处理。

数值化：将非数值数据转化成数值以便于处理，如严重级别低、中、高转化成1、2、3等。

优选地，将数据保存成数据库文件。

S3，利用粗糙集算法进行特征选择。

由于术后颅内感染相关的特征非常多，过多的特征可能导致维度灾难，即维度过高而使模型难以学习和推广，通过减少特征数量，可以降低模型的复杂度和计算成本，加快训练和推理的速度，通过选择最相关的特征，可以减少过拟合的风险，提高模型的泛化能力。

现有技术中常见的特征选择方法包括基于统计的方法(如方差选择、相关系数、卡方检验)、基于模型的方法(如L1正则化、决策树重要性)、基于特征子集搜索的方法(如递归特征消除、前向选择、后向消除)等。但这些方法的前提是数据量达到一定的规模，并且数据之间平衡，然而颅内感染发生率不高，现有临床数据少，并且数据不平衡，如颅内引流管时间、腰池引流管时间等均为一次性数据，而开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素等，在整个恢复过程中会产生多个数据。使用传统的特征选择很容易忽略数据量少但非常重要的数据。

为了解决该问题，本实施例利用粗糙集算法进行特征选择，具体包括：

记U＝{x₁，x₂，…x_n}是全部术后颅内感染数据；A是全部数据的特征集合，C是条件集合，条件集合是感染产生的条件，如特征数据的频率、持续时间、现出次数等，D是决策属性集合，如感染正相关、感染负相关、模糊相关等，其中模糊是指在相关与不相关边界的数据；具体的条件以及决策属性的设定本实施例不做限定，本领域技术人员可根据现有临床经验确定。

在现有技术的粗糙集理论基础上引入模糊关系，

其中，x,y∈U，是由特征子集P引起的模糊相似关系，其中P∈A；

模糊正区域表示感染正相关；

从上式可以得出，Q在一定程度上依赖于P；当一个属性从一组被考虑的条件属性中移除时，通过计算依赖性的变化，可以获得该属性重要性的度量；

选定原始A为集合P，迭代地从集合P中去掉部分属性后的集合确定为Q，计算γ_p，如果γ_p变化超过预设阈值则表示去掉的属性重要性大，则将去掉的属性确定为选用特征；获取全部选用特征确定为后续机器学习的特征。

优先地，迭代地从集合P中去掉部分属性后的集合确定为Q可以每次去掉一个特征，直到对每个特征都进行一次测试。

S4对特征选择的结果进一步加工，增强特征的表征能力；

增强特征的表征能力可以防止模型过于复杂和学习困难，具体地，进一步加工可以包括：

组合特征：将不同特征进行组合，形成新的特征表示。例如，可以通过加减乘除等操作，将多个特征进行组合，获得更高层次的特征表征。示例性地，将引流管时间相关的特征求平均，以减少特征的数据。

特征转换：通过线性或非线性的特征转换方法，将原始特征映射到一个更高维度或非线性空间中，以提升特征的表征能力。示例性地，采用主成分分析(PCA)、核方法(如核PCA、核映射)等进行特征转换。

S5将数据划分为训练集和测试集；

将训练数据按比例划分为训练集和测试集是为了评估模型的性能和泛化能力，通过将数据划分为训练集和测试集，可以使用训练集来训练模型，然后使用测试集来评估模型的性能。测试集是未参与模型训练的数据，可以用来模拟模型在实际应用中的性能。这样可以更客观地评估模型对未知数据的预测能力。数据划分还可以用于验证模型的假设和前提条件。通过将数据划分为训练集和测试集，可以检验模型是否能够对未知数据进行准确预测，从而验证模型的有效性和可靠性。

优选地，本发明中将数据按照8：2进行划分为训练集和测试集。

S6，利用代价敏感随机森林进行模型训练。

由于术后颅内感染临床数据不平衡，采用不同技术手段进行手术、不同医疗团队、不同医院获取的数据量差异巨大、部分特征数据缺失，部分特征数据量少等，如果采用传统的机器学习模型，则很容易忽略样本少的数据，导致过拟合、模型解释性低等问题。

为了解决上述问题，本实施例利用代价敏感随机森林进行模型训练，代价敏感学习为了衡量不同类型的误差所造成的不同损失，可以对误差赋值一个“不等成本；二元分类代价可以用一个2x2的代价矩阵表示，该矩阵引入两种正确分类和两种错误分类的相关代价。将cost_ij定义为将第i类预测为第j类的成本，在本发明中0表示非感染者，1表示感染者；进一步地，cost_ii＝0，cost₁₀＞cost₀₁，总的成本定义为：

其中N为样本总数，x_i为将非感染者预测成感染者的概率，y_i为将感染者预测成非感染者的概率。随机森林是一种基于决策树的集成学习方法。随机森林在决策树训练过程中引入了属性选择的随机性。具体来说，传统决策树在选择分割属性时，在当前节点的属性集(假设c个属性)中选择一个最优属性；在随机森林中，对于基决策树的每个节点，首先从该节点的属性集合中随机选取一个包含k(k≤c)个属性的子集，进一步地，从该子集中选择一个最优属性进行拆分。基础学习者的多样性不仅来自于样本扰动(对初始训练集进行采样)，也来自于属性扰动，因此个体学习者差异程度的增加进一步提高了最终积分的泛化性能。本实施例提出的代价敏感随机森林(CSRF)分类器是基于代价敏感决策树(CSDT)的。在树构造过程中，使用了一个基于开销的分割标准。首先计算每个树节点的代价，进一步地，根据算法总代价的降低计算每次分割的收益。具体计算公式如下

I_c(S)＝min{cost(f₀(s))，cost(f₁(s))}

其中，I_c(S)表示为基于成本的杂质，cost(f_i(s))表示错误分类所有第i类的代价。进一步地，假设样本取l^j作为一个分裂点a^j；将(a^j，l^j)定义为特征a^j的分割规则,将样本S分为S^l和S^r；利用I_c(S)将分裂规则的增益定义为：

其中，S^l≤l^j；S^r＞l^j；利用分裂规则的增益为目标，其余部分同现有技术中的随机森林模型，构建了成本敏感决策树，根据构建好的成本敏感决策树对训练集进行训练。

通过不同的分裂点的设定，利用分裂规则的增益为目标，提高分裂增益，有利于将不同的类型的数据分裂为不同森，避免过多的同一类型的数据进行过多的分裂，从而忽略了类型少的数据。

S7在训练完成后，对得到的模型进行评估。

在训练完成后，对得到的模型进行评估是非常重要的，以了解模型的性能和泛化能力。本实施例将原始数据集划分为训练集和测试集。使用训练集来训练模型，然后使用测试集来评估模型的性能。具体地，可以使用各种指标(如准确率、精确度、召回率、F1分数等)来衡量模型在测试集上的性能。

进一步地，通过真实数据和预测数据进行比对，判定模型的好坏。

S8在模型训练完成后整理出四类文件，包括Model文件、Label编码文件、元数据文件、变量文件。

为了便于模型的后续使用了部署，在模型训练完成后整理出四类文件。

Model文件：包含已经训练好的模型参数和结构，用于后续的模型保存和加载。Model文件可以是机器学习框架或库特定的格式，如.h5、.pkl、.ckpt等。Model文件保存了模型的权重、偏置、网络结构等信息，可以用于预测新的数据或继续训练模型。

Label编码文件：本实施方式是为了将感染进行分类，因此需要对标签进行编码，将其转换为机器学习算法可处理的数字形式。Label编码文件记录了原始标签和相应编码之间的映射关系，用于将预测结果转换回原始标签。这样可以方便地将预测结果解释为具体的类别或类别名称。

元数据文件：元数据文件记录了模型训练过程中使用的数据集的相关信息，包括数据集的特征信息、数据预处理方法、特征工程方法等。元数据文件可以用于复现模型训练过程，以及在部署和应用模型时了解模型所依赖的数据处理方法和输入要求。

变量文件：本实施例中，使用粗糙集算法进行特征选择了特征的特征，同时在随机森林模型的训练过程中会产生特征权重信息，使用变量文件记录这些信息，用于后续的特征选择、特征重要性分析或解释模型的预测结果。

这些文件可以在后续的模型使用、评估或部署过程中能够方便地调用和理解模型。

S9进行接口封装，以便实现对模型的调用返回预测结果。

为了方便后续对模型的调用，本实施全进一步进行接口封装，包括：

确定接口类型：首先确定要使用的接口类型，可以是Web接口(如RESTful API)或Python函数接口等，根据具体需求选择适合的接口类型。

定义输入和输出：确定接口的输入和输出格式。可选的，输入格式可以是JSON格式、表单参数、文件等。输出是模型的预测结果，也可以是JSON格式、简单文本等形式。

封装模型调用逻辑：在接口中封装模型的调用逻辑。这包括加载模型、预处理输入数据、调用模型进行预测、处理预测结果等步骤。

处理异常情况：考虑异常情况的处理，例如输入数据格式错误、模型加载失败等。在接口中添加必要的错误处理机制，确保能够及时捕获和处理异常情况。

部署和测试：将封装好的接口部署到适当的服务器或环境中，然后进行测试。通过发送请求并检查返回的预测结果，验证接口的功能和性能。

文档和API说明：编写文档和API说明，描述接口的使用方法、输入输出格式、参数说明等。这样可以方便其他开发人员或用户使用接口。

通过接口封装，可以使模型的调用更加灵活和可扩展，方便其他系统或应用程序通过调用接口来使用模型的预测能力。

在另一种实施方式中，本发明实施例提供了一种基于机器学习的术后颅内感染预测系统，包括：

数据收集模块，用于采集涉颅手术后患者的相关信息；

数据预处理模块，用于对接收的数据进行删除无用数据、数据清洗、标准化、错误修正；

特征选择模块，用于利用粗糙集算法进行特征选择；

特征增强模块，用于对特征选择的结果进一步加工，增强特征的表征能力；

划分模块，用于将数据划分为训练集和测试集；

训练模块，用于利用代价敏感随机森林进行模型训练；

评估模块，用于在训练完成后，对得到的模型进行评估；

存储模块，用于在模型训练完成后整理出四类文件，包括Model文件、Label编码文件、元数据文件、变量文件；

接口模块，用于进行接口封装。

上述模块执行如前述实例例所述的方法。

本发明未特别明确的部分模块结构，以现有技术记载的内容为准。本发明在前述背景技术部分以及具体实施例部分提及的现有技术可作为本发明的一部分，用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。

Claims

1.一种基于机器学习的术后颅内感染预测方法，其特征在于包括如下步骤：

步骤S1，数据收集，采集涉颅手术后患者的相关信息；

步骤S2，数据预处理，对于接收的数据进行删除无用数据、数据清洗、标准化、错误修正；

步骤S3，利用粗糙集算法进行特征选择；

步骤S4，对特征选择的结果进一步加工，增强特征的表征能力；

步骤S5，将数据划分为训练集和测试集；

步骤S6，利用代价敏感随机森林进行模型训练；

步骤S7，在训练完成后，对得到的模型进行评估；

步骤S8，在模型训练完成后整理出四类文件，包括Model文件、Label编码文件、元数据文件、变量文件；

步骤S9，进行接口封装，使用所述接口进行颅内感染预测。

2.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于：所述步骤S1采集的数据包括：患者姓名、性别、年龄、原发病分类、术前GCS评分、感染前手术次数、颅内引流管时间、腰池引流管时间、脑脊液漏、是否人工材料植入、术中失血量、开放性伤口、术后空腹血糖、合并其他部位感染、使用糖皮质激素、预防使用抗生素时间、末次手术时间、血白蛋白、皮下、以及硬膜外引流天数。

3.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S2中标准化具体包括：

特征编码：将非数值特征转换为数值表示；特征缩放：对数值特征进行缩放，将数据特征均缩放至0～1内，以方便统一处理；数值化：将非数值数据转化成数值以便于处理。

4.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S3具体包括：

记U＝{x₁，x₂，…x_n}是全部术后颅内感染数据；A是全部数据的特征集合；

在现有技术的粗糙集理论基础上引入模糊关系，

其中，a(y)为y的a属性值，a(x)为x的a属性值，σ_a为a属性的方差；

模糊正区域定义为

模糊正区域表示感染正相关；

5.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S4中对特征选择的结果进一步加工具体包括：组合特征：将不同特征进行组合，形成新的特征表示；特征转换：通过线性或非线性的特征转换方法，将原始特征映射到一个更高维度或非线性空间中，以提升特征的表征能力。

6.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S6具体包括：将cost_ij定义为将第i类预测为第j类的成本，其中0表示非感染者，1表示感染者；并且cost_ii＝0，cost₁₀＞cost₀₁，总的成本定义为：

I_c(S)＝min{cost(f₀(s))，cost(f₁(s))}

7.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S7具体包括：使用训练集来训练模型，然后使用测试集来评估模型的性能，所述训练集与测试集的分配比例为8：2。

8.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S8具体包括：在模型训练完成后整理出四类文件，

9.根据权利要求1所述的一种基于机器学习的术后颅内感染预测方法，其特征在于所述步骤S9具体包括：

确定接口类型：首先确定要使用的接口类型；

定义输入和输出：确定接口的输入和输出格式；

封装模型调用逻辑：在接口中封装模型的调用逻辑；

10.一种基于机器学习的术后颅内感染预测系统，所述系统用于执行所述权利要求1-9任意一项所述的方法，所述系统具体包括：

数据收集模块，用于采集涉颅手术后患者的相关信息；

特征选择模块，用于利用粗糙集算法进行特征选择；

划分模块，用于将数据划分为训练集和测试集；

训练模块，用于利用代价敏感随机森林进行模型训练；

评估模块，用于在训练完成后，对得到的模型进行评估；

接口模块，用于进行接口封装。