CN117174330A

CN117174330A - 一种基于机器学习的IgA肾病患者治疗方案推荐方法

Info

Publication number: CN117174330A
Application number: CN202311048429.3A
Authority: CN
Inventors: 陈浩; 李福婷; 姜玉苹; 斯海燕; 黎海源; 陆凯东
Original assignee: Shentai Health Technology Nanjing Co ltd
Current assignee: Shentai Health Technology Nanjing Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-05

Abstract

本发明提供一种基于机器学习的IgA肾病患者治疗方案推荐方法，包括以下步骤：S1、收集样本数据；S2、数据集预处理；S3、特征选择；S4、患者聚类；S5、构建K最近邻搜索集；S6、方案推荐；S7、整体评估。本发明结合基于L2正则化的岭回归、随机森林的特征选择得出特征子集，再根据临床医生的经验设置阈值，减小特征维度，去除了冗余特征，具有较强的针对性；同时优化K最近邻搜索集的搜索范围，提高了获取相似治疗方案的及时性和便捷性；另外，不仅结合了现医生的经验和以往专家医生的经验和知识库，还考虑了患者的个人需求，使推荐的治疗方案更具有可靠性、人性化，进而辅助医生和患者更加快捷、准确、合理地确定治疗方案。

Description

一种基于机器学习的IgA肾病患者治疗方案推荐方法

技术领域

本发明涉及肾病治疗方案推荐技术领域，尤其涉及一种基于机器学习的IgA肾病患者治疗方案推荐方法。

背景技术

机器学习是一种人工智能技术，通过利用算法模型来解析数据并从中进行学习，最终对真实世界中的事件作出预测和决策。随着互联网的快速发展，数据的获取变得越来越容易，而机器学习的个性化推荐算法也得到越来越多企业的关注。个性化推荐概念首次由卡耐基梅隆大学的Robert Armstrong等人在美国人工智能协会上提出，后广泛应用于电子商务领域的商品推荐。在医疗领域，机器学习技术也有着广泛的应用，其中个性化推荐算法可应用于患者的个性化治疗。传统的治疗方式是由医生凭借个人经验和疾病治疗指南根据疾病的类型和病情来制定治疗方案，而忽略了患者的个体差异。而机器学习可以通过对大量的患者数据进行分析和挖掘更多的诊疗规则，从而实现对患者的个体化特征和治疗需求的识别和分析，制定出更加精准和有效的治疗方案。

针对IgA肾病患者实际情况利用机器学习技术进行治疗方案的推荐，传统的推荐系统是基于描述性统计方法的推荐，存在一定的局限性；现代的个性化推荐系统包括基于内容、协同过滤、模型的推荐等，有效地提高了推荐的准确性。现有的基于机器学习的IgA肾病患者治疗方案推荐技术存在以下缺陷：

（1）构建推荐方法时未对IgA肾病患者的数据进行特征选择，过滤掉冗余的特征或特征选择的方式过于简单。

（2）面临巨大的患者规模和特征数量，超高维的矩阵使数据稀疏问题较为严重，在实际的应用中，不仅影响构建K最近邻搜索集的性能，导致推荐质量不佳，还会导致搜索相似患者的时间过长。

（3）在为患者推荐个性化治疗方案时，大多数方法仅考虑患者的生物性个体差异，未考虑患者的人文性个体差异。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于机器学习的IgA肾病患者治疗方案推荐方法。

为实现上述目的，本发明采用了如下技术方案：一种基于机器学习的IgA肾病患者治疗方案推荐方法，包括以下步骤；

S1、收集样本数据；

从现有的数据库中获取IgA肾病患者的样本数据；

具体包括以下子步骤：

S11、按照入选标准和排除标准查询历史IgA肾病患者的医疗数据；

所述入选标准为：患者满足年龄大于15岁、随访次数大于18次，且肾穿刺活检光镜和免疫荧光证实为原发性IgA肾病；

所述排除标准为：排除继发性IgA肾病，包括：过敏性紫癜、系统性红斑狼疮、类风湿性关节炎、乙肝病毒相关性肾炎及肝硬化；排除合并其他肾脏病，包括：糖尿病、肥胖相关性、间质性肾炎或原发性高血压；

所述医疗数据包括：患者入院时的基本信息、诊断信息、检查检验项目信息、初始治疗方案信息；

基本信息包括：个人信息、病症描述、基础检查信息、病史；

所述个人信息包括：病历id、姓名、年龄、性别、诊断时间；

所述基础检查信息包括：身高、体重、血压；

所述病史包括：家族史、既往史、过敏史；

所述诊断信息包括：临床分型；临床分型是指同一种疾病具有多种临床表现，根据IgA肾病的临床表现不同，在临床上可以分为六种临床类型，包括孤立性镜下血尿型、尿检异常型、反复发作肉眼血尿型、血管炎型（新月体型）、大量尿蛋白型、高血压型。

所述检查项目信息包括：实验室检查信息、影像检查信息、病理检查信息；

所述实验室检查信息包括：嗜酸性粒细胞百分数、血小板计数、血红蛋白、血白蛋白、24小时尿蛋白定量、尿素氮、肌酐、尿酸、尿素、总蛋白、总胆红素、总胆固醇、二氧化碳、甘油三酯、葡萄糖、肾小球过滤率、补体C3、补体C4、钙、钾、磷、钠、氯、尿NAG酶、C反应蛋白；

所述影像检查信息包括：CT、心电图。

S12、整理步骤S11得到的医疗数据，形成IgA肾病患者的样本数据；

所述样本数据包含患者不同时间的医学特征数据及其治疗方案；

所述医学特征数据是指所述基本信息和所述实验室检查信息；

所述医学特征数据的类型包括数值型和非数值型；

S13、随访进展情况记录随访信息，包括实验室检验数据和维持治疗方案。

S2、数据集预处理；

统一临床分型名称和检验项目名称及单位、处理缺失值、进行数据标准化；

具体包括以下子步骤：

S21、数据清洗；

S211、依据医学实体标准库，对样本数据中同一临床分型和检查检验项目的名称，进行统一命名；

S212、依据规定的单位换算规则，对样本数据中的不同的单位名称进行统一单位；

S213、对样本数据中非数值型医学特征数据进行赋值换算；

具体赋值换算方法为：制定非数值型数据转换规则，对非数值型医学特征数据进行标签编码；

S214、对样本数据中数值型医学特征数据进行缺失值处理；

具体缺失值处理方法包括：对于缺失率大于50%的特征变量进行删除；对于缺失率小于或等于50%的特征变量进行填充，包括平均值、众数的填充；

所述平均值、众数是指医学特征数据所在列的均值、众数；

S22、标准化处理；

具体计算公式为：；

其中，mean为数据集的平均值，std为数据集的标准差；将数据变换为均值为0，标准差为1的分布；

原始数据由于自变量的单位不同，会给数据分析带来一定的困难，又由于涉及的数据量较大，可能会因为舍入误差而使得计算结果并不理想；归一化和标准化系数有利于消除由于量纲不同、数量级不同带来的影响，避免不必要的误差。

S3、特征选择；

结合基于L2正则化的岭回归、随机森林的特征选择得出特征子集，即在岭回归和随机森林模型给出权重系数和特征重要性后，根据临床医生的经验设置阈值，减小特征维度，实现特征选择，去除了冗余特征，具有较强的针对性；

具体包括以下子步骤：

S31、将患者根据治疗效果划分为有效和无效两个类别；

划分标准为：计算治疗前后血肌酐的下降幅度，若下降20%及以上则代表治疗有效，否则为无效；

按照7:3的比例划分训练集和测试集，目的是在训练模型时使用尽可能多的数据来提高模型的性能和准确性，同时保留一部分数据用于评估模型的泛化能力。这样可以帮助发现模型的过拟合或欠拟合问题，并进行进一步的调整和改进。在实际应用中，划分比例可以根据数据的大小和特性进行调整，以适应具体的任务需求。

S32、基于L2正则化的岭回归的特征选择模型，将所需特征，包括：年龄、性别、身高、体重、血压、临床分型、实验室检查信息，放入模型，通过判断模型在训练集和测试集上的准确率查看是否有过拟合的存在；

使用岭回归模型给出特征的权重系数后，根据临床医生经验，设置阈值，减小特征维度，实现特征选择，从而获取权重系数较大的特征。

S33、基于随机森林的特征选择模型，得到特征的权重系数后，根据临床医生经验设置阈值，获取特征重要性较大的特征。

S34、得到最终的特征子集。

综合考虑上述两种模型筛选出的特征的一致性，并结合医生的建议，筛选出最终的特征子集。

S4、患者聚类；

采用K-means聚类或者AP聚类，将历史患者划分为C个类，提取每个患者所属的类别，并为其打上相应的标签；

具体包括以下子步骤：

S41、将步骤S3得到的特征子集定义为患者的特征；

定义第i个患者的特征为，其中n代表特征子集的个数；

S42、按照 8:2 的比例划分训练集和测试集，训练集中的患者为历史患者，测试集中的患者为新患者；

S43、依据不同的数据集采用不同的聚类方法，即采用K-means聚类或者AP聚类，将历史患者分为C个类，具体数据集的判断标准如下：

适用于K-means聚类的数据集类型：数据集规模较小或较大、需要预先设定聚类的数量，对数据的分布有一定的了解，选择K-means聚类进入步骤S44；

适用于AP聚类的数据集类型：数据集规模中等、不需要预设聚类数量，对数据的分布不了解或者数据的分布较为复杂，选择AP聚类进入步骤S45；

S44、K-means聚类；

S441、将历史患者进行 K-means聚类，由轮廓系数法确定最佳聚类数目K值，通过随机采取机制选取K个对象作为初始聚类中心；

S442、计算步骤S441中各患者的特征到各个初始聚类中心的欧氏距离，按照最小距离准则逐个分配到距离最近的簇中；

具体的，定义第j个聚类中心为，欧式距离公式为；

S443、分配完成后，计算各簇中所有特征数据点的平均值，更新簇平均值作为新的聚类中心；

S444、重复进行步骤S442和S443，直到簇的聚类中心不再发生变化；

S45、AP聚类；

将历史患者进行AP聚类，AP聚类自主确定聚类数目，将所有的患者都看成潜在的聚类中心，然后通过患者之间的相似度找到最合适的聚类中心；

S451、计算相似度矩阵S；

计算方法为使用欧氏距离来计算，其中患者i和患者j的相似度记为s(i,j)，相似度值越大说明患者i和患者j的距离越近；

S452、计算每个患者的吸引度矩阵R；

r(i,c) 表示聚类中心c适合作为患者i的聚类中心的程度，计算公式为；

S453、计算每个患者的归属度矩阵A；

表示患者i选择c作为其聚类中心的适合程度，计算公式为；

S454、重复进行步骤S452和S453，直到聚类中心不再发生变化；

S46、聚类完成后，为每位患者的特征打上类标签，输出历史患者的所属的类别和每个类的中心。

S5、构建K最近邻搜索集；

计算新患者和聚类中心的距离，并将其进行排序，选取距离小的K个类中的样本作为K最近邻搜索集，其中K<C；

具体包括以下子步骤：

S51、计算新患者的特征到各个聚类中心的距离，并将距离值保存；

距离度量方法为：采用步骤S442中的欧氏距离公式进行计算；

S52、对保存的距离值进行排序，返回排序结果，以找到与新数据点距离最近的聚类中心；

具体可使用适当的排序算法，例如快速排序或归并排序；

S53、选出前K个距离较小的类，并将这些类中的患者合并构建成一个K最近邻搜索集。

S6、方案推荐；

计算新患者和K最近邻搜索集中患者的相似性，并从大到小排序；

选取前k个相似历史患者的治疗方案作为新患者的治疗方案推荐序列；

考虑患者的人文性个体差异，将治疗效果好并符合患者要求的方案推荐给新患者；

具体包括以下子步骤：

S61、根据步骤S42划分训练集和测试集，训练集中的患者为历史患者，用于聚类和构建K最近邻搜索集，测试集中的患者为新患者，用于推荐模型有效性的评估测试；

S62、采用皮尔逊相关系数计算新患者和K最近邻搜索集中历史患者的相似度并按从大到小排序；

具体的，定义第i个患者的特征为，第j个患者的特征为，其中n代表特征子集的个数；

皮尔逊相关系数公式为，其中/>和/>分别是/>和/>的特征均值；

S63、选取相似度高的前k个历史患者作为新患者的k最近邻集，提取历史患者的治疗方案形成其推荐列表，结合历史患者的治疗效果和新患者的治疗需求进行推荐。

S7、整体评估；

S71、模型评价；

将测试集用于训练好的推荐模型中，并输出推荐的治疗方案，通过对比推荐的治疗方案和原始治疗方案，计算推荐的准确性；

S72、疗效评估；

预测新患者使用推荐的治疗方案后血肌酐的值，并通过比较治疗前后的血肌酐值的下降程度，来评估治疗方案的治疗效果。

与现有技术相比，本发明的有益效果为：

1、本发明在岭回归和随机森林模型给出权重系数和特征重要性后，根据临床医生的经验设置阈值，减小特征维度，实现特征选择，去除了冗余特征，具有较强的针对性。

2、本发明在聚类分析中使用了聚类算法进行患者划分，优化K最近邻搜索集的搜索范围，在准确率和计算时间复杂度等方面均优于传统的推荐算法，并且大大减少了计算量。

3、本发明的方法使获取与新患者相似的前k个患者的治疗方案更具及时性和便捷性，且不仅结合了现医生的经验和以往专家医生的经验和知识库，还根据患者的个人需求进行治疗方案的推荐，使推荐的治疗方案更具有可靠性、人性化，进而辅助医生和患者更加快捷、准确、合理地确定治疗方案，对提高医患关系起到重要作用。

实施方式

为使对本发明的目的、构造、特征、及其功能有进一步的了解，兹配合实施例详细说明如下。

一种基于机器学习的IgA肾病患者治疗方案推荐方法，包括以下步骤；

S1、收集样本数据；

从现有的数据库中获取IgA肾病患者的样本数据；

具体包括以下子步骤：

所述基础检查信息包括：身高、体重、血压；

所述病史包括：家族史、既往史、过敏史；

所述影像检查信息包括：CT、心电图。

所述医学特征数据的类型包括数值型和非数值型；

S2、数据集预处理；

具体包括以下子步骤：

S21、数据清洗；

例如：临床分型中的高血压型会存在IgA肾病（高血压型）、IgAN肾病（高血压型）、IgA（高血压型）、IgAN（高血压型）、IgAN（高血压型）CKD4期等不同叫法，需要对其进行统一命名。

例如：血肌酐的单位有μmol/L和mg/dL两种，1mg/dL等于88.4μmol/L，需要统一换算成同一单位。

S213、对样本数据中非数值型医学特征数据进行赋值换算；

例如：性别为非数值型医学特征，分别有男性和女性，对其进行标签编码，用数值0代表女性，数值1代表男性。

S214、对样本数据中数值型医学特征数据进行缺失值处理；

所述平均值、众数是指医学特征数据所在列的均值、众数；

S22、标准化处理；

具体计算公式为：；

S3、特征选择；

具体包括以下子步骤：

S31、将患者根据治疗效果划分为有效和无效两个类别；

按照7:3的比例划分训练集和测试集，目的是在训练模型时使用尽可能多的数据来提高模型的性能和准确性，同时保留一部分数据用于评估模型的泛化能力。这样可以帮助发现模型的过拟合或欠拟合问题，并进行进一步的调整和改进。在实际应用中，划分比例可以根据数据的大小和特性进行调整，以适应具体的任务需求；

使用岭回归模型给出特征的权重系数后，根据临床医生经验，设置阈值，减小特征维度，实现特征选择，从而获取权重系数较大的特征；

S33、基于随机森林的特征选择模型，得到特征的权重系数后，根据临床医生经验设置阈值，获取特征重要性较大的特征；

S34、得到最终的特征子集；

S4、患者聚类；

具体包括以下子步骤：

S41、将步骤S3得到的特征子集定义为患者的特征；

定义第i个患者的特征为，其中n代表特征子集的个数；

S44、K-means聚类；

具体的，定义第j个聚类中心为，欧式距离公式为；

S45、AP聚类；

S451、计算相似度矩阵S；

S452、计算每个患者的吸引度矩阵R；

S453、计算每个患者的归属度矩阵A；

表示患者i选择c作为其聚类中心的适合程度，计算公式为；

S454、重复进行步骤S452和S453，直到聚类中心不再发生变化；

S5、构建K最近邻搜索集；

具体包括以下子步骤：

距离度量方法为：采用步骤S442中的欧氏距离公式进行计算；

具体可使用适当的排序算法，例如快速排序或归并排序；

S6、方案推荐；

考虑患者的人文性个体差异，比如患者的经济、风险、不良反应等，将治疗效果好并符合患者要求的方案推荐给新患者；

具体包括以下子步骤：

S7、整体评估；

S71、模型评价；

将测试集用于训练好的推荐模型中，并输出推荐的治疗方案，通过对比推荐的治疗方案和原始治疗方案，计算推荐的准确性或精确；

S72、疗效评估；

本发明已由上述相关实施例加以描述，然而上述实施例仅为实施本发明的范例。必需指出的是，已揭露的实施例并未限制本发明的范围。相反地，在不脱离本发明的精神和范围内所作的更动与润饰，均属本发明的专利保护范围。

Claims

1.一种基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：包括以下步骤；

S1、收集样本数据；

从现有的数据库中获取IgA肾病患者的样本数据；

S2、数据集预处理；

具体包括以下子步骤：

S21、数据清洗；

S22、标准化处理；

具体计算公式为：；

S3、特征选择；

结合基于L2正则化的岭回归、随机森林的特征选择得出特征子集，即在岭回归和随机森林模型给出权重系数和特征重要性后，根据临床医生的经验设置阈值，减小特征维度，实现特征选择；

S4、患者聚类；

S5、构建K最近邻搜索集；

计算新患者和聚类中心的距离，并将其进行排序，选取距离小的K个类中的样本作为K最近邻搜索集，其中K <C；

S6、方案推荐；

S7、整体评估。

2.如权利要求1所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S1具体包括以下子步骤：

所述医学特征数据的类型包括数值型和非数值型；

3.如权利要求2所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：在步骤S11中，

所述基础检查信息包括：身高、体重、血压；

所述病史包括：家族史、既往史、过敏史；

所述诊断信息包括：临床分型；临床分型是指同一种疾病具有多种临床表现，根据IgA肾病的临床表现不同，在临床上可以分为六种临床类型，包括孤立性镜下血尿型、尿检异常型、反复发作肉眼血尿型、血管炎型（新月体型）、大量尿蛋白型、高血压型；

所述影像检查信息包括：CT、心电图。

4.如权利要求3所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S21具体包括以下子步骤：

S213、对样本数据中非数值型医学特征数据进行赋值换算；

S214、对样本数据中数值型医学特征数据进行缺失值处理；

所述平均值、众数是指医学特征数据所在列的均值、众数。

5.如权利要求4所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S3具体包括以下子步骤：

S31、将患者根据治疗效果划分为有效和无效两个类别；

按照7:3的比例划分训练集和测试集；

S34、得到最终的特征子集；

6.如权利要求5所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S4具体包括以下子步骤：

S41、将步骤S3得到的特征子集定义为患者的特征；

定义第i个患者的特征为，其中n代表特征子集的个数；

S44、K-means聚类；

具体的，定义第j个聚类中心为，欧式距离公式为；

S45、AP聚类；

S451、计算相似度矩阵S；

S452、计算每个患者的吸引度矩阵R；

S453、计算每个患者的归属度矩阵A；

表示患者i选择c作为其聚类中心的适合程度，计算公式为；

S454、重复进行步骤S452和S453，直到聚类中心不再发生变化；

7.如权利要求6所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S5具体包括以下子步骤：

距离度量方法为：采用步骤S442中的欧氏距离公式进行计算；

具体可使用适当的排序算法，例如快速排序或归并排序；

8.如权利要求7所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S6具体包括以下子步骤：

9.如权利要求8所述的基于机器学习的IgA肾病患者治疗方案推荐方法，其特征在于：步骤S7包括：

S71、模型评价；

S72、疗效评估；