CN112992377A

CN112992377A - 药物治疗结果预测模型生成方法、装置、终端及存储介质

Info

Publication number: CN112992377A
Application number: CN202110234102.XA
Authority: CN
Inventors: 赵霞; 胡湛棋; 廖建湘; 赵彩蕾; 段婧; 袁碧霞; 叶园珍; 操德智; 朱凤军; 姚一; 曾洪武; 李德发; 干芸根; 王海峰; 苏适; 杨俊�
Original assignee: Shenzhen Childrens Hospital
Current assignee: Shenzhen Childrens Hospital
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-18

Abstract

本发明公开了一种药物治疗结果预测模型生成方法、装置、终端及存储介质。方法包括：获取多个患者的临床数据，根据所述多个患者的临床数据生成至少一个第一训练数据集，每个所述第一训练数据集中包括多组训练数据，每组所述训练数据包括样本临床特征和对应的药物治疗结果；根据至少一个机器学习算法构建多个初始模型，根据各个所述第一训练数据集分别对所述初始模型进行训练后得到多个待选模型；根据所述多个待选模型的测试结果确定药物治疗结果预测模型。本发明，能够生成更加准确地预测药物治疗结果的机器学习模型，从而实现通过药物治疗结果预测模型预测患者的药物治疗结果以确定患者是否耐药，缩短了识别耐药患者的时间。

Description

药物治疗结果预测模型生成方法、装置、终端及存储介质

技术领域

本发明涉及医疗技术领域，特别涉及一种药物治疗结果预测模型生成方法、装置、终端及存储介质。

背景技术

结节性硬化症是由基因突变引起的常染色体显性遗传疾病，大多数结节性硬化症患者会有癫痫发作，癫痫是结节性硬化症的许多症状表现中最影响生活质量的症状之一，癫痫的主要治疗方法是抗癫痫药，然而，很多癫痫患者是耐药的，尽早识别出对药物治疗无效的患者非常重要目前，只有患者长时间复用药物无效才会发现患者耐药，而这一过程又需要较长时间。

因此，现有技术还有待改进和提高。

发明内容

针对现有技术的上述缺陷，提供一种药物治疗结果预测模型生成方法、装置、终端及存储介质，旨在解决现有技术中识别耐药患者耗时长的问题。

本发明的第一方面，提供一种药物治疗结果预测模型生成方法，包括：

获取多个患者的临床数据，根据所述多个患者的临床数据生成至少一个第一训练数据集，每个所述第一训练数据集中包括多组训练数据，每组所述训练数据包括样本临床特征和对应的药物治疗结果；

根据至少一个机器学习算法构建多个初始模型，根据各个所述第一训练数据集分别对所述初始模型进行训练后得到多个待选模型；

根据所述多个待选模型的测试结果确定药物治疗结果预测模型。

所述的药物治疗结果预测模型生成方法，其中，每个所述训练数据集的训练数据中的样本临床特征的类别一致，所述根据所述多个患者的临床数据生成至少一个第一训练数据集，包括：

从所述多个患者的临床数据中提取多个特征类别；

对所述多个特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中的样本临床特征的类别；

根据所述样本临床特征的类别构建所述第一训练数据集。

所述的药物治疗结果预测模型生成方法，其中，所述对所述多个特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中的样本临床特征的类别，包括：

对所述多个特别类别采用目标预设特征选择方法选取预设数量个特征类别作为目标第一训练数据集中的样本临床特征的类别。

所述的药物治疗结果预测模型生成方法，其中，所述预设特征选择方法包括方差分析检验、卡方检验以及互信息中的至少一种。

所述的药物治疗结果预测模型生成方法，其中，所述机器学习算法包括决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归和多层感知机中的至少一种。

所述的药物治疗结果预测模型生成方法，其中，所述根据所述多个待选模型的测试结果确定药物治疗结果预测模型，包括：

获取各个所述待选模型的接收机工作特性曲线；

获取接收机工作特性曲线的曲线下面积最高的所述待选模型作为目标模型；

根据第二训练数据集对所述目标模型进行训练后生成所述药物治疗结果预测模型；

其中，所述第二训练数据集中包括多组训练数据，每组训练数据中的样本临床特征类别与所述目标模型对应的所述第一训练数据集中的样本临床特别类别一致，所述第二训练数据集中的训练数据组数大于所述第一训练数据集中的训练数据组数。

所述的药物治疗结果预测模型生成方法，其中，所述在所述多个待选模型中确定药物治疗结果预测模型之后，所述方法还包括：

获取目标患者的临床数据，从所述目标患者的临床数据中提取出所述目标患者的临床特征；

将所述临床特征输入至已训练的药物治疗结果预测模型生成模型中，通过所述药物治疗结果预测模型生成模型确定所述目标患者的药物治疗预测结果；

其中，所述目标患者的临床特征的特征类别与训练所述药物治疗结果预测模型时使用的训练数据集中的所述样本临床特征的特别类别一致。

本发明的第二方面，提供一种药物治疗结果预测模型生成装置，包括：

训练数据生成模块，用于获取多个患者的临床数据，根据所述多个患者的临床数据生成至少一个第一训练数据集，每个所述第一训练数据集中包括多组训练数据，每组所述训练数据包括样本临床特征和对应的药物治疗结果；

训练模块，用于根据至少一个机器学习算法构建多个初始模型，并根据各个所述第一训练数据集分别对所述初始模型进行训练后得到多个待选模型；

确定模块，用于根据所述多个待选模型的测试结果确定药物治疗结果预测模型。

本发明的第三方面，提供一种终端，包括：处理器、与处理器通信连接的存储介质，存储介质适于存储多条指令，处理器适于调用存储介质中的指令，以执行实现上述任一项所述的药物治疗结果预测模型生成方法的步骤。

本发明的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的药物治疗结果预测模型生成方法的步骤。

有益效果：与现有技术相比，本发明提供了一种药物治疗结果预测模型生成方法、装置、终端及存储介质，对现有的患者临床数据进行不同类别的特征提取，并采用不同的机器学习算法构建不同的初始模型，在使用不同类别的样本特征进行训练后得到的模型中选择最终用于预测药物治疗结果的药物治疗结果预测模型，能够生成更加准确地预测药物治疗结果的机器学习模型，从而实现根据患者的临床数据提取的特征即可通过药物治疗结果预测模型预测患者的药物治疗结果以确定患者是否耐药，缩短了识别耐药患者的时间。

附图说明

图1为本发明提供的药物治疗结果预测模型生成方法的实施例的流程图；

图2为本发明提供的药物治疗结果预测模型生成方法的实施例中审查的药物治疗结果预测模型生成和使用过程逻辑图；

图3为本发明提供的药物治疗结果预测模型生成方法的实施例中各个待选模型的接收机工作特性曲线的曲线下面积统计图；

图4为本发明提供的药物治疗结果预测模型生成方法的实施例中目标模型的接收机工作特性曲线示意图；

图5为本发明提供的药物治疗结果预测模型生成装置的实施例的结构原理图；

图6为本发明提供的终端的实施例的结构原理图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供的一种药物治疗结果预测模型生成方法，是可以应用在终端中，终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑等。

实施例一

如图1所示，本发明提供的药物治疗结果预测模型生成方法包括步骤：

S100、获取多个患者的临床数据，根据所述多个患者的临床数据生成至少一个第一训练数据集，每个所述第一训练数据集中包括多组训练数据，每组所述训练数据包括样本临床特征和对应的药物治疗结果。

本发明中基于有监督的机器学习方法生成药物治疗结果预测模型，有监督学习基于已有的多个输入-输出数据对，学习从输入到输出的一个映射，一个输入-输出对可表示为二元组(x,y)，称为一个训练样例，其中x为输入，y为输出。多个训练样例组成训练集。有监督学习方法通过训练集，推导出一个函数f:x→y。这个函数也可以输入训练集中没有的x′。假设输入x′对应的正确输出为y′。在最理想情况下，输入x′到函数f后得到的

与正确标签相等，即

在有监督学习方法中，训练集中输入的特征的种类、机器学习算法的种类和参数等直接影响了生成的模型的预测效果，在本实施例中，对已有的临床数据中包括的特征种类通过不同的特征选择方式进行选择后生成包含不同类别的特征的训练数据集，每个所述训练数据集的训练数据中的样本临床特征的类别一致。具体地，所述根据所述多个患者的临床数据生成至少一个第一训练数据集，包括：

S110、从所述多个患者的临床数据中提取多个特征类别；

S120、对所述特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中所述样本临床特征的类别；

S130、根据所述样本临床特征的类别构建所述第一训练数据集。

具体地，患者的临床数据包括患者的个人信息、病史数据、基因数据、MR影像数据、CT影像数据等，将各项数据转换为数值后得到各个特征，即特征类别为数据类别，例如特征类别可以包括：性别、病灶数量、年龄、突变基因位置等，在获取到所述多个患者的临床数据后，对数据进行预处理，针对癫痫的耐药性预测时，去除无癫痫的患者数据以及有癫痫但非仅用药物治疗的患者数据，从数据中移除日期、姓名、出生日期以及其他与本任务无关的信息。在实际应用中，可能会存在数据缺失的情况，对于缺失的数据，有默认值的，可以采用默认值填补的方式进行补充，例如病灶数量可以默认为0，对于不详或未做检查的，连续值(如年龄等)可以填中位数，离散值(性别等)可以填众数。将患者数据中的治疗结果作为目标值单独保存。将进行预处理后的数据转化为数值后，对于每个患者的特征值构成一个长度为m的特征向量，m为特征种类数，例如在第i位患者的特征向量

中，第一个值v₁表示性别，第二个值v₂表示发病年龄等待，将所有n位患者的特征向量组成m×n的特征矩阵X_m×n＝[x₁,x₂,...x_n]，然后，将X_m×n看做m个列向量

在一种可能的实现方式中，为了方便数据处理，对于各个特征值，还进一步进行归一化操作，归一化操作的具体公式如下：

其中:＝表示赋值，max(f_i)表示求向量f_i中的最大值，min(f_i)表示求向量f_i中的最小值。

在对各个特征值进行处理后，采用至少一种预设特征选择方法进行特征选择，具体地，所述预设特征选择方法包括方差分析检验、卡方检验以及互信息中的至少一种，所述对所述多个特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中的样本临床特征的类别，包括：

对所述多个患者的临床数据进行处理后，得到多个特征类别以及各个特征类别下的特征值，采用至少一个预设特征选择方法在所述多个特征类别中选择预设数量个特征类别，进行选择后，特征矩阵X的大小由m×n变为k×n，k为所述预设数量。所述预设数量可以有多个，例如20、25、30等，例如，采用方差分析检验特征选择方法进行特征选择时，分别选取前20个、前25个，前30个特征类别，这样可以得到3个特征矩阵，大小分别为nx20，nx25，nx30，可以生成三个第一训练数据集，每个第一训练数据集中包括n组训练数据，每组训练数据中的样本临床特征的特征数分别为20个，25个和30个，每组训练数据中包括数据中的样本临床特征对应的药物治疗结果(是否耐药)。

不难看出，根据上述方法，可以构建多个第一训练数据集，由于在本实施例中，第一训练数据集用于初步确定模型的药物治疗结果预测能力以初步进行模型选择，所述第一训练数据集中的训练数据组数可以设置为较小的，在选择了模型后，再根据具有更多训练数据组数的第二训练数据集进行进一步训练，具体将在后文进行说明。

请再次参阅图1，本实施例提供的药物治疗结果预测模型生成方法还包括步骤：

S200、根据至少一个机器学习算法构建多个初始模型，根据各个所述第一训练数据集分别对所述初始模型进行训练后得到多个待选模型。

在本实施例中，分别根据各个第一训练数据集来进行模型训练，由于不同的机器学习算法的效果可能不同，为了选取到更适用于预测药物治疗结果的机器学习算法，在本实施例中，根据不同的机器学习算法构建不同的初始模型，再分别根据各个所述第一训练数据集进行训练后进行选取。

具体地，所述机器学习算法包括决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归和多层感知机中的至少一种。对于每一种机器学习算法，可以选择多个超参数构建初始模型，即，对于每一种及其学习算法，可以构建多个初始模型。如图2所示，通过不同的预设特征选择方法得到的训练数据集和不同的机器学习方法进行组合进行模型训练，可以得到多个不同的待选模型。根据所述待选模型的药物治疗结果预测性能进行筛选后确定最终用于预测新患者的药物结果的药物治疗结果预测模型，即本实施例提供的药物治疗结果预测模型生成方法还包括步骤：

S300、根据所述多个待选模型的测试结果确定药物治疗结果预测模型。

具体地，所述根据所述多个待选模型的测试结果确定药物治疗结果预测模型包括：

S310、获取各个所述待选模型的接收机工作特性曲线。

接收机工作特性曲线，是以分类器模型的假阳性率作为横轴，真阳性率作为纵轴，通过改变分类器模型阈值而画出的曲线。其曲线下面积可以反映分类器模型的分类性能，越接近1.0则说明效果越好；越接近0.5说明该分类器在进行随机猜测，无预测价值；若小于0.5，则说明比随机猜测的效果还差。正常有效的分类器模型，曲线下面积应该在0.5～1.0之间。

S320、获取接收机工作特性曲线的曲线下面积最高的所述待选模型作为目标模型。

对于接收机工作特性曲线的曲线下面积越高，说明对应的待选模型的药物治疗结果预测性能越好，在本实施例中，选取接收机工作特性曲线的曲线下面积最高的所述待选模型作为目标模型。

采用本实施例提供的方法进行实验，实验中使用数据集患者数量为103人。特征数量有155个，以及1个目标特征。经过数据预处理之后，患者数量剩余102人，特征数量剩余109个。实验中使用了方差分析F检验、卡方检验、互信息三种方法进行特征选择，特征选择数量k取20、35、50个，再增加一组不进行特征选择作为对比。实验中使用了决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归、多层感知机，共六种机器学习方法。随机森林中树的数量为100，支持向量机中的核函数为径向基函数，多层感知机中包含1个隐藏层，其中有100个神经元，并且激活函数为线性整流函数。实验中使用分层十折交叉验证，对各个特征选择方法以及机器学习方法构建的模型进行验证，每个实验重复50次，记录计算接收机工作特性曲线的曲线下面积，计算曲线下面积的平均值以及95％置信区间。实验结果如图3所示，图中展示了各种方法的曲线下面积及其95％置信区间(图3中每种机器学习方法对应的柱状图从左到右分别为不做特征选择、F校验选20、F校验选35、F校验选50、卡方校验选20、卡方校验选35、卡方校验选50、互信息选20、互信息选35和互信息选50时对应的接收机工作特性曲线的曲线下面积)。结果中，效果最好的为方差分析F检验选择35个特征，并使用多层感知机预测分类。其接收机工作特性曲线如图4所示，曲线下面积达到0.812，95％置信区间(0.807,0.817)。这说明本实施例提供的方法是可行的。

S330、根据第二训练数据集对所述目标模型进行训练后生成所述药物治疗结果预测模型。

所述第二训练数据集中包括多组训练数据，每组训练数据中的样本临床特征类别与所述目标模型对应的所述第一训练数据集中的样本临床特别类别一致，所述第二训练数据集中的训练数据组数大于所述第一训练数据集中的训练数据组数。在确定所述目标模型后，对于更多的已进行癫痫药物治疗的患者的临床数据，采用所述目标模型对应的临床特征类别进行特征提取和预处理后，生成所述第二训练数据集中的训练数据，同样的，所述第二训练数据集中包括多组训练数据，每组训练数据包括样本临床特征和对应的治疗结果。

采用所述第二训练数据集对所述目标模型进行训练后生成用于预测新患者是否耐药的所述药物治疗结果预测模型，即，所述根据所述多个待选模型的测试结果确定药物治疗结果预测模型之后，包括步骤：

综上所述，本实施例提供一种药物治疗结果预测模型生成方法，对现有的患者临床数据进行不同类别的特征提取，并采用不同的机器学习算法构建不同的初始模型，在使用不同类别的样本特征进行训练后得到的模型中选择最终用于预测药物治疗结果的药物治疗结果预测模型，能够生成更加准确地预测药物治疗结果的机器学习模型，从而实现根据患者的临床数据提取的特征即可通过药物治疗结果预测模型预测患者的药物治疗结果以确定患者是否耐药，缩短了识别耐药患者的时间。

应该理解的是，虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，本发明中的步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本发明步骤的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

实施例二

基于上述实施例，本发明还提供了一种药物治疗结果预测模型生成装置，如图5所示，包括：

训练数据生成模块，用于获取多个患者的临床数据，根据所述多个患者的临床数据生成至少一个第一训练数据集，每个所述第一训练数据集中包括多组训练数据，每组所述训练数据包括样本临床特征和对应的药物治疗结果，具体如实施例一中所述；

训练模块，用于根据至少一个机器学习算法构建多个初始模型，并根据各个所述第一训练数据集分别对所述初始模型进行训练后得到多个待选模型，具体如实施例一中所述；

确定模块，用于根据所述多个待选模型的测试结果确定药物治疗结果预测模型，具体如实施例一中所述。

实施例三

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图6所示。该终端包括处理器10和存储器20，存储器20中存储有计算机程序，该处理器10执行计算机程序时至少可以实现以下步骤：

其中，每个所述训练数据集的训练数据中的样本临床特征的类别一致，所述根据所述多个患者的临床数据生成至少一个第一训练数据集，包括：

从所述多个患者的临床数据中提取多个特征类别；

根据所述样本临床特征的类别构建所述第一训练数据集。

其中，所述对所述多个特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中的样本临床特征的类别，包括：

其中，所述预设特征选择方法包括方差分析检验、卡方检验以及互信息中的至少一种。

其中，所述机器学习算法包括决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归和多层感知机中的至少一种。

其中，所述根据所述多个待选模型的测试结果确定药物治疗结果预测模型，包括：

获取各个所述待选模型的接收机工作特性曲线；

其中，所述在所述多个待选模型中确定药物治疗结果预测模型之后，还包括：

实施例三

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的药物治疗结果预测模型生成方法的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药物治疗结果预测模型生成方法，其特征在于，包括：

2.根据权利要求1所述的药物治疗结果预测模型生成方法，其特征在于，每个所述训练数据集的训练数据中的样本临床特征的类别一致，所述根据所述多个患者的临床数据生成至少一个第一训练数据集，包括：

从所述多个患者的临床数据中提取多个特征类别；

根据所述样本临床特征的类别构建所述第一训练数据集。

3.根据权利要求2所述的药物治疗结果预测模型生成方法，其特征在于，所述对所述多个特征类别采用至少一种预设特征选择方法进行特征选择以确定所述至少一个第一训练数据集中的样本临床特征的类别，包括：

4.根据权利要求2所述的药物治疗结果预测模型生成方法，其特征在于，所述预设特征选择方法包括方差分析检验、卡方检验以及互信息中的至少一种。

5.根据权利要求1所述的药物治疗结果预测模型生成方法，其特征在于，所述机器学习算法包括决策树、随机森林、支持向量机、朴素贝叶斯、逻辑回归和多层感知机中的至少一种。

6.根据权利要求1所述的药物治疗结果预测模型生成方法，其特征在于，所述根据所述多个待选模型的测试结果确定药物治疗结果预测模型，包括：

获取各个所述待选模型的接收机工作特性曲线；

7.根据权利要求1所述的药物治疗结果预测模型生成方法，其特征在于，所述在所述多个待选模型中确定药物治疗结果预测模型之后，所述方法还包括：

8.一种药物治疗结果预测模型生成装置，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令，所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-7任一项所述的药物治疗结果预测模型生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任一项所述的药物治疗结果预测模型生成方法的步骤。