CN113823402A

CN113823402A - 一种基于大数据和机器学习的疾病治疗效果预测方法

Info

Publication number: CN113823402A
Application number: CN202110561269.7A
Authority: CN
Inventors: 许洪广; 范国旗; 丁方; 王明伟
Original assignee: Shanghai Dongjian Purification Co ltd
Current assignee: Shanghai Dongjian Purification Co ltd
Priority date: 2021-05-22
Filing date: 2021-05-22
Publication date: 2021-12-21

Abstract

本发明公开了一种基于大数据和机器学习的疾病治疗效果预测方法，该方法由所相应的应用架构、流程、计算模型组成。这种方法是基于对高压氧舱治疗疾病过程中的采集的高压氧舱实时数据，结合人体生理数据，通过机器学习的模型训练和算法验证，并对结果进行不同角度的评估，从而建立对高压氧舱治疗疾病效果预测的控制策略，优化高压氧舱治疗的压力和次数，提高氧舱治疗的效果，达到高压氧舱的高效应用。

Description

一种基于大数据和机器学习的疾病治疗效果预测方法

技术领域

本发明涉及一种基于大数据和机器学习的疾病治疗效果预测方法，应用的领域是氧舱治疗领域。

背景技术

随着氧舱治疗在医疗领域的推广和应用，越来越多的氧舱进入了医疗系统并且实时采集了诊疗数据。对于的氧舱治疗效果的预测，还是停留在通过事先设定的压力和次数进行治疗的阶段。对疾病的诊治是通过定期检查的方法，没有综合考虑人体的真实生理指标情况，针对不同疾病进行个性化的分析，尤其是在治疗前，没有能够采取预测性的举措，这样影响了治疗效果，导致不能进行充分和必要的高效治疗。目前对氧舱治疗的管理，基本上是依赖历史经验数据得出一个大致治疗压力和次数，疾病治疗基本上在此基础上进行的。由于疾病情况复杂，不同的疾病及生理指标对氧舱治疗有不同的要求，经验数据只具备参考性而无法有效指导真实情况的治疗，目前缺乏一个数据驱动的方法系统地对氧舱治疗效果进行分析，从而得出治疗压力及次数等指标。

发明内容

为了解决这个问题，本发明提供了一种数据驱动的疾病诊疗方法方法，就是基于大数据机器学习建立氧舱治疗的应用分析系统。

为了解决上述问题本发明提供了一种基于大数据和机器学习的疾病治疗效果预测方法，所述方法包括：步骤001列举数据步骤，获取与氧舱治疗相关的数据；所述氧舱治疗相关的数据包括人体生理指标和氧舱的使用数据；其中，所述人体生理指标包括人体氧舱治疗前的数据记录和治疗后的数据记录；所述氧舱的使用数据包括在正常使用时与氧舱相关的氧舱压力数据以及氧舱使用次数数据；所述人体生理指标、氧舱的使用数据均是基于时间序列的流式数据；步骤002数据整理步骤，对所述高压氧舱治疗相关的数据进行清洗并将清洗后的所述高压氧舱治疗相关的数据基于时间单元进行数据构建；所述对数据进行清洗包括，采用取一段行程变量的平均值或中间值或相邻插值进行空余变量的赋值；通过设定人体氧舱治疗相关数据的每个变量的阈值检查数据是否合乎要求并将超出正常范围的数据予以删除或纠正；通过设定人体氧舱治疗相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正；所述数据构建包括，按照时间的顺序将搜集到的其它数据进行整合；步骤003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据；对于数据的总结和抽取包括滚动聚合，所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值是数据的总和、平均值或者是标准差；所述总结和抽取还包括将特征变量进行扩展，所述扩展包括对初始的特征变量根据滚动聚合的均值增加相应的个数，以及对初始的特征变量根据滚动聚合的标准差增加相应的个数；步骤004建立模型步骤，基于特征化后的数据建立氧舱治疗自适应模型；对于氧舱治疗的问题，分解成第一个子问题是氧舱治疗需要多大的压力；对于第一个子问题是氧舱治疗需要多大的压力，采用二元分类模型来建立所述氧舱治疗自适应模型；对于第二个子问题氧舱治疗需要的次数，采用回归模型来建立所述氧舱治疗自适应模型；步骤005训练验证步骤，对自适应模型进行训练和验证以优化该自适应模型；所述训练验证步骤包括交叉验证，所述交叉验证包括，首先把原始的数据随机分成K个部分，在这K个部分中选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果；然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据；以此类推，重复进行K次交叉检验，每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验；最后把得到的K个实验结果平均；基于所述实验结果确定最佳的数据分类；步骤006算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法；所述评估包括正确率评估、召回率评估、或者综合评价指标评估；所述正确率是指预测结果实际真正发生的相符比率，正确率评估取最大的数值所对应的算法；所述召回率是指真实发生的有多少被预测正确了，召回率评估取最大的数值所对应的算法；综合评价指标Z=[(α²+1)*P*R]/[α²*(P+R)] 其中，α为计算参数，P是正确率，P是召回率，根据不同算法得到的结果F来判断不同的算法在不同的环境下的优越性。

本方法在氧舱治疗过程中确定了治疗压力和治疗次数的核心问题，针对该核心问题进行数据的获取和标定、以及进行数据整合和特征工程，明确数据定义并进行初步处理，通过预定义的规则进行特征和标签的定义。最后是进行模型训练和评估，通过数据导入，利用机器学习的不同模型，选择不同算法进行匹配验证，并进行发布，成为结构化的产品，并随着时间累积和数据丰富，模型的预测准确性会不断提升。

附图说明

图1是本发明的工艺流程图；

图2是本发明的大数据机器学习框图；

图3是本发明中滚动聚合原理图。

具体实施方式

下面结合附图对本专利的具体实施方式进行详细说明，需要指出的是，该具体实施方式仅仅是对本发明优选技术方案的举例，并不能理解为对本发明保护范围的限制。

图1示出了本专利具体实施方式中的一种基于大数据和机器学习的疾病治疗效果预测方法的步骤。其中：步骤T001列举数据步骤，获取与人体氧舱治疗相关的数据。在本步骤中，所述氧舱治疗的数据包括人体生理指标和氧舱的运行数据。其中，其中，所述人体生理指标包括人体氧舱治疗前的数据记录和治疗后的数据记录；所述氧舱的使用数据包括在正常使用时与氧舱相关的氧舱压力数据以及氧舱使用次数数据；所述人体生理指标、氧舱的使用数据均是基于时间序列的流式数据。

所述人体生理指标、氧舱的运行数据均是基于时间序列的流式数据，包括但不限于血液参数、心率、呼吸频率、氧舱压力、治疗次数等。一种举例但非全部的数据内容如下表所示：

T002数据整理步骤，对所述人体氧舱治疗相关的数据进行清洗并将清洗后的所述人体氧舱治疗相关的数据基于时间单元进行数据构建。

在本实施方式中，由于主要是基于数据处理实现的，保证高质量的数据有利于提高结果的准确性，因此需要对采集的数据进行数据整理。所述数据整理首先要对数据进行清洗，本发明制定了相应的清理规则将质量不高的数据转化为满足数据质量要求的数据。清理规则包括：

空余赋值：氧舱运行数据在传输过程中，很容易发生掉包导致变量缺失，在本发明中，主要采用取一段行程该变量的平均值或中间值或相邻插值进行空余变量的赋值。

错值去除：通过设定人体氧舱治疗相关数据的每个变量的合理取值范围，即阈值，检查数据是否合乎要求，将超出正常范围的数据予以删除或纠正。

交叉检验：通过设定人体氧舱治疗相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正。

清洗数据之后，基于时间单元进行数据构建，即按照时间的顺序将搜集到的其它数据进行整合。时间单元可以基于秒、分钟等，时间单元可以和收集的频率可以不一致。

完成数据构建之后，需要对基于时间单元进行构建的数据进行评估以及修正。所述评估包括筛选出错误数据，即数据本身存在错误的那些数据。例如，包括但不限于，缺失值、异常值、时间周期错误和计算规格错误等。在评估之后，对于所述错误数据进行校正。例如对于缺失值，将存在null的值设置为0，补充缺失的数据；对于异常值，将负值设置为0，避免训练过程中出现错误；对于时间周期错误的数值，明确应该取得时间周期，调整并重新运行数据；对于计算规格错误的数值，明确口径调整并重新运行数据。

T003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据。由于在后续的处理步骤中需要对数据进行处理和计算，为了便于计算和识别数据的特征，首先需要对整理后的数据进行特征化以便于显现所述数据的各种特征从而便于计算和识别。在本步骤中，对于数据的总结和抽取包括滚动聚合。所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差。如图3所示，例如t1节点，设定时间窗是3，它的滚动聚合就是计算t1节点以及在所述t1节点之间的3个节点的总和、均值或者标准差。在本步骤中，为了能够对学习算法提供更好，甚至是附加的学习和预测能力，需要更多变量数据，发明从基于时间序列的氧舱数据进行总结和抽取，从而将初始的T001中的特征变量进行扩展。例如，在步骤T001中具有129个特征变量时，在本示例中，进行扩展的数据主要是两类：第一大是对初始129个特征变量根据滚动聚合的均值，增加129-2=127个；第二类是对初始的129个特征变量根据滚动聚合的标准差，增加129-2=127个；这样最后获得的变量为129+127+127=383。这样就能够提供更多变量数据，从而有利于学习算法提供更好和预测能力。

T004数据计算步骤，基于特征化后的数据建立氧舱治疗自适应模型。对于氧舱治疗的问题，可以分解成两个子问题，第一个子问题是氧舱治疗需要多大的压力；第二个子问题是氧舱治疗需要多少的次数。针对不同的问题可以通过不同的模型和算法去进行预测。对于第一个子问题是氧舱治疗需要多大的压力，采用二元分类模型来建立所述氧舱治疗自适应模型；对于第二个子问题氧舱治疗需要多少的次数，采用回归模型来建立所述氧舱治疗自适应模型。具体而言，把输入的氧舱压力数据设为x；把治疗是否有效设定为目标为y，那么y的个体只有两种选择，y=1，即为治疗有效，y=0即为治疗无效。那么二元分类的模型是：y=f( x )，其中f是具体算法，能够把氧舱压力数据x映射到目标y中去。当采用初始训练数据对上述模型进行训练时，需要对初始训练数据集进行标签，将治疗有效的数据作为正向(标签为1 )，将治疗无效的数据作为反向(标签为0 )，建立起在下一个周期可能故障或者正常的模式y=f(x)，其中y即为治疗是否有效，x为氧舱压力数据，f为具体算法。其中，所述具体算法f可选择地包括：逻辑回归、提升决策树、决策森林和神经网络。所述逻辑回归算法假定类的实例是线性可分的，通过直接估计判别式的参数获得最终的预测模型。考虑用于治疗效果预测的数据具有P个独立变量的向量x′=( x1， x2，…xp ),设条件概率P(Y=1|x)=p为根据观测量相对于某事件发生的概率。逻辑回归同线性回归一样都需要有一个假设函数，在本算法中引入了Sigmoid函数π（x）=1/[1+exp(-x)] 其中π ( x )的定义域为( -∞,+∞ )，值域为( 0 ,1 )。根据以上定义，所述逻辑回归算法所采用的公式为：P(Y=1|x)=π（x）=1/{1+EXP[-g(x)]}

所述提升决策树算法，是通过结合决策树分治策略的层次数据结构对初始的分类所产生的分类规则，每次都将上一次分错的数据权重提高一点再进行分类，这样循环迭代取得目标结果。设D为使用类别对训练元组进行的划分，则D的熵表示为：

其中，pi表示第i个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。对于本预测方法来说，D为治疗效果状况，具有故障和正常两种状态，所以m=2。设将训练元组D按属性A进行划分，其中A为经过特征化以后，治疗效果数据的其中一个特征，则A对D划分的期望信息为：

其中j表示属性A的某个类型，V表示属性A的类别总数；而属性A的信息增益即为两者的差值：gain(A)=info(D)- infoA( D )。在每次分层(分裂 )时需要计算氧舱运行数据训练元组中每个属性的信息增益，然后选择增益率最大的属性进行分层，由此可形成能够进行治疗效果预测性的决策树。

决策森林是由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机过程，行方向上构建决策树时采用放回抽样( bootstraping )得到训练数据，列方向上采用无放回随机抽样得到特征子集，并据此得到其最优切分点。决策森林是一个组合模型，内部仍然是基于决策树，同单一的决策树分类不同的是，决策森林通过多个决策树投票结果进行分类，算法不容易出现过度拟合问题。神经网络就是利用其算法特点来模拟人脑思维的第二种方式，它是一个非线性动力学系统，虽然单个神经元的结构及其简单，但能够进行并行协同处理。神经网络中，不同场景的输出层对应不同的代价函数，本方法中，输出层是K个逻辑回归，整个网络的代价函数就是这K个逻辑回归模型代价函数的加和，通过此代价函数可以进行氧舱治疗效果的预测，代价函数的评估根据T006算法评估进行。

对于氧舱治疗还有多久能够治愈，本具体实施方式中采用回归模型来建立所述氧舱治疗预测自适应模型。回归模型从一组样本数据出发，确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著。以治愈所需的次数作为Y，对每个氧舱数据从时间上距离治愈的次数进行标签化；例如，氧舱治疗了5次、治愈次数为30时，所述标签所表示的剩余时间即为30-5=25；又例如，当氧舱治疗了10天、治愈次数为28时，所述标签所表示剩余次数为28-10=18。这样每个样本都会有一个剩余的需用次数。

把输入的治疗数据设为x；回归算法的模型为Y=f(x)。其中，所述回归模型所采用的具体算法f包括决策森林算法回归、提升决策树回归、泊松回归和神经网络回归。提升决策树回归和决策森林回归同样是由决策树一个或者若干个决策树构成，是决策树的组合，和所述氧舱是否治愈采用决策树相关的算法一样，在治疗还有多久会治愈的回归模型中，也利用信息增益来判断提升决策树和决策森林回归的好坏，即通过差值： gain(A)=info(D)-infoA(D)，来判断。

在泊松回归中，利用现有技术中广泛记载的泊松回归模型进行建模。神经网络就是现有技术中已经广泛记载的一种模拟人脑思维的算法。神经网络中，不同场景的输出层对应不同的代价函数。本方法中，输出层可以是K个逻辑回归，整个网络的代价函数就是这K个逻辑回归模型代价函数的加和。

T005训练验证步骤，对自适应模型进行训练和验证以优化该自适应模型。在建立上述模型的基础上，需要进行训练和验证的工作来优化模型。以便于提高模型的准确性。在本具体实施方式中，所述训练验证步骤优选包括交叉验证和少数类采样。所述交叉验证方法中对于各个模型的参数框架进行优化。例如前述的分类模型 (逻辑回归、提升决策树、决策森林和神经网络)和回归模型(决策森林算法回归、提升决策树算法回归、泊松算法回归和神经网络算法回归)，这些算法的可靠性依赖参数框架，就是说哪些治疗数据对于产生的结果是最有效的。

在本具体实施方式中，为了提高参数框架的质量，首先把原始的数据随机分成K个部分。在这K个部分中，选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据，以此类推，重复进行K次交叉检验的。每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验。最后把得到的K个实验结果平均，所述实验结果可以包括正确率、召回率和综合评价指标等。根据每次预测的目的，在正确率、召回率和综合评价指标三种的均值的选择，从而确定最佳的分类，实现模型的训练。

所述少数类采样是针对一类数据仅仅有很少数量的训练样本时，数据集不平衡的情况时采用的。当一类数据仅仅有少量的训练样本时，本具体实施方式中可以通过将少数的治愈样本数据合成新的少数类样本数据来进行模型的训练。例如在治疗的数据收集中，只发现有少量的治愈记录数据，为了从少量的治愈数据中产生更多进行机器学习的数据，需要进行数据合成。具体而言，对每个少数类样本A，从它的最近邻中随机选一个样本B，这里的距离是根据时间和变量图中的距离进行计算，然后在A和B之间的连线上随机选择一点作为新合成的少数类样本。通过这样不断的合成，可以将少量的样本A，变成具备多数据的样本A+，从而达到预测治疗效果的数据要求，即不会产生计算中的因为数据不平衡导致的过拟合或者扭曲。

T006算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法。在治疗效果的预测中，基于不同的预测目标或者是不同的数据源，采用不同的算法所得到的结果也是不同的，这样就需要针对不同的情况选择较佳的算法。通常在氧舱治疗效果预测中，可以使用正确率( Precision )，召回率 (Recall )或者综合评价指标( F1-Measure )来评估预测结果，比较在不同情况下采用不同的算法所得到的结果是否最优，从而选择最优的算法。其中，正确率是针对预测结果而言所述模型预测治愈的样本中有多少是实际真正治愈的样本，一般是越高越好。所述召回率是样本中的真实治愈的有多少被预测正确了，一般是越高越好。在氧舱治疗效果预测中，这两者通常发生矛盾。为了提高对于更优算法选择的合理性，在本具体实施方式中优选采用F1-Measure综合评价指标，它综合了正确率和召回率的加权平均，其值越高越好。

公式是Z=[(α²+1)*P*R]/[α²*(P+R)],其中P是正确率，R是召回率，当参数α＝1时，就是最常见的F1，也即F1=(2*P*R)/(P+R)],根据不同算法得到的结果F或者F1来判断不同的算法在不同的环境下的优越性。例如针对某一组特定的数据和预测目标，通过计算比较后发现此类数据和目标在分类模型中选择提升决策树算法以及在回归模型中选择神经网络回归算法结果最优。

Claims

1.一种基于大数据和机器学习的疾病治疗效果预测方法，其特征在于，所述方法包括：步骤001列举数据步骤，获取与氧舱治疗相关的数据；所述氧舱治疗相关的数据包括人体生理指标和氧舱的使用数据；其中，所述人体生理指标包括人体氧舱治疗前的数据记录和治疗后的数据记录；所述氧舱的使用数据包括在正常使用时与氧舱相关的氧舱压力数据以及氧舱使用次数数据；所述人体生理指标、氧舱的使用数据均是基于时间序列的流式数据；步骤002数据整理步骤，对所述高压氧舱治疗相关的数据进行清洗并将清洗后的所述高压氧舱治疗相关的数据基于时间单元进行数据构建；所述对数据进行清洗包括，采用取一段行程变量的平均值或中间值或相邻插值进行空余变量的赋值；通过设定人体氧舱治疗相关数据的每个变量的阈值检查数据是否合乎要求并将超出正常范围的数据予以删除或纠正；通过设定人体氧舱治疗相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正；所述数据构建包括，按照时间的顺序将搜集到的其它数据进行整合；步骤003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据；对于数据的总结和抽取包括滚动聚合，所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值是数据的总和、平均值或者是标准差；所述总结和抽取还包括将特征变量进行扩展，所述扩展包括对初始的特征变量根据滚动聚合的均值增加相应的个数，以及对初始的特征变量根据滚动聚合的标准差增加相应的个数；步骤004建立模型步骤，基于特征化后的数据建立氧舱治疗自适应模型；对于氧舱治疗的问题，分解成第一个子问题是氧舱治疗需要多大的压力；对于第一个子问题是氧舱治疗需要多大的压力，采用二元分类模型来建立所述氧舱治疗自适应模型；对于第二个子问题氧舱治疗需要的次数，采用回归模型来建立所述氧舱治疗自适应模型；步骤005训练验证步骤，对自适应模型进行训练和验证以优化该自适应模型；所述训练验证步骤包括交叉验证，所述交叉验证包括，首先把原始的数据随机分成K个部分，在这K个部分中选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果；然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据；以此类推，重复进行K次交叉检验，每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验；最后把得到的K个实验结果平均；基于所述实验结果确定最佳的数据分类；步骤006算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法；所述评估包括正确率评估、召回率评估、或者综合评价指标评估；所述正确率是指预测结果实际真正发生的相符比率，正确率评估取最大的数值所对应的算法；所述召回率是指真实发生的有多少被预测正确了，召回率评估取最大的数值所对应的算法；综合评价指标Z=[(α²+1)*P*R]/[α²*(P+R)] 其中，α为计算参数，P是正确率，P是召回率，根据不同算法得到的结果F来判断不同的算法在不同的环境下的优越性。