CN106874693A

CN106874693A - 一种医疗大数据分析处理系统及方法

Info

Publication number: CN106874693A
Application number: CN201710152265.7A
Authority: CN
Inventors: 刘希; 武洋; 李建丽
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2017-06-20

Abstract

本发明公开了一种医疗大数据分析处理系统及方法。该系统包括：数据采集模块，采集关于需要预测的疾病并发症的原始数据；数据预处理模块，对采集的原始数据进行清洗和集成；数据转换模块，对经预处理后的数据利用熵进行离散化处理；预测模型构建模块，构建用于训练的逻辑回归模型和得到最终的预测模型；预测模型测试模块，利用得到的最终的预测模型进行测试，以得到预测结果；预测结果评估模块，采用多种评估度量对预测结果的准确性进行评估。本发明对获取的医疗数据进行了过滤清洗处理，并进行了基于熵的离散化处理，保证了最终模型的拟合性，以及使用了多个评估度量来对预测结果进行了评估，从而确保了最终预测结果的准确性。

Description

一种医疗大数据分析处理系统及方法

技术领域

本发明涉及一种大数据分析处理系统及方法，具体涉及一种医疗大数据分析处理系统及方法。

背景技术

随着网络的日益普及和高速发展，各个行业的大数据都可以被收集到。针对大数据的挖掘已经在其它行业有了很大程度的应用并也有了很显著的成果，但是与其它行业的应用不同的是，医疗行业由于与病患的生命安全有着紧密的联系，所以其分析结果的准确性和实用性更是需要关注的重点。

发明内容

针对上述技术问题，本发明的目的是对临床大数据进行分析和处理，以为常见的疾病并发症进行及时和准备的预测，为医疗诊断提供辅助支持。

本发明采用的技术方案为：

本发明的一实施例提供一种医疗大数据分析处理系统，包括：数据采集模块，采集关于需要预测的疾病并发症的原始数据，所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息；数据预处理模块，对采集的原始数据进行清洗和集成；数据转换模块，对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集；预测模型构建模块，构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型；预测模型测试模块，将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果；预测结果评估模块，采用多种评估度量对预测结果的准确性进行评估。

可选地，所述预测模型构建模块包括：矩阵构建单元，将训练集中的m个样本构建为m×n型矩阵，n为训练样本的n个指标；训练模型构建单元，基于构建的m×n型矩阵，构建如下式(1)所示的逻辑回归模型：

y＝Θ^Tx＝θ₀*x₀+θ₁*x₁+...+θ_n*x_n (1)

其中，x＝[x₀,x₁,...,x_m]为矩阵中的n维向量，表示n种检验指标的结果，y表示诊断结果，在训练集中，当病人患有该种疾病时，取值为1，当病人没有患有该种疾病时，取值为0，Θ^T＝[θ₀,θ₁,...,θ_m]为该n维向量的特征权重向量，为需要求解的模型参数；

参数求解单元，利用极大似然函数对构建的逻辑回归模型的参数进行求解，所述极大似然函数如下式(2)所示：

L(Θ)＝∏g(Θ^Tx)^y(1-g(Θ^Tx))^1-y (2)

其中，g(Θ^Tx)为将回归结果y二分化的激励函数，当g(Θ^Tx)<T时，y＝0，即g(Θ^Tx)^y＝1，(1-g(Θ^Tx))^1-y＝(1-g(Θ^Tx))，当g(Θ^Tx)≧T时，y＝1，即g(Θ^Tx)^y＝g(Θ^Tx)，(1-g(Θ^Tx))^1-y＝1，T为基于期望分类结果所确定的阈值；

对上述公式(2)所示的极大似然函数两端求导得到其对数似然函数，如下式(3)所示：

l(Θ)＝∑y*logg(Θ^Tx)+(1-y)*log(1-g(Θ^Tx)) (3)

通过对上述公式(3)所示的对数似然函数的参数进行求解，可得到用于训练的逻辑回归模型的模型参数，从而得到最终的预测模型。

可选地，采用梯度下降法来对所述对数似然函数的参数进行求解，包括如下步骤：

(1)选择梯度方向

(2)选择下降步长α，对参数进行更新：

(3)重复以上步骤直至满足停止条件；

其中，x_i是投影到[0,1]之间的任意变量，y_i是第i个样本的真实值，y_i ^*是该样本的预测值，λ是防止模型过拟合的结构化系数。

可选地，所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果，所述决策函数如下式(4)所示：

其中，

P(y＝1|x；θ)为预测结果为正类的概率。

可选地，所述数据转换模块对经预处理后的数据利用熵进行离散化处理包括：将样本集中的指标数据的百分位数作为候选的分割节点，并且设定每个指标数据最多被分成3份：当以某个节点分割后，使得该指标数据分成两个区域，若两个区域的数据样本量之比小于0.5或大于2，则继续对较大的那个区域进行离散化，否则该指标的离散化结束。

可选地，所述数据预处理模块采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。

可选地，所述评估度量包括准确率、精度和召回率。

本发明的另一实施例提供一种医疗大数据分析处理方法，包括：

S100：采集关于需要预测的疾病并发症的原始数据，所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息；

S200：对采集的原始数据进行清洗和集成；

S300：对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集；

S400：构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型；

S500：将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果；

S600：采用多种评估度量对预测结果的准确性进行评估。

本发明首先对获取的医疗数据进行了过滤清洗处理，然后对经过滤清洗后的数据进行了基于熵的离散化处理，保证了最终模型的拟合性，以及使用了多个评估度量来对预测结果进行了评估，从而确保了最终预测结果的准确性。

附图说明

图1为本发明的医疗大数据分析处理系统的结构示意图。

图2为本发明的医疗大数据分析处理方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明的医疗大数据分析处理系统的结构示意图。图2为本发明的医疗大数据分析处理方法的流程示意图。

第一实施例

首先，参考图1对本发明的医疗大数据分析处理系统进行介绍。

如图1所示，本发明的医疗大数据分析处理系统包括数据采集模块1、数据预处理模块2、数据转换模块3、预测模型构建模块4、预测模型模块5和预测结果评估模块6。以下，对这些模块进行详细介绍。

【数据采集模块】

数据采集模块1用于从各医院信息平台采集关于需要预测的疾病并发症的原始数据，所述原始数据主要包括病人检验指标信息、病人检验报告信息和病人就诊记录信息等三部分信息。在一示例中，例如甲亢病人的诊断数据，这三部分的主要信息结构可如下表1所示：

表1待处理数据信息结构

上表中的字段表示的指标数据。

【数据预处理模块】

数据预处理模块2用于对采集的原始数据进行清洗和集成。

<数据清洗>

由于病人的检测指标会存在一些指标数据不完整，以上表1的内容为例，使用的数据为甲亢病人的检验指标信息，检验指标为8种，即每个病人每次检验时都会去检验这8种指标，但并不是每个病人每次检验时都会去检验这8种指标，所以会出现一个病人每次检验指标不足8种的情况。对于此种情况，要在逻辑回归模型中加入每种指标作为自变量时，就会造成该部分自变量的缺失；又或者某些指标数据大于正常指标等情况，例如，在实际情况中，可能由于各种各样的原因造成了数据的不准确0此处的一个例子是，在病人检验指标的信息中，某些检验指标的值会出奇的高或者低，例如TPOAb指标的参考范围为“<5.611U/ml”，而某些病人的该项指标检测结果显示为“>1000.00”，对于这种情况，无论是在实际情况中还是模型的准确性上，都有着很大的影响。因此，需要对采集的指标数据进行清洗。

本发明中使用的指标数据由于涉及的8个字段的检测结果均为数值类型字段，因此可使用指标数据的平均值来对缺失的指标数据进行替换。对于指标数据的离群点，本发明采用“1-99”分位值方法来进行处理。“1-99”分位值方法直接选取1分位和99分位的数作为边界，并对所有小于1分位和大于99分位的数值用对应的1分位和99分位数进行替换。选用此种方法，既可以防止离群点对数据的影响，又可以尽可能多的保留原始数据信息。

<数据集成>

数据集成指的是在实际情况中，不同部门、不同项目之间对数据的存储和定义并不是统一的，但是在做挖掘和分析的时候，需要将这些不同部门、项目之间的数据进行整合，这样就必须要保证不同来源数据之间整合的准确性。由于本发明使用的医疗数据都是同一个医院的数据，只是不同科室的数据而已。由上表1中可以看出，需要用到的三张表的字段都是统一的，需要完成的是三张表之间的连接问题，在连接时需要注意在表之间的连接时不受到表中冗余信息的影响。

【数据转换模块】

数据转换模块3用于对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集。

由于本发明中使用的检验指标的结果属于数值型，在使用逻辑回归做分类时，需要将这些数值型数据转换成0、1特征后作为逻辑回归模型的自变量进行拟合，以加快模型拟合时的计算速率、为模型提供更好的鲁棒性以及提升模型的表达能力和拟合效果。

本发明采用基于熵的离散化方法对指标数据进行划分。熵是信息论中的一种度量，在离散化的方法中，它可以被递归的来划分某个属性的值，来产生分层的效果。基于购的离散化方法大致如下：若需要离散化的属性为A，可以将A中的每个值认为是一个区间的边界。例如，A的值v可以将A划分为A<＝v和A>v的两个区间，即针对A的一个二元离散化。对于A的每个值都可以对A完成这样的一个二元离散化，当划分得到的信息增益最大时，该边界点即要求的最优分界点。信息增益Gain(A)意味着通过对属性A的划分我们获得了多少信息。Gain(A)越大，说明以属性A作为分类属性所得到的结果更好。使用熵作为离散化方法时，本发明将考虑每个属性所有可能的划分点，并依次计算以该划分点进行分类时所获得的信息增益的大小，并最终选择最大的信息增益的划分点作为离散化的分割点。信息增益的计算公式如下式(1)所示：

Gain(A)＝Info(D)-Info_A(D) (1)

其中，Info(D)是对拥有多种属性的数据集D中的元组按属性进行分类所需要的期望信息，代表的是识别D中元组的类标号所需要的平均信息量，如下式(2)所示：

pi是D中元组属于类C_i的概率，具体计算公式为|C_i,D|/|D|。

Info_A(D)为按属性A对D进行划分所需要的期望信息，如下式(3)所示：

其中，代表第j个分区的权重，即第j个分区元组数的占比。

以甲充病人的FT3检验指称为例，当使用基于爐的离散化方法对检验指称进行离散化时，鉴于数据a过大，为了满足系统的实时性的需求，在设计离散化的切割点时，选取的是数据的百分位点，从1分位数到99分位数0对于原始的于[1.54596，5.44800]区间的FT3指标数据中，按上述公式(3)计算，可以得到摘最大的分割点为2.20476，即可以将病大的FT3指标分成(1.54596，2.20476)，(2.20476，5.44800)两个区间，并且此时的熵最大为0.000359。

在诊断系統的并发症预测功能的具体实现中，需要对指标数据进行多次离散化以保证逻辑回归模型的预测准确率，但考虑医疗大数据进行多次离散化时的效率问题，需要对离散化次数进行折衷选择。为便于计算的简化，本发明的基于熵的离散化可包括：

(1)鉴于数据量太大，在离散化时将该指标的百分位数作为候选的分割节点，即每次寻找熵最大的分割节点时只需最多循环99次，从1％分位数至99％分位数，从中选取最大的节点即可。

(2)熵在实际中经常会被作为决策树分类度量，在实际过程中可能需要执行决策树的剪枝以保证树的简单有效。本发明中为了保证最后指标离散后的结构相对简单，即设定每个指标最多会被分成3份:当以某个节点分割后，使得该指标被分成两个区域，若两个区域的数据样本量之比小于0.5或大于2，则继续对较大的那个区域进行离散化，否则该指标的离散化结束。

【预测模型构建模块】

预测模型构建模块4用于构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型。

预测模型构建模块可包括：

矩阵构建单元，将训练集中的m个样本构建为m×n型矩阵，n为训练样本的n个指标；

训练模型构建单元，基于构建的m×n型矩阵，构建如下式(4)所示的逻辑回归模型：

y＝Θ^Tx＝θ₀*x₀+θ₁*x₁+...+θ_n*x_n (4)

参数求解单元，利用极大似然函数对构建的逻辑回归模型的参数进行求解，所述极大似然函数如下式(5)所示：

L(Θ)＝∏g(Θ^Tx)^y(1-g(Θ^Tx))^1-y (5)

其中，g(Θ^Tx)为将回归结果y二分化的激励函数，为sigmoid函数，当g(Θ^Tx)<T时，y＝0，即g(Θ^Tx)^y＝1，(1-g(Θ^Tx))^1-y＝(1-g(Θ^Tx))，当g(Θ^Tx)≧T时，y＝1，即g(Θ^Tx)^y＝g(Θ^Tx)，(1-g(Θ^Tx))^1-y＝1，T为基于期望分类结果所确定的阈值。

在sigmoid函数中，默认的阈值T为0.5，表示的是由sigmoid函数转换后得到的值大于等于0.5则认为是二分类中的正类，小于0.5则认为是二分类中的负类。实际情况中可以针对不同的情况选择不同的闽值，如果期望分类结果对二分类中正类的判别准确性高些，即更高的精度时,则可以选择更大的陶值；如果期望分类结果对二分类中正类的覆盖率更高些，即更高的召回率时，可以选择偏小一点的阈值。

对上述公式(5)所示的极大似然函数两端求导得到其对数似然函数，如下式(6)所示：

l(Θ)＝∑y*logg(Θ^Tx)+(1-y)*log(1-g(Θ^Tx)) (6)

通过对上述公式(6)所示的对数似然函数的参数进行求解，可得到用于训练的逻辑回归模型的模型参数，从而得到最终的预测模型。

在本发明中可采用梯度下降法来对所述对数似然函数的参数进行求解，包括如下步骤：

(1)选择梯度方向

(2)选择下降步长α，对参数进行更新：

(3)重复以上步骤直至满足停止条件；

其中，x_i是投影到[0,1]之间的任意变量，y_i是第i个样本的真实值，y_i ^*是该样本的预测值，λ是防止模型过拟合的结构化系数，根据具体计算情况来确定。

沿梯度负方向选择一个较小的步长可以保证损失函数是减小的，另一方面，逻辑回归的损失函数是凸函数(加A正则项后是严格凸函数)，可以保证找到的局部最优值同时是全局最优。

【预测模型测试模块】

预测模型测试模块5用于将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果。

所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果，所述决策函数如下式(7)所示：

其中，

P(y＝1|x；θ)为逻辑回归模型所做的假设，表示预测结果为正类的概率，T的含义上述公式(5)中的含义一样。

当预测结果为1时，表示该病人有患该种病，当预测结果为0时，表示该病人没有患该种病。

【预测结果评估模块】

预测结果评估模块用于采用多种评估度量对预测结果的准确性进行评估。

本发明使用的评估度量主要包括准确率、精度和召回率。

以下，结合混淆矩阵(如下表2所示)对这些评估度量进行介绍。

表2混淆矩阵

其中，TP(true positive)为真阳性，表示被分类器(逻辑回归模型)正确分类的正元组，即真正例的个数；TN(true negative)为真阴性，表示被分类器正确分类的负元组，即真负例的个数；FP(false positive)为假阳性，表示被分类器错误分类的正元组，即假正例的个数；FN(false negative)为假阴性，表示被分类器错误分类的负元组，即假负例的个数。

准确率(accuracy)为分类器在给定检验集上的准确率是被该分类器正确分类的元组所占的百分比。即

精度(precision)代表的是精确性的度量，即标记为正类的度量实际也为正类的百分比，而召回率(recall)代表的是完全性的度量，即正元组标记为正的百分比，实际上召回率的概念和灵敏度一样。下面是精度和召回率的定义：

第二实施例

以下，参考图2对本发明的医疗大数据分析处理方法进行介绍。

如图2所示，本发明的医疗大数据分析处理方法包括：

S100：数据采集

采集关于需要预测的疾病并发症的原始数据，所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息；

S200：数据预处理

对采集的原始数据进行清洗和集成；

S300：数据转换

对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集；

S400：预测模型构建

构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型；

S500：预测模型测试

将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果；

S600：预测结果评估

采用多种评估度量对预测结果的准确性进行评估。

以下，对这些步骤进行详细介绍。

【数据采集】

该步骤用于从各医院信息平台采集关于需要预测的疾病并发症的原始数据，所述原始数据主要包括病人检验指标信息、病人检验报告信息和病人就诊记录信息等三部分信息。在一示例中，例如甲亢病人的诊断数据，这三部分的主要信息结构可如下表3所示：

表3待处理数据信息结构

上表中的字段表示的指标数据。

【数据预处理】

该步骤用于对采集的原始数据进行清洗和集成。

<数据清洗>

<数据集成>

【数据转换】

该步骤用于对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集。

本发明采用基于熵的离散化方法对指标数据进行划分。熵是信息论中的一种度量，在离散化的方法中，它可以被递归的来划分某个属性的值，来产生分层的效果。基于购的离散化方法大致如下：若需要离散化的属性为A，可以将A中的每个值认为是一个区间的边界。例如，A的值v可以将A划分为A<＝v和A>v的两个区间，即针对A的一个二元离散化。对于A的每个值都可以对A完成这样的一个二元离散化，当划分得到的信息增益最大时，该边界点即要求的最优分界点。信息增益Gain(A)意味着通过对属性A的划分我们获得了多少信息。Gain(A)越大，说明以属性A作为分类属性所得到的结果更好。使用熵作为离散化方法时，本发明将考虑每个属性所有可能的划分点，并依次计算以该划分点进行分类时所获得的信息增益的大小，并最终选择最大的信息增益的划分点作为离散化的分割点。信息增益的计算公式如下式(8)所示：

Gain(A)＝Info(D)-Info_A(D) (8)

其中，Info(D)是对拥有多种属性的数据集D中的元组按属性进行分类所需要的期望信息，代表的是识别D中元组的类标号所需要的平均信息量，如下式(9)所示：

pi是D中元组属于类C_i的概率，具体计算公式为|C_i,D|/|D|。

Info_A(D)为按属性A对D进行划分所需要的期望信息，如下式(10)所示：

其中，代表第j个分区的权重，即第j个分区元组数的占比。

以甲充病人的FT3检验指称为例，当使用基于爐的离散化方法对检验指称进行离散化时，鉴于数据a过大，为了满足系统的实时性的需求，在设计离散化的切割点时，选取的是数据的百分位点，从1分位数到99分位数0对于原始的于[1.54596，5.44800]区间的FT3指标数据中，按上述公式(10)计算，可以得到摘最大的分割点为2.20476，即可以将病大的FT3指标分成(1.54596，2.20476)，(2.20476，5.44800)两个区间，并且此时的熵最大为0.000359。

【预测模型构建】

该步骤用于构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型。

预测模型构建模块可包括：

训练模型构建单元，基于构建的m×n型矩阵，构建如下式(11)所示的逻辑回归模型：

y＝Θ^Tx＝θ₀*x₀+θ₁*x₁+...+θ_n*x_n (11)

参数求解单元，利用极大似然函数对构建的逻辑回归模型的参数进行求解，所述极大似然函数如下式(12)所示：

L(Θ)＝∏g(Θ^Tx)^y(1-g(Θ^Tx))^1-y (12)

对上述公式(12)所示的极大似然函数两端求导得到其对数似然函数，如下式(13)所示：

l(Θ)＝∑y*logg(Θ^Tx)+(1-y)*log(1-g(Θ^Tx)) (13)

通过对上述公式(13)所示的对数似然函数的参数进行求解，可得到用于训练的逻辑回归模型的模型参数，从而得到最终的预测模型。

(1)选择梯度方向

(2)选择下降步长α，对参数进行更新：

(3)重复以上步骤直至满足停止条件；

【预测模型测试】

该步骤用于将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果。

所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果，所述决策函数如下式(14)所示：

其中，

P(y＝1|x；θ)为逻辑回归模型所做的假设，表示预测结果为正类的概率，T的含义上述公式(12)中的含义一样。

【预测结果评估】

该步骤用于采用多种评估度量对预测结果的准确性进行评估。

本发明使用的评估度量主要包括准确率、精度和召回率。

以下，结合混淆矩阵(如下表4所示)对这些评估度量进行介绍。

表4混淆矩阵

实施例

本实施例在Spark上运用本发明的医疗大数据分析处理系统完成原发性甲状腺机能亢进症的预测模型的建立。

【数据准备】

预测模型所使用的原始数据为从某医院获取100万病人的“原发性甲状腺机能亢进症”的检测指标数据，原始数据是包含患者的8个指标的各项量化的数值，其中包含确诊为“原发性甲状腺机能亢进症”的病人共有8万人，模型使用的训练样本的类标号为(患有，不患有)。

利用检测结果字段的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理，以对这些数据进行清洗和整合。

【数据离散化】

本实施例中使用的离散化算法的伪代码如下:

输入:原始数据样本矩阵D及对应的类标号

输出:每列对应的分割节点字典meni_dict

(1)for(i＝0；i<D.shape[0]；i++){

(2)temp＝D[:,i]；//temp存储第i列指标数据

(3)Array,sort(temp)；//对temp进行排序

(4)Max_sp,Max_entropy＝getEntropyPro(Max_sp,Max_entropy)

(8)mem_dict[i].append(Max_sp)；

(9)if(count(temp>＝Max_sp)/count(temp<Max_sp)>2count(temp<＝Max_sp)/count(temp<Max_sp)<0.5){

(10)new_sp,new_entropy＝getEntropyPro(大的数据集)

(11)mem_dict[i].append(new_sp)procedure getEntropyPro(dataset)

(1)Max_sp＝-1,Max_entropy＝()；

(2)for(j＝l；j<100；j++){

(3)split_point＝dataset.percentile(j)；//以j百分位数位分割点

(4)entropy＝getEntropy(dataset,split_point)；//按公式2计算

(5)if(entropy>Max_entropy){

(6)Max_sp＝split_point；

(7)Max_entropy＝entropy；

(8)}//按照熵大小得到分割点

(9)}

(10)return Max_sp,Max_entropy

上述代码中对8列指标数据遍历一遍离散化处理，离散化处理的函数为GetEntropyPro,该函数利用公式2进行计算并返回两个值：分隔点，该分割点对应的熵值。主函数中对100个分位点分别调用该函数，并选出最大的作为该列的离散区间点。

在训练模型时从原始数据中随机抽取50万病人的检测指标数据，共包含确诊为“原发性甲状服机能尤进症”43960人，对作为实验数据的病人的八个检测指标的数据利用颇进行离散化处理，利用上述伪代码可得到离散化处理的结果，如表5所示：

表5：离散化结果

该表中包含复数的切割店的原因是原始数据处理中发现某些指标值差别过大，便对指标结果进行log处理，所以某些指标值过小，便由log变化得到了负值。

【模型建立】

本实施例使用spark提供的逻辑回归对预处理好的医疗数据进行建模，下面是使用python+Spark建模的脚本示例：

from pyspark.mllib.classification import LogisticRegressionWithSGD

frompyspark.mllib.regression import LabeledPoint

from numpy import array

def parsePoint(line):

values＝[float(x)for x in line.split(“)

return LabeledPoint(values[0],values[l:])

data＝sc.textFile(‘…’)

data2＝data.map(parsePoint)

model＝LogisticRegressionWithSGD.train(data2)

上述脚本中，parsePoint函数对利用分布式情况下Apriori算法准备好的数据进行格式转换。LogisticRegressionWithSGD.train函数对转换好的数据利用Spark中的mllib库中的梯度下降法进行拟合，并得出最终预测模型。

运用spark对上述表5的离散化结果得到的预测模型系数如表6所示：

表6：模型系数列表

列名	区间1系数	区间2系数	区间3系数
				FT3	-0.2762192	0.29754658	-0.2574179
FT4-1	0.26491922	-0.28052329	0.28574117
				STSH1	-0.2689328	-0.28209107	-0.2801598
T3	0.04549283	0.60737355	-0.17831729
				T4	-0.55382343	-0.27736024
TGAB12	0.36693755	-0.2254798	-0.23876632
				TPOAB	-0.02058806	0.45711907	-0.35347654
TRAB	0.0326549	-0.4256414	-0.37288738

上述表4中给出了数据离散化后的逻辑回归模型建立的各个字段的系数，还给出了模型的截距项的值intercept，为-0.83118367，由此可将各系数代入上述公式(4)中得到最终的预测模型。

本实施例中，基于Spark计算模型的预测模型中，设置的梯度下降迭代次数为100次，每次迭代的步长为0.03，整个实验从开始数据处理到最终模型参数完成共花费时间94s。

【模型测试和评估】

用于进行模型检测的数据集包含50万病人，其中确诊为“原发性甲状腺机能机能元进症”的病人36040人，将这些数据集代入建立的最终的预测模型中，得到的模型预测具体结果如表7所示。

表7：结果混淆矩阵

根据上述结果可得到如表8所示的度量结果：

从上述结果中可以看出，针对“原发性甲状腺机能冗进症”疾病的预测结果是可以接受的，从结果中也看出，对于偏斜数据，一般不仅需要求得模型的准确率，更要结合模型的精度与召回率以对模型得到更加准确的判断，从而确保了模型的准确性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种医疗大数据分析处理系统，其特征在于，包括：

数据采集模块，采集关于需要预测的疾病并发症的原始数据，所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息；

数据预处理模块，对采集的原始数据进行清洗和集成；

数据转换模块，对经预处理后的数据利用熵进行离散化处理，以得到为标称型数据的样本集；

预测模型构建模块，构建用于训练的逻辑回归模型，从经数据转换的样本集中随机抽取一份数据集作为训练集，并基于该训练集对构建的逻辑回归模型的参数进行求解，以得到最终的预测模型；

预测模型测试模块，将样本集中的另一份数据集作为测试集，利用得到的最终的预测模型进行测试，以得到预测结果；

预测结果评估模块，采用多种评估度量对预测结果的准确性进行评估。

2.根据权利要求1所述的医疗大数据分析处理系统，其特征在于，所述预测模型构建模块包括：

训练模型构建单元，基于构建的m×n型矩阵，构建如下式(1)所示的逻辑回归模型：

y＝Θ^Tx＝θ₀*x₀+θ₁*x₁+...+θ_n*x_n (1)

L(Θ)＝∏g(Θ^Tx)^y(1-g(Θ^Tx))^1-y (2)

l(Θ)＝∑y*log g(Θ^Tx)+(1-y)*log(1-g(Θ^Tx)) (3)

3.根据权利要求2所述的医疗大数据分析处理系统，其特征在于，采用梯度下降法来对所述对数似然函数的参数进行求解，包括如下步骤：

(1)选择梯度方向

(2)选择下降步长α，对参数进行更新：

(3)重复以上步骤直至满足停止条件；

4.根据权利要求2所述的医疗大数据分析处理系统，其特征在于，所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果，所述决策函数如下式(4)所示：

y^{*} = \{\begin{matrix} 1, P (y = 1 | x; θ) &GreaterEqual; T \\ 0, P (y = 1 | x; θ) < T \end{matrix} - - - (4)

其中，

P(y＝1|x；θ)为预测结果为正类的概率。

5.根据权利要求1所述的医疗大数据分析处理系统，其特征在于，所述数据转换模块对经预处理后的数据利用熵进行离散化处理包括：将样本集中的指标数据的百分位数作为候选的分割节点，并且设定每个指标数据最多被分成3份：当以某个节点分割后，使得该指标数据分成两个区域，若两个区域的数据样本量之比小于0.5或大于2，则继续对较大的那个区域进行离散化，否则该指标的离散化结束。

6.根据权利要求1所述的医疗大数据分析处理系统，其特征在于，所述数据预处理模块采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。

7.根据权利要求1至6任一项所述的医疗大数据分析处理系统，其特征在于，所述评估度量包括准确率、精度和召回率。

8.一种医疗大数据分析处理方法，其特征在于，包括：

S200：对采集的原始数据进行清洗和集成；

S600：采用多种评估度量对预测结果的准确性进行评估。

9.根据权利要求8所述的医疗大数据分析处理方法，其特征在于，步骤S400包括：

S401：将训练集中的m个样本构建为m×n型矩阵，n为训练样本的n个指标；

S402：基于构建的m×n型矩阵，构建如下式(8)所示的逻辑回归模型：

y＝Θ^Tx＝θ₀*x₀+θ₁*x₁+...+θ_n*x_n (8)

S403：利用极大似然函数对构建的逻辑回归模型的参数进行求解，所述极大似然函数如下式(9)所示：

L(Θ)＝∏g(Θ^Tx)^y(1-g(Θ^Tx))^1-y (9)

对上述公式(9)所示的极大似然函数两端求导得到其对数似然函数，如下式(10)所示：

l(Θ)＝∑y*log g(Θ^Tx)+(1-y)*log(1-g(Θ^Tx)) (10)

通过对上述公式(10)所示的对数似然函数的参数进行求解，可得到用于训练的逻辑回归模型的模型参数，从而得到最终的预测模型。

10.根据权利要求9所述的医疗大数据分析处理方法，其特征在于，采用梯度下降法来对所述对数似然函数的参数进行求解，包括如下步骤：

(1)选择梯度方向

(2)选择下降步长α，对参数进行更新：

(3)重复以上步骤直至满足停止条件；

11.根据权利要求9所述的医疗大数据分析处理方法，其特征在于，在步骤S500中，基于最终的预测模型的决策函数来确定预测结果，所述决策函数如下式(11)所示：

y^{*} = \{\begin{matrix} 1, P (y = 1 | x; θ) &GreaterEqual; T \\ 0, P (y = 1 | x; θ) < T \end{matrix} - - - (11)

其中，

P(y＝1|x；θ)为预测结果为正类的概率。

12.根据权利要求8所述的医疗大数据分析处理方法，其特征在于，在步骤S300中对经预处理后的数据利用熵进行离散化处理包括：将样本集中的指标数据的百分位数作为候选的分割节点，并且设定每个指标数据最多被分成3份：当以某个节点分割后，使得该指标数据分成两个区域，若两个区域的数据样本量之比小于0.5或大于2，则继续对较大的那个区域进行离散化，否则该指标的离散化结束。

13.根据权利要求8所述的医疗大数据分析处理方法，其特征在于，在步骤S100中采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。

14.根据权利要求8至13任一项所述的医疗大数据分析处理方法，其特征在于，所述评估度量包括准确率、精度和召回率。