CN110120265A

CN110120265A - 基于多维特征和模型融合的提高预测血尿酸精度的方法

Info

Publication number: CN110120265A
Application number: CN201910355425.7A
Authority: CN
Inventors: 于瑞国; 潘丽; 赵满坤; 高洁; 于健; 李雪威; 喻梅; 安永利
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-13
Anticipated expiration: 2039-04-29
Also published as: CN110120265B

Abstract

本发明公开了一种基于多维特征和模型融合的提高预测血尿酸精度的方法，包括：对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；对所述重要特征进行扩充，以此获得更加丰富的特征；根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征，重复迭代，直至遍历所有的特征；对原始语料进行预处理删除其中的异常符号，并删除无用单词；对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精度。

Description

基于多维特征和模型融合的提高预测血尿酸精度的方法

技术领域

本发明涉及数据挖掘和机器学习领域，尤其涉及一种基于多维特征和模型融合的提高预测血尿酸精度的方法。

背景技术

最近几年关于血尿酸的研究逐渐变多，但是很少有关于用文字特征的血尿酸预测模型计算血尿酸的值。现在的血尿酸计算方法主要是采用单一的Boosting算法^[1]，其在一定程度上增强了模型对患病人群的识别能力，提升了模型的准确率。但，采用单一的Boosting算法进行预测存在一些不足，因为Boosting通过训练一个弱学习器不断拟合残差来减小误差，这个过程使得偏差不断减小，同时方差变大，容易导致过拟合。

传统的预测血尿酸值的算法主要有基于Boosting的GBDT^[2]算法(梯度提升树)和Xgboost算法^[3]。GBDT通过构建决策树^[4]的一系列组合来进行预测。不管是分类还是回归构建决策树的重点都在于寻找分裂决策点。对于分类树因为标签为不连续的值，因此可以通过信息增益或者基尼指数来寻找最佳分裂点，其实它们都是基于熵的计算方式，信息基尼指数可以看作是熵公式的泰勒展开式。但是对于回归树来说标签值是连续的，那么此时信息增益和基尼指数就不再适用，此时可以通过计算平方误差来寻找连续值的最佳分裂点。模型通过划分最佳分裂点，主要是对数据进行分类，使得对于每一类的数据，在类内尽量使得数据的方差变小，这样被分为一类的数据之间的相似度比较大。

GBDT算法的优点有很多，其有着较为丰富的非线性变化，不用做很复杂的特征工程就能够具有很强的表达性。但是它的缺点也是很明显的，GBDT作为Boosting算法的成员，它的整个算法过程是串行的，不利于并行化，因此计算过程会比较耗时。同时作为增强的算法通过不断减小偏差、增强容易过度拟合。

Xgboost在GBDT基础上进行了一系列的改进。首先，在构建树的过程中Xgboost加入了正则化项，这样可以表达一些线性关系，此时模型相当于一个逻辑回归。同时，Xgboost在计算损失函数时引入二次函数，当不为二次的时候对函数进行二次泰勒展开进行近似计算，二阶函数有着更快的收敛性。其次，Xgboost引入相当于学习率的shrinkage概念。

类似于随机森林的列采样，Xgboost引入列抽样来提高计算速度减少过拟合。Xgboost可以自动处理缺失值。

现有医学领域成果大多数是基于统计和生理标注，需要对病人进行跟踪检查，耗时比较长，统计人群规模较大、成本较高。

发明内容

本发明提供了一种基于多维特征和模型融合的提高预测血尿酸精度的方法，本发明能够实现较高的精度识别，对进一步研究血尿酸有着重要价值，详见下文描述：

一种基于多维特征和模型融合的提高预测血尿酸精度的方法，所述方法包括以下步骤：

对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；对所述重要特征进行扩充，以此获得更加丰富的特征；

根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征，重复迭代，直至遍历所有的特征；

对原始语料进行预处理删除其中的异常符号，并删除无用单词；

对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；

基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精度。

其中，所述对预处理后的语料进行分词并通过Doc2vec算法提取特征向量具体为：

通过Doc2vec模型的训练获得若干维文本向量，每一行代表一位体检者的检查信息；

所获得的文本向量仅由Lightgbm模型单独训练以获得预测结果，将预测结果作为文本向量特征，合并到数值特征中用于构建完备特征集合。

进一步地，所述基于Boosting和Stacking的多模型融合具体为：

1)基于Boosting的GBDT算法，对于弱学习器进行初始化；

2)GBDT通过迭代不断计算残差r_im；

3)对叶子区域j＝1,2,..J计算最佳拟合值，如下式所示；

4)更新学习器，如下式所示：

其中，I为满足x∈R_jm条件个数，更新后的学习器输入x，输出f(x)即为预测值。

本发明提供的技术方案的有益效果是：

1、本发明基于一个横截面时间进行研究，效率较高，成本较低，且能够达到较高的血尿酸识别精度，对进一步研究血尿酸有着重要价值；

2、本发明的目标是提高模型预测血尿酸精度的能力：单一的Boosting算法通过训练一个弱学习器不断拟合残差来减小误差，这个过程使得偏差不断减小，同时方差变大，这就容易导致过拟合。因此本发明提出Boosting和Stacking相结合的方法通过训练多个弱学习器来减小模型过拟合的风险，从而增加模型的鲁棒性。

附图说明

图1为一种基于多维特征和模型融合的提高预测血尿酸精度的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了实现上述目的，本发明实施例提出一种基于神经网络特征提取和多模型融合的提高预测血尿酸精度的方法，该方法包括两个子算法，分别为：基于Doc2vec的多特征融合方法(DMFA)和基于Boosting和Stacking的多模型融合方法(BSMFA)，参见图1，包含以下步骤：

101：对原始数据集进行数据清洗，包括：删除异常符号、格式处理、删除无用特征、纠正非法值、归一化和数据变换；

其中，数据清洗是数据处理的首要任务，也是关键的一步，数据处理包括：异常符号清洗、空缺值填充、格式化处理、异常值检测、归一化和数据变换，并进行数据不平衡处理。

102：对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；

其中，相关性分析是特征工程的基础工作。通过分析特征和预测目标的相关性，初步筛选重要特征，对重要特征进行分析。数据特征主要分为两部分，其中一部分是数字型特征中包含的信息数字型特征包括：连续值和离散值。另一部分为文字型特征，主要是B超的检查诊断，通过分词后对文字型特征使用算法进行提取，常见的算法有One-hot、TF-IDF(术语频率-逆文档频率)等。

103：在筛选出重要特征后对特征进行扩充，以此获得更加丰富的特征；

其中，本发明实施例对特征进行分类然后对每一类的特征进行类内运算。目标是考虑要素的绝对数量和相对数量，从而获取更加丰富的特征。

104：根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征；重复迭代，直至遍历所有的特征；

具体实现时，本发明实施例通过特征扩充得到了丰富的特征信息，但是同时也加入了无用的特征(即不能提高模型预测精度能力的特征)，在初步特征相关性分析的基础上利用递归消除的方法进行特征选择，剔除掉无用特征，同时消除共线性问题，提升模型的准确率。

其中，无用特征需要通过特征选择试验得出，本发明实施例通过递归特征消除，迭代地构建模型，然后选择出最佳的特征，对剩余特征重复该过程，直到遍历所有特征。

105：对原始语料进行预处理，即删除原始语料中的异常符号，并删除无用单词；

例如：原始语料为：“超声检查、肝胆、胰腺、脾脏。肝脏的形状仍然规则，左叶是钝的。肝脏表面光滑，肝脏回声更均匀，管道结构清晰，深部组织减弱。肝内、外胆管未见扩张。门脉直径1.2cm。胆囊、胰腺、脾脏未见异常。CDFI：在肝脏和脾脏中未发现异常的血流信号。”

清除上述原始语料中的异常符号，并删除用于语料库预处理的无用单词。

106：对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；

其中，通过步骤105对原始语料进行预处理，得到较为规整的语料信息，对预处理后语料进行分词并提取特征。通过Doc2vec提取200维的特征向量，对特征向量单独进行训练，然后将训练的结果作为新的特征加入到原始特征集中，从而构建出比较完备的特征集。

107：基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精度。

步骤106构建出了比较完备的特征集，但是，如果对这个比较完备的特征集上使用传统的Boosting算法进行预测存在一些不足，因为在每次迭代的过程中不断减小偏差，使得模型容易出现过拟合。为了充分利用数据，进而提高模型的准确率，本发明实施例在Boosting模型基础上加入Stacking过程，提出基于Boosting和Stacking的多模型融合方法，对血尿酸值的精度进行计算。

在一个实施例中，步骤101对数据文本进行了数据清洗，具体步骤如下：

由于原始数据集存在一定比例的缺失、非数字型格式、异常数据等，所以需对原始数据集进行数据清洗，该过程包括：删除异常符号、格式处理、删除无用特征、纠正非法值、归一化和数据变换。

在一个实施例中，步骤102在步骤101的基础上进行特征相关性分析，具体步骤如下：

常用的计算相关系数的方法有四种，分别是：Pearson相关系数、Spearman相关系数、Kendall相关系数和协方差。它们有一定的相同点，同时也存在一定的差异。它们都描述的是两个变量之间的线性相关性，其取值范围为负一到正一之间。当相关系数为正，表明两个变量呈现正相关性，也就是同增同减。当相关系数为负，表明两个变量呈现负相关，且该值的绝对值越大，表明这种关系越强。当相关系数为0时，表明两个变量没有直接的相关性。

在一个实施例中，步骤103对特征进行特征扩充，具体步骤如下：

对于离散型特征进行了One-hot编码，进行了特征数值转换。独热编码使数据分类更加准确，许多机器学习算法不能直接用于数据分类。必须将数据类别转换为数字，这对于分类的输入和输出变量都是相同的。这适用于类别之间存在自然关系的问题，例如：性别“男性”(0)和“女性”(1)的标签。当变量使用独热编码时，它可以提供比单个标签更准确的预测集。

在一个实施例中，步骤104对得到的特征进行特征选择，具体步骤如下：

特征选择的方法有以下几种：Filter方法，Wrapper方法，Embedded方法。因为Filter方法只关心单个变量之间的相关性。不关注特征组合对于模型的影响。因此本发明实施例在特征组合的过程中使用Wrapper的方法，即采用递归消除的方式来进行特征选择。通过递归特征消除，迭代地构建模型然后选择出最佳的特征，然后对剩余特征重复该过程直到遍历所有特征。

在一个实施例中，步骤105使用文本预处理，具体步骤如下：

在预处理过程中，需要首先对语料进行中文分词。本发明实施例使用工业中使用较多的，一个在中文分词中被广泛使用的一个python库jieba分词。在分词前首先自定义词典，构建自定义字典部分结果：窦性心动过缓、心动过缓、心电图轴、右束支、双倍率、心室率、过快等。未构建自定义词典分词：[/窦/性/]/心率/不齐。构建自定义词典分词：[/窦性/]/心率/不齐。

在一个实施例中，步骤106使用文本的向量特征提取，具体步骤如下：

本发明实施例提出使用Doc2vec模型从文本中提取特征，Doc2vec将文本标签化是一个带标签的list，标签通常是句子的编号。带标签的list定义为TaggededDocument。TaggededDocument作为Doc2vec模型的输入。通过Doc2vec模型的训练获得了200维文本向量。每一行代表一位体检者的检查信息。所获得的文本向量仅由Lightgbm模型单独训练以获得预测结果。将这个预测结果作为文本向量特征Ft，合并到数值特征Fn中构建完备特征集合F。

在一个实施例中，步骤107提出基于Boosting和Stacking的多模型融合方法，具体步骤如下：

本发明实施例采用Boosting和Stacking二次集成的融合算法，通过Boosting不断优化单个模型，然后再对优化模型进行融合，从而增强模型的鲁棒性。因为本身数据量较少，Boosting过程是不断优化偏差容易过拟合，进行Stacking能够有效避免过拟合。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：由于原始数据集存在一定比例的缺失、非数字型格式、异常数据等，所以需要对原始数据集进行数据清洗：

202：特征相关性分析，其中，协方差如公式(1)所示。

其中，X_i为变量，为X的均值，Y_i为另一个变量，为变量Y的均值。n为变量个数。本发明实施例采用Pearson相关系数对特征进行相关性分析，Pearson相关系数如公式(2)所示。

203：根据医学资料和文档对特征进行了分组，然后根据分组通过组内运算，从而对特征进行扩充；

204：特征选择；

其中，本发明实施例中使用的是Wrapper方法。其主要思想是：将子集选择视为搜索优化问题生成不同的组合，评估组合，并将它们与其他组合进行比较。子集的选择被认为是优化问题，其通过优化算法来解决，主要方法是：递归特征消除算法(Recursive FeatureElimination,RFE)。

205：语料预处理：

删除特殊符号：“:”、“`”、“.”。删除和诊断结果没有关系的语句，例如：“【超声检查所见】”、“【超声检查示】”、“乳腺扫查”、“肝胆,胰,脾,肾扫”。

206：文本的向量特征提取；

本发明实施例提出Doc2vec模型从文本中提取特征。Doc2vec将文本标签化是一个带标签的list，标签通常是句子的编号。带标签的list定义为Taggeded Document。Taggeded Document作为Doc2vec模型的输入。通过Doc2vec模型的训练获得了200维文本向量。每一行代表一位体检者的检查信息。所获得的文本向量仅由Lightgbm模型单独训练以获得预测结果。将这个预测结果作为文本向量特征Ft，合并到数值特征Fn中构建完备特征集合F。

207：本发明在Boosting模型基础上加入Stacking过程，提出基于Boosting和Stacking的多模型融合方法对血尿酸值的精度进行预测。

其中，该步骤207包括以下步骤：

1)基于Boosting的GBDT算法，对于弱学习器初始化如公式(3)所示。

其中，y_i为数据集的标签，γ为模型预测值，L为损失函数，目标为最小化损失函数。

2)GBDT通过迭代不断计算残差r_im，假设迭代轮数m＝1,2,...,M,对每个样本i＝1,2,...,N计算负梯度如公式(4)所示。

其中，x_i为输入数据，通过对损失函数求偏导计算负梯度。模型预测值将上步得到的残差作为样本新的真实值，并将数据(x_i,r_im)(i＝1,2,..N)作为下一棵树的训练数据，得到一颗新的回归树f_m(x)，其对应的叶子节点区域为R_jm,j＝1,2,...,J，J为回归树t的叶子节点的个数。

3)对叶子区域j＝1,2,..J计算最佳拟合值，如公式(5)所示。

4)更新学习器，如公式(6)所示：

其中，I为满足x∈R_jm条件个数。更新后的学习器输入x，输出f(x)即为预测值。

实施例3

下面结合具体的实例对实施例1和2中的方案进行进一步地介绍，详见下文描述：

采用不同特征集合Fn的数据进行对比实验验证。第一组为数据清理后的原始特征组合。第二组是基于第一组的特征选择之后的特征选择。第三组为在第一组的基础上进行了特征的扩充，第四组为对第三组的特征组合进行特征选择。该模型也使用Catboost进行训练。

对比第一组和第二组数据结果，准确率、召回率和AUC值均出现下降，它表明特征选择基于原始特征组合集，并且效果没有改善。原因应该是特征选择时将一部分重要特征丢失，导致特征不能很好的描述数据特征。对比第一组和第三组实验结果，第三组在原始特征基础上进行特征扩充之后，效果略低于原始特征，说明在进行特征扩充过程中加入了无关特征，对模型有一定影响，影响了模型的准确性。对比第四组和第一组，第四组在扩充以后特征基础上进行特征选择后，效果较第一组有较为明显的提升，说明扩充的特征中有一部分重要特征，并通过特征选择去掉一些不重要的无关特征。从而模型效果有一定程度的提升。

四组男性实验的结果相比，结果没有太大差异。男性较好的结果出现在第二组，即对第一组原始特征进行选择之后。第二组能够在保证相同的准确率下，高召回率和AUC值，说明删除一些无用特征对于高模型效果有一定的作用。与第四组和第一组相比，虽然特征扩展提高了准确性但召回率和AUC降低了。第四组在第三组的基础上进行特征选择，对比第三组可以发现，召回率和AUC都有所提升。但略低于第二组，说明对于男性和女性来说重要特征并不完全相同。对比男性四组结果，相差不大，男性效果略低于女性，说明模型对不同性别的数据分别能力不同。

比较两个男性和女性表，表明特征选择可以在一定程度上提高模型的分辨率性能。本发明实施例对预处理和分词后的语料进行词向量表示，通过Word2vec模型计算分词的词向量，表示为128维的向量。将结果通过TSNE进行降维，在二维平面内绘制300个点代表300个分词。

表1女性数据结果对比图

在表1中，当数据集为扩充特征选择的数据集时，准确率、召回率和AUC都是最高的。说明扩充的特征中有一部分重要特征，并通过特征选择去掉一些不重要的无关特征。对比第一组和第三组实验结果，第三组在原始特征基础上进行特征扩充之后效果略低于原始特征，说明在进行特征扩充过程中加入了无关特征，对模型有一定影响降低了模型的准确性。

表2男性数据结果对比图

在表2中，比较得知结果没有太大差异。男性较好的结果出现在第二组，由此也可以看出对于男性和女性来说重要特征并不完全相同。

参考文献：

[1]Robert E.Schapire.The Boosting Approach to Machine Learning[D].美国:普林斯顿大学,2003

[2]基于关联规则的数据挖掘算法[J].胡涛.电子技术与软件工程.2018(02)

[3]Measuring the influence of mere exposure effect ofTV commercialadverts on purchase behavior based on machine learning prediction models[J].Elisa Claire Alemán Carreón,Hirofumi Nonaka,Asahi Hentona,HirochikaYamashiro.Information Processing and Management.2019(4)

[4]Some features speak loud,but together they all speak louder:Astudy onthe correlation between classification error and feature usage indecision-tree classification ensembles[J].Bárbara Cervantes,Raúl Monroy,Miguel Angel Medina-Pérez,Miguel Gonzalez-Mendoza,Jose Ramirez-Marquez.Engineering Applications of Artificial Intelligence.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述对预处理后的语料进行分词并通过Doc2vec算法提取特征向量具体为：

3.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述基于Boosting和Stacking的多模型融合具体为：

1)基于Boosting的GBDT算法，对于弱学习器进行初始化；

2)GBDT通过迭代不断计算残差r_im；

3)对叶子区域j＝1,2,..J计算最佳拟合值，如下式所示；

4)更新学习器，如下式所示：