CN111696670A

CN111696670A - 一种基于深度森林的产前胎儿监护智能判读方法

Info

Publication number: CN111696670A
Application number: CN202010545663.7A
Authority: CN
Inventors: 魏航; 郭傲; 陈沁群; 陈妍荻; 洪佳明; 林伙旺; 陈剑梅
Original assignee: Guangzhou Sunray Medical Apparatus Co ltd
Current assignee: Guangzhou Sunray Medical Apparatus Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-22
Anticipated expiration: 2040-06-16
Also published as: CN111696670B

Abstract

本发明公开了一种基于深度森林的产前胎儿监护智能判读方法，该方法将经过预处理且已知分类的p维CTG临床特征向量通过三个多粒度滑动窗口扫描，并通过两个森林模型后合并得到2m(p‑d₁+1)维、2m(p‑d₂+1)维和2m(p‑d₃+1)维三个表征向量，再输入至级联森林阶段的四个森林模型，级联森林利用多粒度扫描处理后的特征向量作为第一层的输入，经四个森林模型得到4m维的类别向量，再与原始输入特征向量拼接得到(4m+d₁)维后作为下一层级的输入特征；该方法有效解决产前胎儿监护智能判读模型中可疑类和正常类样本的误判问题，不仅减轻医护人员工作量，而且为基层医院产检工作提供辅助。

Description

一种基于深度森林的产前胎儿监护智能判读方法

技术领域

本发明涉及一种深度森林的机器学习方法，具体的，是涉及一种基于深度森林的产前胎儿监护智能判读方法，该方法用于对产前胎儿状况评估进行智能的分类判断。

背景技术

近年来，随着我国二胎政策的全面开放和城镇化发展，高龄产妇(≥35岁)显著增加，国家卫健委2019年10月发布《2018 年国家医疗服务与质量安全报告》显示：全国高龄产妇在2018年度的调查结果占比为13.57％，呈现出增长的趋势，产前胎儿监护需求巨大。

然而，我国农村医疗水平总体不高，贫困地区胎儿监护医务人员严重不足，大多数孕妇无法享受便捷、及时和准确的胎儿监护服务。

产前胎儿监护是评价胎儿发育状态的有效措施。胎心宫缩监护 (CTG)记录了胎心率的变化以其与宫缩之间的时间关系，其目的是指导对胎儿发育状态的进一步评估，确定是否需要对孕妇进行剖腹产或辅助阴道分娩。胎心宫缩监护用于评价产前胎儿生长发育，可帮助医生及时发现影响胎儿生长的各种危险因素，有效避免胎儿严重窒息或死亡，同时避免过度产检对胎儿造成的不必要的干扰，保护胎儿在整个妊娠期正常生长发育，确保孕妇能够安全分娩出身体健康、智力发育良好的胎儿。

目前国内外的产前胎儿监护使用的机器，还没有达到智能水平。智能判读产前胎心宫缩图模型将有利于为基层医院的产检工作提供辅助，减轻医护人员的工作量，有利于降低剖宫产率以及母婴死亡率，对我国出生人口素质的提高有着重要意义。

胎心宫缩监护评分法在临床实际应用中存在高灵敏度和低特异性的缺陷，产检时间不足40分钟时，容易出现假阳性。当前CTG的解读主要依靠产科医生主观判读，由于经验水平不一，容易出现误判。

近些年，国内外工程领域学者纷纷展开基于机器学习的胎儿评价模型研究。但现有的大部分基于机器学习的胎儿监护模型研究是基于样本分布平衡和分类精度最大化而设计的，往往把分布不平衡的情况归为正态分布，忽略了CTG数据不平衡的问题，得到的可疑类准确率仅有45-82％，异常类准确率仅有66-94％，无法在产前胎儿监护应用。

因此，如何进一步降低胎儿监护智能判读模型中可疑类和正常类样本的误判率，将会是远程智能胎监领域亟待解决的一项技术难题。

发明内容

本发明为了解决现有技术存在的缺陷，提供一种基于深度森林的产前胎儿监护智能判读方法。

为了解决上述的技术问题，本发明采用如下技术方案：

一种基于深度森林的产前胎儿监护智能判读方法，步骤如下：

步骤1：将经预处理且已知分类的p维CTG临床特征向量作为多粒度扫描阶段的输入，分别经三个滑动窗口扫描，得到CTG临床特征子样本，所述三个滑动窗口的长度分别为d₁维、d₂维和d₃维；

步骤2：将上述经多粒度处理后的CTG临床特征子样本分别输入到普通随机森林模型A和完全随机森林模型B，分别输出(p-d₁+1)、 (p-d₂+1)、(p-d₃+1)维类别向量，再合并得到三个表征向量，分别为d₁维表征向量、d₂维表征向量和d₃维表征向量；

步骤3：将d₁维表征向量输入至级联森林阶段的四个森林模型，所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权随机森林模型E和梯度提升决策树模型F，所述d₁维表征向量经四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到 (4m+d₁)维的向量，即第1_A级；

步骤4：将(4m+d₁)维的向量继续输入至四个森林模型，得到对应d₂维表征向量的4m维的类别向量，然后将所述对应d₂维表征向量的4m维的类别向量与d₂维表征向量合并，得到(4m+d₂)维的向量，即第1_B级；

步骤5：将(4m+d₂)维的向量继续输入至四个森林模型，得到对应d₃维表征向量的4m维的类别向量，然后将所述对应d₃维表征向量的4m维的类别向量与d₃维表征向量合并，得到(4m+d₃)维的向量，即第1_C级；

步骤6：每增加一级数，级联森林利用交叉验证进行计算，通过验证集对四个森林模型产生的每个类别向量进行评估，级联森林经N 次迭代循环后，将N-1C级的(4m+d₃)维的合并向量继续输入至四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到(4m+d₁)维的向量，即第N_A级；

步骤7：重复步骤4，得到(4m+d₂)维的向量，即第N_B级；

步骤8：重复步骤5，得到第N_C级的(4m+d₃)维的合并向量，此时，经交叉验证计算后，深度森林预测准确率已不再增加，则级联森林停止迭代，并将所述第N_C级的(4m+d₃)维的合并向量最后一次通过四个森林模型，得到4个m维的类别向量，将所述4个m维的类别向量的每一类的预测准确率相加后取平均值，取最大值。

所述m维可为2维或3维；

作为优选方案，所述步骤1得到的CTG临床特征子样本包括 (p-d₁+1)个d₁维CTG临床特征子样本、(p-d₂+1)个d₂维CTG临床特征子样本和(p-d₃+1)个d₃维CTG临床特征子样本；所述步骤2得到的 (p-d₁+1)、(p-d₂+1)、(p-d₃+1)维类别向量的个数分别为2(p-d₁+1)个、 2(p-d₂+1)个和2(p-d₃+1)个；所述步骤2得到的d₁维表征向量、d₂维表征向量和d₃维表征向量分别为2m(p-d₁+1)维、2m(p-d₂+1)维和2m (p-d₃+1)维；所述四个森林模型产生的每个类别向量经k折交叉验证。

作为优选方案，所述p维CTG临床特征向量从基线(BASELINE)、变异(FHRVAR)、周期变异(FHRCYCLE)、加速(FHRFAST)、减速(FHSLOW)、早期减速(ED)、晚期减速(LD)、变异减速(VD)、延长减速(DP)、轻度减速(DL)、重度减速(DS)、胎动(FMOVE)、宫缩次数(UCTIMES)、加速时间(FASTTIME)、加速幅度(FAETVALUE)、短变异(STV)、高变异时间(HIGHLTV)、低变异时间(LOWLTV)、有加减速时间 (HAVEACCDEC)、宫缩强度(UCSTRONG)、宫缩间隔时间(UCNEXT)、宫缩持续时间(UCKTIME)、变异减速时间(VDTIME)、数据丢失 (LOSTDATA)和孕周(GESTATIONALWEEK)共25项临床特征信息中选取。

作为优选方案，所述预处理为输入数据标准化和输出数据编码，输入数据标准化采用z-score数据标准化方法，输出数据编码采用 one-hot独热编码。

本发明有效解决产前胎儿监护智能判读模型中可疑类和正常类样本存在的误判问题，帮助医生及时发现影响胎儿生长的危险因素，同时避免过度产检对胎儿造成的不必要的干扰，大大减轻医护人员的工作量，而且还可以为基层医院的产检工作起到了一定辅助的作用。

附图说明

图1是本发明实施例1多粒度扫描阶段示意图；

图2是本发明实施例1深度森林的算法流程示意图；

图3是本发明实施例2深度森林的算法流程示意图。

具体实施方式

为了使本发明的发明目的、技术方案以及有益效果更清楚，以下将结合附图以及具体实施例，对本发明一种基于深度森林的产前胎儿监护智能判读方法进行进一步的说明。

(一)关于输入特征

本发明获取28周至分娩前的孕产妇胎心宫缩图作为研究对象，根据国内外现有的产前胎儿评分法、监护指南和我国专家共识，结合临床以及远程胎儿监护的实际需求，确定了25项CTG临床特征作为深度森林模型的输入特征。除了孕周以外，其余24项CTG临床特征都是通过远程居家胎儿监护仪器获取的胎心率和宫缩信号中提取的。

(二)关于预处理

(1)输入数据标准化

p维CTG临床特征向量(即产前胎心宫缩图CTG数据集)中各个特征属性的取值范围和单位不尽相同，因此对输入数据的标准化极为关键。数据标准化是将数据按比例缩放，使之落入一个小的特定区间，便于判别模型在不同单位或量级的指标能进行比较和加权计算。

本发明采用z-score数据标准化方法，计算公式x^*＝(x-μ)/σ，其中，x为数据原始特征，x^*为标准化处理后的特征，μ和σ分别为样本数据的均值与标准差。

(2)输出数据编码

针对多分类的产前胎心宫缩图CTG数据集，本发明还采用了独热编码(one-hot)的方式对输出标签属性进行数据编码。

本发明将产前胎儿监护模型划分为初查和复查两个模型，其中，复查模型的分类采用第9版《妇产科》教材(2018)的胎儿监护指南，将胎儿状况评估划分为“正常类、可疑类和异常类”三类，输出编码设置为正常类100、可疑类010和异常类001。

而考虑到“异常类”样品稀缺的情况，本发明的初查模型将胎儿状况评估划分为“正常类”和“非正常类”，输出编码设置为正常类 10，非正常类01。即将“可疑类”和“异常类”归并为“非正常类”。

(三)关于随机森林算法

深度森林(DF)是在深度学习理论和神经网络的启发下，以随机森林算法(RF)为基础的一种有监督机器集成学习算法。

本发明的随机森林算法流程具体包括如下四个步骤。其中，假设训练集为D，有N个不同的样本，D包含M个特征以及分类标签Y。

第一，在原始训练集D中，有放回的抽取k个样本集，并利用k 个样本集建立k^*个决策树。

第二，每个决策树的节点随机抽取m(m＜＜M)的特征变量，在m 个特征变量中选择分类能力最强的特征作为分类节点并进行分裂。

第三，使每个决策树树最大限度地生长，生成k^*个决策树。

第四，将k^*个决策树组合在一起，形成随机森林，然后分类器对数据进行分类，决策树分类器的投票比例决定分类器的最终的结果。

(三)关于深度森林模型

本发明构建了基于深度森林的产前胎心宫缩图智能判读模型，将产前胎心宫缩图CTG数据集按7：3的比例，划分为训练集和测试集。通过深度森林模型在训练集上训练智能判读产前胎心宫缩图模型，再利用测试集验证该深度森林模型的泛化能力。

本发明的深度森林模型利用多粒度扫描对原始输入特征进行转换以增强特征表达能力，然后利用级联森林做逐层表征学习。其中，多粒度扫描阶段选用一个普通随机森林和一个完全随机森林模型，每个模型含有500个决策树，决策树生长规则为叶节点完全生长或深度达到100；级联森林阶段选用四个森林模型(随机森林模型、完全随机森林模型、加权随机森林模型和梯度提升决策树模型)，每个模型含有200个决策树，决策树生长规则为叶节点完全生长。

(四)关于多粒度扫描阶段

本发明通过多粒度扫描阶段实现对原始输入特征进行转换，增强特征表达能力，有效找出各特征之间的顺序关系的预测算法，其预测准确率得到了明显的提升。具体的，使用深度森林算法时，往往设置

和

(p为特征维数，

为向上取整)三种不同长度的滑动窗口。因此，在实际使用中，多粒度扫描阶段将产生多个不同的特征向量作为级联森林的输入，有效提高了深度森林算法处理样本特征之间顺序关系的能力。

本发明通过多粒度扫描阶段获取产前胎心宫缩图CTG数据集的增强特征，有效解决了正常类样本和可疑类样本判读标准交叉问题。

(五)关于级联森林阶段

本发明的级联森林阶段集成随机森林(RF)、加权随机森林(WRF)、完全随机森林(CRF)和梯度提升树(GBDT)为基分类器的深度森林模型，进一步提高了产前胎心宫缩图智能判读结果的预测准确率。

本发明的深度森林的深度可自动由算法确定而不需要人为设置参数。具体的，当每增加一个级联森林的级数，级联森林使用验证集对已经生成的整个模型进行性能验证。若模型的预测性能没有明显的提升，则训练停止。深度森林将每个森林预测的类别对应结果相加后取平均值，类别概率的最大值即为该样本的最终预测结果。计算公式：

(六)关于交叉验证

为了避免过拟合现象的出现，每个由森林产生的类别向量会经过 k折交叉验证，即每个样本都被作为训练数据训练(k-1)次，然后产生(k-1)个类别向量后对其取平均值作为下一级的增强特征向量。

深度森林算法默认是采用五折交叉验证。本发明在级联森林阶段通过对数据进行五折交叉验证来确定最佳模型深度，并且设置当三次迭代后模型分类性能不再提高时，停止迭代。随着级联森林层数的增加，模型整体准确率也在逐步提升。当模型层数为5层时，模型达到最高的预测准确率。之后随着层数的增加，模型的准确率逐步下降。

考虑到模型整体性能以及运行时间，本发明所构建的基于深度森林的智能判读产前胎心宫缩图模型的级联森林阶段的层数设为5层。

实施例1

参照图1和2所示，本实施例提供一种基于深度森林的产前胎儿监护智能判读方法，步骤如下：

步骤1：将经过预处理和初查模型分类的p维CTG临床特征向量作为多粒度扫描阶段的输入，分别经长度为d₁维、d₂维和d₃维三个滑动窗口扫描，得到(p-d₁+1)个d₁维CTG临床特征子样本、(p-d₂+1) 个d₂维CTG临床特征子样本和(p-d₃+1)个d₃维CTG临床特征子样本；

其中p为25，d₁为2，d₂为4，d₃为7；

步骤2：将上述经多粒度处理后的CTG临床特征子样本分别输入到普通随机森林模型A和完全随机森林模型B，分别输出(p-d₁+1)、 (p-d₂+1)、(p-d₃+1)维类别向量，所述步骤2得到的(p-d₁+1)、(p-d₂+1)、 (p-d₃+1)维类别向量的个数分别为2(p-d₁+1)个、2(p-d₂+1)个和2(p-d₃+1) 个，再合并得到三个表征向量，分别为d₁维表征向量、d₂维表征向量和d₃维表征向量，所述d₁维表征向量、d₂维表征向量和d₃维表征向量分别为2m(p-d₁+1)维(图2显示为4(p-d₁+1)维)、2m(p-d₂+1) 维(图2显示为4(p-d₂+1)维)和2m(p-d₃+1)维(图2显示为4(p-d₃+1) 维)；

其中m为2；

步骤3：将d₁维表征向量输入至级联森林阶段的四个森林模型，所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权随机森林模型E和梯度提升决策树模型F，所述d₁维表征向量经四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到 (4m+d₁)维的向量，即第1_A级(图2显示为8+4(p-d₁+1)维)；

步骤4：将(4m+d₁)维的向量继续输入至四个森林模型，得到对应d₂维表征向量的4m维的类别向量，然后将所述对应d₂维表征向量的4m维的类别向量与d₂维表征向量合并，得到(4m+d₂)维的向量，即第1_B级(图2显示为8+4(p-d₂+1)维)；

步骤5：将(4m+d₂)维的向量继续输入至四个森林模型，得到对应d₃维表征向量的4m维的类别向量，然后将所述对应d₃维表征向量的4m维的类别向量与d₃维表征向量合并，得到(4m+d₃)维的向量，即第1_C级(图2显示为8+4(p-d₃+1)维)；

步骤6：每增加一级数，级联森林利用交叉验证进行计算，通过验证集对四个森林模型产生的每个类别向量进行评估，所述四个森林模型产生的每个类别向量经k折交叉验证，级联森林经N次迭代循环后，将N-1C级的(4m+d₃)维的合并向量继续输入至四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应 d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到(4m+d₁) 维的向量，即第N_A级；

其中N为5，k为5；

步骤7：重复步骤4，得到(4m+d₂)维的向量，即第NB级；

步骤8：重复步骤5，得到第NC级的(4m+d₃)维的合并向量，此时，经交叉验证计算后，深度森林预测准确率已不再增加，则级联森林停止迭代，并将所述第NC级的(4m+d₃)维的合并向量最后一次通过四个森林模型，得到4个m维的类别向量，将所述4个m维的类别向量的每一类的预测准确率相加后取平均值，取最大值。

值得说明的是，本实施例的级联森林利用多粒度扫描处理后的特征向量作为第一层的输入，在经过4种森林模型分类处理后得到4个 2维的类别向量，再将原始输入特征向量与类别向量拼接后作为下一层级联森林的输入特征。且本实施例的级联森林阶段的层数为5层。

实施例2

参照图3所示，本实施例提供一种基于深度森林的产前胎儿监护智能判读方法，步骤如下：

步骤1：将经过预处理和复查模型分类的p维CTG临床特征向量作为多粒度扫描阶段的输入，分别经长度为d₁维、d₂维和d₃维三个滑动窗口扫描，得到(p-d₁+1)个d₁维CTG临床特征子样本、(p-d₂+1) 个d₂维CTG临床特征子样本和(p-d₃+1)个d₃维CTG临床特征子样本；

其中p为21，d₁为2，d₂为3，d₃为6；

步骤2：将上述经多粒度处理后的CTG临床特征子样本分别输入到普通随机森林模型A和完全随机森林模型B，分别输出(p-d₁+1)、 (p-d₂+1)、(p-d₃+1)维类别向量，所述步骤2得到的(p-d₁+1)、(p-d₂+1)、 (p-d₃+1)维类别向量的个数分别为2(p-d₁+1)个、2(p-d₂+1)个和2(p-d₃+1) 个，再合并得到三个表征向量，分别为d₁维表征向量、d₂维表征向量和d₃维表征向量，所述d₁维表征向量、d₂维表征向量和d₃维表征向量分别为2m(p-d₁+1)维(图3显示为120维)、2m(p-d₂+1)维(图3 显示为114维)和2m(p-d₃+1)维(图3显示为96维)；

其中m为3；

步骤3：将d₁维表征向量输入至级联森林阶段的四个森林模型，所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权随机森林模型E和梯度提升决策树模型F，所述d₁维表征向量经四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到 (4m+d₁)维的向量，即第1_A级(图3显示为132维)；

步骤4：将(4m+d₁)维的向量继续输入至四个森林模型，得到对应d₂维表征向量的4m维的类别向量，然后将所述对应d₂维表征向量的4m维的类别向量与d₂维表征向量合并，得到(4m+d₂)维的向量，即第1_B级(图3显示为126维)；

步骤5：将(4m+d₂)维的向量继续输入至四个森林模型，得到对应d₃维表征向量的4m维的类别向量，然后将所述对应d₃维表征向量的4m维的类别向量与d₃维表征向量合并，得到(4m+d₃)维的向量，即第1_C级(图3显示为108维)；

其中N为5，k为5；

步骤7：重复步骤4，得到(4m+d₂)维的向量，即第NB级；

值得说明的是，本实施例的级联森林利用多粒度扫描处理后的特征向量作为第一层的输入，在经过4种森林模型分类处理后得到4个 3维的类别向量，再将原始输入特征向量与类别向量拼接后作为下一层级联森林的输入特征。且本实施例的级联森林阶段的层数为5层。

验证实施例1

采用如下的混淆矩阵评价本发明深度森林模型的性能：

预测/真实	Positive	Negative
			Positive	TP(True Positive)	FP(True Negative)
Negative	FN(False Positive)	TN(False Negative)

1.本发明初查模型的评价结果如下：

预测/真实	正常	非正常
			正常	96.17％	20.86％
非正常	3.83％	79.14％

结果表明，本发明初查模型的深度森林智能判读的正常类样本的预测准确率达到96.17％，非正常类样本的预测准确率也达到79.14％，其中正常类样本误判为非正常类样本的概率仅有3.83％，有效避免了过度产检对胎儿造成的不必要的干扰。

2.本发明复查模型的评价结果如下：

预测/真实	正常	可疑	异常
				正常	97.00％	14.06％	3.45％
可疑	2.40％	84.38％	0
				异常	0.60％	1.56％	96.55％

结果表明，本发明复查模型的深度森林智能判读的正常类样本的预测准确率达到96.17％，可疑类和异常类样本的预测准确率分别为84.38％和96.55％。其中正常类样本误判为可疑类样本的概率仅有 2.40％，正常类样本误判为异常类样本的概率仅有0.60％，有效避免过度产检对胎儿造成的不必要的干扰。与此同时，异常类样本误判为正常类样本的概率仅有3.45％，有效帮助医生及时的发现异常胎儿。且本发明的复查模型可作为本发明的初查模型后续筛查的有效补充。

验证实施例2

为了评估本发明深度森林模型的预测能力，本发明选取了随机森林(Random Forest，RF)、梯度提升决策树(Gradient Boosting Decision Tree，GBDT)、支持向量机(SupportVictor Machine，SVM)、 k最邻近分类(K-Nearest Neighbor，KNN)和朴素贝叶斯(NaiveBayes， NB)五种传统机器学习算法和深度神经网络(Deep Neural Network， DNN)与本发明的深度森林算法(DF)的预测结果进行对比分析，以验证本发明深度森林模型的有效性，即训练与本发明深度森林模型相同深度的深度神经网络以及传统机器学习模式进行结果对比分析。

1.本发明初查模型的预测结果的对比情况如下：

结果表明，本发明初查模型的深度森林的预测准确率最高。

本领域可知，过低的召回率(灵敏度)会导致可疑类样本被误判为正常类样本。本发明初查模型的深度森林与具有相同层级结构的深度神经网络DNN相比，非正常类样本的召回率提高了13.42％，有效避免过度产检对胎儿造成的不必要的干扰。

与传统贝叶斯NB及KNN算法相比，本发明初查模型的深度森林集成了随机森林与GBDT模型，获得了更高的预测精度。

从本发明的深度森林预测指标的结果与GBDT以及RF相近可知，本发明初查模型深度森林很好集成了级联森林中基模型的预测能力，且获得了更好的整体预测性能。

2.本发明复查模型的预测结果的对比情况如下：

结果表明，本发明复查模型的深度森林，其平均F1和平均AUC 值均为最高。与此同时，本发明复查模型的深度森林的正常类样本的精确度、可疑类样本的召回率、异常类样本的灵敏度也均为最高。

本领域可知，过低的召回率(灵敏度)会导致可疑类样本被误判为正常类样本。本发明复查模型的深度森林与具有相同层级结构的深度神经网络DNN相比，可疑类样本的召回率提高了23.44％，有效避免过度产检对胎儿造成的不必要的干扰。

从本发明的深度森林部分预测指标结果与GBDT及RF相近可知，本发明复查模型深度森林很好集成了级联森林中基模型的预测能力，且获得了更好的整体预测性能。

综上所述，本发明提供的一种基于深度森林的产前胎儿监护智能判读方法，创新利用了25项CTG临床特征作为深度森林模型的输入特征，本发明的深度森林模型经过多粒度扫描和级联森林两个阶段的特定的步骤训练，相比具有相同深度的深度神经网络和传统机器学习模式，获得了意想不到的预测性能。

以上所述仅为本发明的优选实施例，但本发明创造并不限于实施例，熟悉本领域的技术人员在本发明所公开的范围内，根据本技术方案构思加以等同变形或替换变形，均包含在本发明的保护范围里面。

Claims

1.一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，包括以下步骤：

步骤2：将上述经多粒度处理后的CTG临床特征子样本分别输入到普通随机森林模型A和完全随机森林模型B，分别输出(p-d₁+1)、(p-d₂+1)、(p-d₃+1)维类别向量，再合并得到三个表征向量，分别为d₁维表征向量、d₂维表征向量和d₃维表征向量；

步骤3：将d₁维表征向量输入至级联森林阶段的四个森林模型，所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权随机森林模型E和梯度提升决策树模型F，所述d₁维表征向量经四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到(4m+d₁)维的向量，即第1_A级；

步骤6：每增加一级数，级联森林利用交叉验证进行计算，通过验证集对四个森林模型产生的每个类别向量进行评估，级联森林经N次迭代循环后，将N-1C级的(4m+d₃)维的合并向量继续输入至四个森林模型，得到对应d₁维表征向量的4m维的类别向量，然后将所述对应d₁维表征向量的4m维的类别向量与d₁维表征向量合并，得到(4m+d₁)维的向量，即第N_A级；

步骤7：重复步骤4，得到(4m+d₂)维的向量，即第N_B级；

2.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述p维CTG临床特征向量从基线、变异、周期变异、加速、减速、早期减速、晚期减速、变异减速、延长减速、轻度减速、重度减速、胎动、宫缩次数、加速时间、加速幅度、短变异、高变异时间、低变异时间、有加减速时间、宫缩强度、宫缩间隔时间、宫缩持续时间、变异减速时间、数据丢失和孕周共25项临床特征信息中选取。

3.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述预处理包括输入数据标准化以及输出数据编码，所述输入数据标准化采用z-score数据标准化方法，所述输出数据编码采用one-hot独热编码。

4.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述步骤1得到的CTG临床特征子样本包括(p-d₁+1)个d₁维CTG临床特征子样本、(p-d₂+1)个d₂维CTG临床特征子样本和(p-d₃+1)个d₃维CTG临床特征子样本。

5.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述步骤2得到的(p-d₁+1)、(p-d₂+1)、(p-d₃+1)维类别向量的个数分别为2(p-d₁+1)个、2(p-d₂+1)个和2(p-d₃+1)个。

6.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述步骤2得到的d₁维表征向量、d₂维表征向量和d₃维表征向量分别为2m(p-d₁+1)维、2m(p-d₂+1)维和2m(p-d₃+1)维。

7.根据权利要求1和6任一项所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述m维可为2维或3维。

8.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法，其特征在于，所述四个森林模型产生的每个类别向量经k折交叉验证。