CN111696670A - 一种基于深度森林的产前胎儿监护智能判读方法 - Google Patents

一种基于深度森林的产前胎儿监护智能判读方法 Download PDF

Info

Publication number
CN111696670A
CN111696670A CN202010545663.7A CN202010545663A CN111696670A CN 111696670 A CN111696670 A CN 111696670A CN 202010545663 A CN202010545663 A CN 202010545663A CN 111696670 A CN111696670 A CN 111696670A
Authority
CN
China
Prior art keywords
vector
forest
dimension
vectors
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010545663.7A
Other languages
English (en)
Other versions
CN111696670B (zh
Inventor
魏航
郭傲
陈沁群
陈妍荻
洪佳明
林伙旺
陈剑梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sunray Medical Apparatus Co ltd
Original Assignee
Guangzhou Sunray Medical Apparatus Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sunray Medical Apparatus Co ltd filed Critical Guangzhou Sunray Medical Apparatus Co ltd
Priority to CN202010545663.7A priority Critical patent/CN111696670B/zh
Publication of CN111696670A publication Critical patent/CN111696670A/zh
Application granted granted Critical
Publication of CN111696670B publication Critical patent/CN111696670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02411Detecting, measuring or recording pulse rate or heart rate of foetuses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Cardiology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Gynecology & Obstetrics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pregnancy & Childbirth (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于深度森林的产前胎儿监护智能判读方法,该方法将经过预处理且已知分类的p维CTG临床特征向量通过三个多粒度滑动窗口扫描,并通过两个森林模型后合并得到2m(p‑d1+1)维、2m(p‑d2+1)维和2m(p‑d3+1)维三个表征向量,再输入至级联森林阶段的四个森林模型,级联森林利用多粒度扫描处理后的特征向量作为第一层的输入,经四个森林模型得到4m维的类别向量,再与原始输入特征向量拼接得到(4m+d1)维后作为下一层级的输入特征;该方法有效解决产前胎儿监护智能判读模型中可疑类和正常类样本的误判问题,不仅减轻医护人员工作量,而且为基层医院产检工作提供辅助。

Description

一种基于深度森林的产前胎儿监护智能判读方法
技术领域
本发明涉及一种深度森林的机器学习方法,具体的,是涉 及一种基于深度森林的产前胎儿监护智能判读方法,该方法用于对产 前胎儿状况评估进行智能的分类判断。
背景技术
近年来,随着我国二胎政策的全面开放和城镇化发展,高 龄产妇(≥35岁)显著增加,国家卫健委2019年10月发布《2018 年国家医疗服务与质量安全报告》显示:全国高龄产妇在2018年度 的调查结果占比为13.57%,呈现出增长的趋势,产前胎儿监护需求 巨大。
然而,我国农村医疗水平总体不高,贫困地区胎儿监护医务人员 严重不足,大多数孕妇无法享受便捷、及时和准确的胎儿监护服务。
产前胎儿监护是评价胎儿发育状态的有效措施。胎心宫缩监护 (CTG)记录了胎心率的变化以其与宫缩之间的时间关系,其目的是 指导对胎儿发育状态的进一步评估,确定是否需要对孕妇进行剖腹产 或辅助阴道分娩。胎心宫缩监护用于评价产前胎儿生长发育,可帮助 医生及时发现影响胎儿生长的各种危险因素,有效避免胎儿严重窒息 或死亡,同时避免过度产检对胎儿造成的不必要的干扰,保护胎儿在 整个妊娠期正常生长发育,确保孕妇能够安全分娩出身体健康、智力 发育良好的胎儿。
目前国内外的产前胎儿监护使用的机器,还没有达到智能水平。 智能判读产前胎心宫缩图模型将有利于为基层医院的产检工作提供 辅助,减轻医护人员的工作量,有利于降低剖宫产率以及母婴死亡率, 对我国出生人口素质的提高有着重要意义。
胎心宫缩监护评分法在临床实际应用中存在高灵敏度和低特异 性的缺陷,产检时间不足40分钟时,容易出现假阳性。当前CTG的 解读主要依靠产科医生主观判读,由于经验水平不一,容易出现误判。
近些年,国内外工程领域学者纷纷展开基于机器学习的胎儿评价 模型研究。但现有的大部分基于机器学习的胎儿监护模型研究是基于 样本分布平衡和分类精度最大化而设计的,往往把分布不平衡的情况 归为正态分布,忽略了CTG数据不平衡的问题,得到的可疑类准确率 仅有45-82%,异常类准确率仅有66-94%,无法在产前胎儿监护应用。
因此,如何进一步降低胎儿监护智能判读模型中可疑类和正常类 样本的误判率,将会是远程智能胎监领域亟待解决的一项技术难题。
发明内容
本发明为了解决现有技术存在的缺陷,提供一种基于深度 森林的产前胎儿监护智能判读方法。
为了解决上述的技术问题,本发明采用如下技术方案:
一种基于深度森林的产前胎儿监护智能判读方法,步骤如下:
步骤1:将经预处理且已知分类的p维CTG临床特征向量作为 多粒度扫描阶段的输入,分别经三个滑动窗口扫描,得到CTG临床 特征子样本,所述三个滑动窗口的长度分别为d1维、d2维和d3维;
步骤2:将上述经多粒度处理后的CTG临床特征子样本分别输 入到普通随机森林模型A和完全随机森林模型B,分别输出(p-d1+1)、 (p-d2+1)、(p-d3+1)维类别向量,再合并得到三个表征向量,分别为d1维表征向量、d2维表征向量和d3维表征向量;
步骤3:将d1维表征向量输入至级联森林阶段的四个森林模型, 所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权 随机森林模型E和梯度提升决策树模型F,所述d1维表征向量经四个 森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得到 (4m+d1)维的向量,即第1A级;
步骤4:将(4m+d1)维的向量继续输入至四个森林模型,得到 对应d2维表征向量的4m维的类别向量,然后将所述对应d2维表征 向量的4m维的类别向量与d2维表征向量合并,得到(4m+d2)维的 向量,即第1B级;
步骤5:将(4m+d2)维的向量继续输入至四个森林模型,得到 对应d3维表征向量的4m维的类别向量,然后将所述对应d3维表征 向量的4m维的类别向量与d3维表征向量合并,得到(4m+d3)维的 向量,即第1C级;
步骤6:每增加一级数,级联森林利用交叉验证进行计算,通过 验证集对四个森林模型产生的每个类别向量进行评估,级联森林经N 次迭代循环后,将N-1C级的(4m+d3)维的合并向量继续输入至四 个森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所 述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得 到(4m+d1)维的向量,即第NA级;
步骤7:重复步骤4,得到(4m+d2)维的向量,即第NB级;
步骤8:重复步骤5,得到第NC级的(4m+d3)维的合并向量, 此时,经交叉验证计算后,深度森林预测准确率已不再增加,则级联 森林停止迭代,并将所述第NC级的(4m+d3)维的合并向量最后一 次通过四个森林模型,得到4个m维的类别向量,将所述4个m维 的类别向量的每一类的预测准确率相加后取平均值,取最大值。
所述m维可为2维或3维;
作为优选方案,所述步骤1得到的CTG临床特征子样本包括 (p-d1+1)个d1维CTG临床特征子样本、(p-d2+1)个d2维CTG临床特 征子样本和(p-d3+1)个d3维CTG临床特征子样本;所述步骤2得到的 (p-d1+1)、(p-d2+1)、(p-d3+1)维类别向量的个数分别为2(p-d1+1)个、 2(p-d2+1)个和2(p-d3+1)个;所述步骤2得到的d1维表征向量、d2维 表征向量和d3维表征向量分别为2m(p-d1+1)维、2m(p-d2+1)维和2m (p-d3+1)维;所述四个森林模型产生的每个类别向量经k折交叉验证。
作为优选方案,所述p维CTG临床特征向量从基线(BASELINE)、 变异(FHRVAR)、周期变异(FHRCYCLE)、加速(FHRFAST)、减速(FHSLOW)、 早期减速(ED)、晚期减速(LD)、变异减速(VD)、延长减速(DP)、 轻度减速(DL)、重度减速(DS)、胎动(FMOVE)、宫缩次数(UCTIMES)、加速时间(FASTTIME)、加速幅度(FAETVALUE)、短变异(STV)、高 变异时间(HIGHLTV)、低变异时间(LOWLTV)、有加减速时间 (HAVEACCDEC)、宫缩强度(UCSTRONG)、宫缩间隔时间(UCNEXT)、 宫缩持续时间(UCKTIME)、变异减速时间(VDTIME)、数据丢失 (LOSTDATA)和孕周(GESTATIONALWEEK)共25项临床特征信息中选 取。
作为优选方案,所述预处理为输入数据标准化和输出数据编码, 输入数据标准化采用z-score数据标准化方法,输出数据编码采用 one-hot独热编码。
本发明有效解决产前胎儿监护智能判读模型中可疑类和正常类 样本存在的误判问题,帮助医生及时发现影响胎儿生长的危险因素, 同时避免过度产检对胎儿造成的不必要的干扰,大大减轻医护人员的 工作量,而且还可以为基层医院的产检工作起到了一定辅助的作用。
附图说明
图1是本发明实施例1多粒度扫描阶段示意图;
图2是本发明实施例1深度森林的算法流程示意图;
图3是本发明实施例2深度森林的算法流程示意图。
具体实施方式
为了使本发明的发明目的、技术方案以及有益效果更清楚,以下 将结合附图以及具体实施例,对本发明一种基于深度森林的产前胎儿 监护智能判读方法进行进一步的说明。
(一)关于输入特征
本发明获取28周至分娩前的孕产妇胎心宫缩图作为研究对象, 根据国内外现有的产前胎儿评分法、监护指南和我国专家共识,结合 临床以及远程胎儿监护的实际需求,确定了25项CTG临床特征作为 深度森林模型的输入特征。除了孕周以外,其余24项CTG临床特征都是通过远程居家胎儿监护仪器获取的胎心率和宫缩信号中提取的。
(二)关于预处理
(1)输入数据标准化
p维CTG临床特征向量(即产前胎心宫缩图CTG数据集)中各个 特征属性的取值范围和单位不尽相同,因此对输入数据的标准化极为 关键。数据标准化是将数据按比例缩放,使之落入一个小的特定区间, 便于判别模型在不同单位或量级的指标能进行比较和加权计算。
本发明采用z-score数据标准化方法,计算公式x*=(x-μ)/σ, 其中,x为数据原始特征,x*为标准化处理后的特征,μ和σ分别为 样本数据的均值与标准差。
(2)输出数据编码
针对多分类的产前胎心宫缩图CTG数据集,本发明还采用了独热 编码(one-hot)的方式对输出标签属性进行数据编码。
本发明将产前胎儿监护模型划分为初查和复查两个模型,其中, 复查模型的分类采用第9版《妇产科》教材(2018)的胎儿监护指南, 将胎儿状况评估划分为“正常类、可疑类和异常类”三类,输出编码 设置为正常类100、可疑类010和异常类001。
而考虑到“异常类”样品稀缺的情况,本发明的初查模型将胎儿 状况评估划分为“正常类”和“非正常类”,输出编码设置为正常类 10,非正常类01。即将“可疑类”和“异常类”归并为“非正常类”。
(三)关于随机森林算法
深度森林(DF)是在深度学习理论和神经网络的启发下,以随机 森林算法(RF)为基础的一种有监督机器集成学习算法。
本发明的随机森林算法流程具体包括如下四个步骤。其中,假设 训练集为D,有N个不同的样本,D包含M个特征以及分类标签Y。
第一,在原始训练集D中,有放回的抽取k个样本集,并利用k 个样本集建立k*个决策树。
第二,每个决策树的节点随机抽取m(m<<M)的特征变量,在m 个特征变量中选择分类能力最强的特征作为分类节点并进行分裂。
第三,使每个决策树树最大限度地生长,生成k*个决策树。
第四,将k*个决策树组合在一起,形成随机森林,然后分类器对 数据进行分类,决策树分类器的投票比例决定分类器的最终的结果。
(三)关于深度森林模型
本发明构建了基于深度森林的产前胎心宫缩图智能判读模型,将 产前胎心宫缩图CTG数据集按7:3的比例,划分为训练集和测试集。 通过深度森林模型在训练集上训练智能判读产前胎心宫缩图模型,再 利用测试集验证该深度森林模型的泛化能力。
本发明的深度森林模型利用多粒度扫描对原始输入特征进行转 换以增强特征表达能力,然后利用级联森林做逐层表征学习。其中, 多粒度扫描阶段选用一个普通随机森林和一个完全随机森林模型,每 个模型含有500个决策树,决策树生长规则为叶节点完全生长或深度 达到100;级联森林阶段选用四个森林模型(随机森林模型、完全随 机森林模型、加权随机森林模型和梯度提升决策树模型),每个模型 含有200个决策树,决策树生长规则为叶节点完全生长。
(四)关于多粒度扫描阶段
本发明通过多粒度扫描阶段实现对原始输入特征进行转换,增强 特征表达能力,有效找出各特征之间的顺序关系的预测算法,其预测 准确率得到了明显的提升。具体的,使用深度森林算法时,往往设置
Figure BDA0002540615350000081
Figure BDA0002540615350000082
(p为特征维数,
Figure BDA0002540615350000083
为向上取整)三种 不同长度的滑动窗口。因此,在实际使用中,多粒度扫描阶段将产生 多个不同的特征向量作为级联森林的输入,有效提高了深度森林算法 处理样本特征之间顺序关系的能力。
本发明通过多粒度扫描阶段获取产前胎心宫缩图CTG数据集的 增强特征,有效解决了正常类样本和可疑类样本判读标准交叉问题。
(五)关于级联森林阶段
本发明的级联森林阶段集成随机森林(RF)、加权随机森林(WRF)、 完全随机森林(CRF)和梯度提升树(GBDT)为基分类器的深度森林 模型,进一步提高了产前胎心宫缩图智能判读结果的预测准确率。
本发明的深度森林的深度可自动由算法确定而不需要人为设置 参数。具体的,当每增加一个级联森林的级数,级联森林使用验证集 对已经生成的整个模型进行性能验证。若模型的预测性能没有明显的 提升,则训练停止。深度森林将每个森林预测的类别对应结果相加后 取平均值,类别概率的最大值即为该样本的最终预测结果。计算公式:
Figure BDA0002540615350000091
(六)关于交叉验证
为了避免过拟合现象的出现,每个由森林产生的类别向量会经过 k折交叉验证,即每个样本都被作为训练数据训练(k-1)次,然后 产生(k-1)个类别向量后对其取平均值作为下一级的增强特征向量。
深度森林算法默认是采用五折交叉验证。本发明在级联森林阶段 通过对数据进行五折交叉验证来确定最佳模型深度,并且设置当三次 迭代后模型分类性能不再提高时,停止迭代。随着级联森林层数的增 加,模型整体准确率也在逐步提升。当模型层数为5层时,模型达到 最高的预测准确率。之后随着层数的增加,模型的准确率逐步下降。
考虑到模型整体性能以及运行时间,本发明所构建的基于深度森 林的智能判读产前胎心宫缩图模型的级联森林阶段的层数设为5层。
实施例1
参照图1和2所示,本实施例提供一种基于深度森林的产前胎儿 监护智能判读方法,步骤如下:
步骤1:将经过预处理和初查模型分类的p维CTG临床特征向 量作为多粒度扫描阶段的输入,分别经长度为d1维、d2维和d3维三 个滑动窗口扫描,得到(p-d1+1)个d1维CTG临床特征子样本、(p-d2+1) 个d2维CTG临床特征子样本和(p-d3+1)个d3维CTG临床特征子样本;
其中p为25,d1为2,d2为4,d3为7;
步骤2:将上述经多粒度处理后的CTG临床特征子样本分别输 入到普通随机森林模型A和完全随机森林模型B,分别输出(p-d1+1)、 (p-d2+1)、(p-d3+1)维类别向量,所述步骤2得到的(p-d1+1)、(p-d2+1)、 (p-d3+1)维类别向量的个数分别为2(p-d1+1)个、2(p-d2+1)个和2(p-d3+1) 个,再合并得到三个表征向量,分别为d1维表征向量、d2维表征向 量和d3维表征向量,所述d1维表征向量、d2维表征向量和d3维表征 向量分别为2m(p-d1+1)维(图2显示为4(p-d1+1)维)、2m(p-d2+1) 维(图2显示为4(p-d2+1)维)和2m(p-d3+1)维(图2显示为4(p-d3+1) 维);
其中m为2;
步骤3:将d1维表征向量输入至级联森林阶段的四个森林模型, 所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权 随机森林模型E和梯度提升决策树模型F,所述d1维表征向量经四个 森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得到 (4m+d1)维的向量,即第1A级(图2显示为8+4(p-d1+1)维);
步骤4:将(4m+d1)维的向量继续输入至四个森林模型,得到 对应d2维表征向量的4m维的类别向量,然后将所述对应d2维表征 向量的4m维的类别向量与d2维表征向量合并,得到(4m+d2)维的 向量,即第1B级(图2显示为8+4(p-d2+1)维);
步骤5:将(4m+d2)维的向量继续输入至四个森林模型,得到 对应d3维表征向量的4m维的类别向量,然后将所述对应d3维表征 向量的4m维的类别向量与d3维表征向量合并,得到(4m+d3)维的 向量,即第1C级(图2显示为8+4(p-d3+1)维);
步骤6:每增加一级数,级联森林利用交叉验证进行计算,通过 验证集对四个森林模型产生的每个类别向量进行评估,所述四个森林 模型产生的每个类别向量经k折交叉验证,级联森林经N次迭代循 环后,将N-1C级的(4m+d3)维的合并向量继续输入至四个森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应 d1维表征向量的4m维的类别向量与d1维表征向量合并,得到(4m+d1) 维的向量,即第NA级;
其中N为5,k为5;
步骤7:重复步骤4,得到(4m+d2)维的向量,即第NB级;
步骤8:重复步骤5,得到第NC级的(4m+d3)维的合并向量, 此时,经交叉验证计算后,深度森林预测准确率已不再增加,则级联 森林停止迭代,并将所述第NC级的(4m+d3)维的合并向量最后一 次通过四个森林模型,得到4个m维的类别向量,将所述4个m维 的类别向量的每一类的预测准确率相加后取平均值,取最大值。
值得说明的是,本实施例的级联森林利用多粒度扫描处理后的特 征向量作为第一层的输入,在经过4种森林模型分类处理后得到4个 2维的类别向量,再将原始输入特征向量与类别向量拼接后作为下一 层级联森林的输入特征。且本实施例的级联森林阶段的层数为5层。
实施例2
参照图3所示,本实施例提供一种基于深度森林的产前胎儿监护 智能判读方法,步骤如下:
步骤1:将经过预处理和复查模型分类的p维CTG临床特征向 量作为多粒度扫描阶段的输入,分别经长度为d1维、d2维和d3维三 个滑动窗口扫描,得到(p-d1+1)个d1维CTG临床特征子样本、(p-d2+1) 个d2维CTG临床特征子样本和(p-d3+1)个d3维CTG临床特征子样本;
其中p为21,d1为2,d2为3,d3为6;
步骤2:将上述经多粒度处理后的CTG临床特征子样本分别输 入到普通随机森林模型A和完全随机森林模型B,分别输出(p-d1+1)、 (p-d2+1)、(p-d3+1)维类别向量,所述步骤2得到的(p-d1+1)、(p-d2+1)、 (p-d3+1)维类别向量的个数分别为2(p-d1+1)个、2(p-d2+1)个和2(p-d3+1) 个,再合并得到三个表征向量,分别为d1维表征向量、d2维表征向 量和d3维表征向量,所述d1维表征向量、d2维表征向量和d3维表征 向量分别为2m(p-d1+1)维(图3显示为120维)、2m(p-d2+1)维(图3 显示为114维)和2m(p-d3+1)维(图3显示为96维);
其中m为3;
步骤3:将d1维表征向量输入至级联森林阶段的四个森林模型, 所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权 随机森林模型E和梯度提升决策树模型F,所述d1维表征向量经四个 森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得到 (4m+d1)维的向量,即第1A级(图3显示为132维);
步骤4:将(4m+d1)维的向量继续输入至四个森林模型,得到 对应d2维表征向量的4m维的类别向量,然后将所述对应d2维表征 向量的4m维的类别向量与d2维表征向量合并,得到(4m+d2)维的 向量,即第1B级(图3显示为126维);
步骤5:将(4m+d2)维的向量继续输入至四个森林模型,得到 对应d3维表征向量的4m维的类别向量,然后将所述对应d3维表征 向量的4m维的类别向量与d3维表征向量合并,得到(4m+d3)维的 向量,即第1C级(图3显示为108维);
步骤6:每增加一级数,级联森林利用交叉验证进行计算,通过 验证集对四个森林模型产生的每个类别向量进行评估,所述四个森林 模型产生的每个类别向量经k折交叉验证,级联森林经N次迭代循 环后,将N-1C级的(4m+d3)维的合并向量继续输入至四个森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应 d1维表征向量的4m维的类别向量与d1维表征向量合并,得到(4m+d1) 维的向量,即第NA级;
其中N为5,k为5;
步骤7:重复步骤4,得到(4m+d2)维的向量,即第NB级;
步骤8:重复步骤5,得到第NC级的(4m+d3)维的合并向量, 此时,经交叉验证计算后,深度森林预测准确率已不再增加,则级联 森林停止迭代,并将所述第NC级的(4m+d3)维的合并向量最后一 次通过四个森林模型,得到4个m维的类别向量,将所述4个m维 的类别向量的每一类的预测准确率相加后取平均值,取最大值。
值得说明的是,本实施例的级联森林利用多粒度扫描处理后的特 征向量作为第一层的输入,在经过4种森林模型分类处理后得到4个 3维的类别向量,再将原始输入特征向量与类别向量拼接后作为下一 层级联森林的输入特征。且本实施例的级联森林阶段的层数为5层。
验证实施例1
采用如下的混淆矩阵评价本发明深度森林模型的性能:
预测/真实 Positive Negative
Positive TP(True Positive) FP(True Negative)
Negative FN(False Positive) TN(False Negative)
1.本发明初查模型的评价结果如下:
预测/真实 正常 非正常
正常 96.17% 20.86%
非正常 3.83% 79.14%
结果表明,本发明初查模型的深度森林智能判读的正常类样本的 预测准确率达到96.17%,非正常类样本的预测准确率也达到79.14%, 其中正常类样本误判为非正常类样本的概率仅有3.83%,有效避免了 过度产检对胎儿造成的不必要的干扰。
2.本发明复查模型的评价结果如下:
预测/真实 正常 可疑 异常
正常 97.00% 14.06% 3.45%
可疑 2.40% 84.38% 0
异常 0.60% 1.56% 96.55%
结果表明,本发明复查模型的深度森林智能判读的正常类样本的 预测准确率达到96.17%,可疑类和异常类样本的预测准确率分别为84.38%和96.55%。其中正常类样本误判为可疑类样本的概率仅有 2.40%,正常类样本误判为异常类样本的概率仅有0.60%,有效避免 过度产检对胎儿造成的不必要的干扰。与此同时,异常类样本误判为 正常类样本的概率仅有3.45%,有效帮助医生及时的发现异常胎儿。 且本发明的复查模型可作为本发明的初查模型后续筛查的有效补充。
验证实施例2
为了评估本发明深度森林模型的预测能力,本发明选取了随机森 林(Random Forest,RF)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、支持向量机(SupportVictor Machine,SVM)、 k最邻近分类(K-Nearest Neighbor,KNN)和朴素贝叶斯(NaiveBayes, NB)五种传统机器学习算法和深度神经网络(Deep Neural Network, DNN)与本发明的深度森林算法(DF)的预测结果进行对比分析,以 验证本发明深度森林模型的有效性,即训练与本发明深度森林模型相 同深度的深度神经网络以及传统机器学习模式进行结果对比分析。
1.本发明初查模型的预测结果的对比情况如下:
Figure BDA0002540615350000151
Figure BDA0002540615350000161
结果表明,本发明初查模型的深度森林的预测准确率最高。
本领域可知,过低的召回率(灵敏度)会导致可疑类样本被误判 为正常类样本。本发明初查模型的深度森林与具有相同层级结构的深 度神经网络DNN相比,非正常类样本的召回率提高了13.42%,有效 避免过度产检对胎儿造成的不必要的干扰。
与传统贝叶斯NB及KNN算法相比,本发明初查模型的深度森林 集成了随机森林与GBDT模型,获得了更高的预测精度。
从本发明的深度森林预测指标的结果与GBDT以及RF相近可知, 本发明初查模型深度森林很好集成了级联森林中基模型的预测能力, 且获得了更好的整体预测性能。
2.本发明复查模型的预测结果的对比情况如下:
Figure BDA0002540615350000162
Figure BDA0002540615350000171
结果表明,本发明复查模型的深度森林,其平均F1和平均AUC 值均为最高。与此同时,本发明复查模型的深度森林的正常类样本的 精确度、可疑类样本的召回率、异常类样本的灵敏度也均为最高。
本领域可知,过低的召回率(灵敏度)会导致可疑类样本被误判 为正常类样本。本发明复查模型的深度森林与具有相同层级结构的深 度神经网络DNN相比,可疑类样本的召回率提高了23.44%,有效避 免过度产检对胎儿造成的不必要的干扰。
从本发明的深度森林部分预测指标结果与GBDT及RF相近可知, 本发明复查模型深度森林很好集成了级联森林中基模型的预测能力, 且获得了更好的整体预测性能。
综上所述,本发明提供的一种基于深度森林的产前胎儿监护智能 判读方法,创新利用了25项CTG临床特征作为深度森林模型的输入 特征,本发明的深度森林模型经过多粒度扫描和级联森林两个阶段的 特定的步骤训练,相比具有相同深度的深度神经网络和传统机器学习 模式,获得了意想不到的预测性能。
以上所述仅为本发明的优选实施例,但本发明创造并不限于实施 例,熟悉本领域的技术人员在本发明所公开的范围内,根据本技术方 案构思加以等同变形或替换变形,均包含在本发明的保护范围里面。

Claims (8)

1.一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,包括以下步骤:
步骤1:将经预处理且已知分类的p维CTG临床特征向量作为多粒度扫描阶段的输入,分别经三个滑动窗口扫描,得到CTG临床特征子样本,所述三个滑动窗口的长度分别为d1维、d2维和d3维;
步骤2:将上述经多粒度处理后的CTG临床特征子样本分别输入到普通随机森林模型A和完全随机森林模型B,分别输出(p-d1+1)、(p-d2+1)、(p-d3+1)维类别向量,再合并得到三个表征向量,分别为d1维表征向量、d2维表征向量和d3维表征向量;
步骤3:将d1维表征向量输入至级联森林阶段的四个森林模型,所述四个森林模型分为随机森林模型C、完全随机森林模型D、加权随机森林模型E和梯度提升决策树模型F,所述d1维表征向量经四个森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得到(4m+d1)维的向量,即第1A级;
步骤4:将(4m+d1)维的向量继续输入至四个森林模型,得到对应d2维表征向量的4m维的类别向量,然后将所述对应d2维表征向量的4m维的类别向量与d2维表征向量合并,得到(4m+d2)维的向量,即第1B级;
步骤5:将(4m+d2)维的向量继续输入至四个森林模型,得到对应d3维表征向量的4m维的类别向量,然后将所述对应d3维表征向量的4m维的类别向量与d3维表征向量合并,得到(4m+d3)维的向量,即第1C级;
步骤6:每增加一级数,级联森林利用交叉验证进行计算,通过验证集对四个森林模型产生的每个类别向量进行评估,级联森林经N次迭代循环后,将N-1C级的(4m+d3)维的合并向量继续输入至四个森林模型,得到对应d1维表征向量的4m维的类别向量,然后将所述对应d1维表征向量的4m维的类别向量与d1维表征向量合并,得到(4m+d1)维的向量,即第NA级;
步骤7:重复步骤4,得到(4m+d2)维的向量,即第NB级;
步骤8:重复步骤5,得到第NC级的(4m+d3)维的合并向量,此时,经交叉验证计算后,深度森林预测准确率已不再增加,则级联森林停止迭代,并将所述第NC级的(4m+d3)维的合并向量最后一次通过四个森林模型,得到4个m维的类别向量,将所述4个m维的类别向量的每一类的预测准确率相加后取平均值,取最大值。
2.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述p维CTG临床特征向量从基线、变异、周期变异、加速、减速、早期减速、晚期减速、变异减速、延长减速、轻度减速、重度减速、胎动、宫缩次数、加速时间、加速幅度、短变异、高变异时间、低变异时间、有加减速时间、宫缩强度、宫缩间隔时间、宫缩持续时间、变异减速时间、数据丢失和孕周共25项临床特征信息中选取。
3.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述预处理包括输入数据标准化以及输出数据编码,所述输入数据标准化采用z-score数据标准化方法,所述输出数据编码采用one-hot独热编码。
4.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述步骤1得到的CTG临床特征子样本包括(p-d1+1)个d1维CTG临床特征子样本、(p-d2+1)个d2维CTG临床特征子样本和(p-d3+1)个d3维CTG临床特征子样本。
5.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述步骤2得到的(p-d1+1)、(p-d2+1)、(p-d3+1)维类别向量的个数分别为2(p-d1+1)个、2(p-d2+1)个和2(p-d3+1)个。
6.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述步骤2得到的d1维表征向量、d2维表征向量和d3维表征向量分别为2m(p-d1+1)维、2m(p-d2+1)维和2m(p-d3+1)维。
7.根据权利要求1和6任一项所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述m维可为2维或3维。
8.根据权利要求1所述的一种基于深度森林的产前胎儿监护智能判读方法,其特征在于,所述四个森林模型产生的每个类别向量经k折交叉验证。
CN202010545663.7A 2020-06-16 2020-06-16 一种基于深度森林的产前胎儿监护智能判读方法 Active CN111696670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010545663.7A CN111696670B (zh) 2020-06-16 2020-06-16 一种基于深度森林的产前胎儿监护智能判读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010545663.7A CN111696670B (zh) 2020-06-16 2020-06-16 一种基于深度森林的产前胎儿监护智能判读方法

Publications (2)

Publication Number Publication Date
CN111696670A true CN111696670A (zh) 2020-09-22
CN111696670B CN111696670B (zh) 2023-06-20

Family

ID=72481187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010545663.7A Active CN111696670B (zh) 2020-06-16 2020-06-16 一种基于深度森林的产前胎儿监护智能判读方法

Country Status (1)

Country Link
CN (1) CN111696670B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192629A (zh) * 2021-05-08 2021-07-30 清华大学 用于自动胎心判读的方法和装置
CN114159039A (zh) * 2021-11-12 2022-03-11 广州三瑞医疗器械有限公司 一种智能产前胎心监护模型
CN114724720A (zh) * 2022-06-10 2022-07-08 北京大学第三医院(北京大学第三临床医学院) 一种基于深度学习的产前电子胎心监护自动识别系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102940485A (zh) * 2012-10-10 2013-02-27 广州三瑞医疗器械有限公司 一种胎心率基线自动识别算法
US20150186748A1 (en) * 2012-09-06 2015-07-02 The University Of Manchester Image processing apparatus and method for fitting a deformable shape model to an image using random forest regression voting
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
US20190026489A1 (en) * 2015-11-02 2019-01-24 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
CN111000556A (zh) * 2019-11-29 2020-04-14 上海师范大学 一种基于深度模糊森林的情绪识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186748A1 (en) * 2012-09-06 2015-07-02 The University Of Manchester Image processing apparatus and method for fitting a deformable shape model to an image using random forest regression voting
CN102940485A (zh) * 2012-10-10 2013-02-27 广州三瑞医疗器械有限公司 一种胎心率基线自动识别算法
US20190026489A1 (en) * 2015-11-02 2019-01-24 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN111000556A (zh) * 2019-11-29 2020-04-14 上海师范大学 一种基于深度模糊森林的情绪识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张怡文;敖希琴;时培俊;郭傲东;费久龙;陈家丽;: "基于Pearson相关指标的BP神经网络PM2.5预测模型", 青岛大学学报(自然科学版), no. 02 *
陈宋;黄立勤;: "数据挖掘在胎儿心率上的规则预测研究" *
陈宋;黄立勤;: "数据挖掘在胎儿心率上的规则预测研究", 微型机与应用, no. 19 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192629A (zh) * 2021-05-08 2021-07-30 清华大学 用于自动胎心判读的方法和装置
CN114159039A (zh) * 2021-11-12 2022-03-11 广州三瑞医疗器械有限公司 一种智能产前胎心监护模型
CN114724720A (zh) * 2022-06-10 2022-07-08 北京大学第三医院(北京大学第三临床医学院) 一种基于深度学习的产前电子胎心监护自动识别系统

Also Published As

Publication number Publication date
CN111696670B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
Petrozziello et al. Deep learning for continuous electronic fetal monitoring in labor
CN111696670B (zh) 一种基于深度森林的产前胎儿监护智能判读方法
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
Liu et al. Machine learning algorithms to predict early pregnancy loss after in vitro fertilization-embryo transfer with fetal heart rate as a strong predictor
Rahmayanti et al. Comparison of machine learning algorithms to classify fetal health using cardiotocogram data
CN108847285B (zh) 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
Chen et al. Intelligent classification of antepartum cardiotocography model based on deep forest
CN108492877B (zh) 一种基于ds证据理论的心血管病辅助预测方法
CN113040711A (zh) 一种脑卒中发病风险预测系统、设备、存储介质
Arif Classification of cardiotocograms using random forest classifier and selection of important features from cardiotocogram signal
Fei et al. Automatic classification of antepartum cardiotocography using fuzzy clustering and adaptive neuro-fuzzy inference system
CN113871009A (zh) 一种重症监护病房中脓毒症预测系统、存储介质及设备
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
Liang et al. Automatic evaluation of fetal heart rate based on deep learning
CN113456064B (zh) 一种产前胎心监护信号智能判读方法
Hidayat et al. Comparison of K-Nearest Neighbor and Decision Tree Methods using Principal Component Analysis Technique in Heart Disease Classification
Zhang et al. Application of intelligent algorithms in Down syndrome screening during second trimester pregnancy
Marvin et al. Cardiotocogram biomedical signal classification and interpretation for fetal health evaluation
CN110522446A (zh) 一种准确性高实用性强的脑电信号分析方法
Feng et al. Effective techniques for intelligent cardiotocography interpretation using XGB-RF feature selection and stacking fusion
Yang et al. Unsupervised clustering and analysis of contraction-dependent fetal heart rate segments
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
Mendis et al. The Effect of Fetal Heart Rate Segment Selection on Deep Learning Models for Fetal Compromise Detection
CN115186731A (zh) 基于多层次特征融合的深度tsk模糊分类器
CN114159039A (zh) 一种智能产前胎心监护模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant