CN113724873A - 一种基于mlp多平台校准的子痫前期风险预测方法 - Google Patents
一种基于mlp多平台校准的子痫前期风险预测方法 Download PDFInfo
- Publication number
- CN113724873A CN113724873A CN202111014891.2A CN202111014891A CN113724873A CN 113724873 A CN113724873 A CN 113724873A CN 202111014891 A CN202111014891 A CN 202111014891A CN 113724873 A CN113724873 A CN 113724873A
- Authority
- CN
- China
- Prior art keywords
- sample
- platform
- weight
- preeclampsia
- pregnancy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000011461 pre-eclampsia Diseases 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 32
- 102100035194 Placenta growth factor Human genes 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 108010082093 Placenta Growth Factor Proteins 0.000 claims abstract description 19
- 238000013058 risk prediction model Methods 0.000 claims abstract description 18
- 238000007637 random forest analysis Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000003102 growth factor Substances 0.000 claims abstract description 6
- 210000002826 placenta Anatomy 0.000 claims abstract description 6
- 230000035935 pregnancy Effects 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 58
- 101000595923 Homo sapiens Placenta growth factor Proteins 0.000 claims description 43
- 101001014572 Homo sapiens MARCKS-related protein Proteins 0.000 claims description 32
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 claims description 17
- 102100028187 ATP-binding cassette sub-family C member 6 Human genes 0.000 claims description 17
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 claims description 17
- 101000986621 Homo sapiens ATP-binding cassette sub-family C member 6 Proteins 0.000 claims description 17
- 230000035488 systolic blood pressure Effects 0.000 claims description 17
- 230000035487 diastolic blood pressure Effects 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 230000037396 body weight Effects 0.000 claims description 12
- 239000002243 precursor Substances 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 11
- 230000001072 progestational effect Effects 0.000 claims description 11
- 206010020772 Hypertension Diseases 0.000 claims description 9
- 230000004872 arterial blood pressure Effects 0.000 claims description 8
- 230000003205 diastolic effect Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 2
- 102100032514 MARCKS-related protein Human genes 0.000 claims 15
- 230000003169 placental effect Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 3
- 238000004195 computer-aided diagnosis Methods 0.000 abstract description 2
- 102000003666 Placenta Growth Factor Human genes 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 208000002296 eclampsia Diseases 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 201000001474 proteinuria Diseases 0.000 description 2
- 206010070538 Gestational hypertension Diseases 0.000 description 1
- 201000005624 HELLP Syndrome Diseases 0.000 description 1
- 101000630267 Homo sapiens Probable glutamate-tRNA ligase, mitochondrial Proteins 0.000 description 1
- 208000005347 Pregnancy-Induced Hypertension Diseases 0.000 description 1
- 102100026125 Probable glutamate-tRNA ligase, mitochondrial Human genes 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 208000036335 preeclampsia/eclampsia 1 Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 239000012474 protein marker Substances 0.000 description 1
- 230000008085 renal dysfunction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于计算机辅助诊断技术领域,涉及一种基于MLP多平台校准的子痫前期风险预测方法,包括以下步骤:采集样本数据,获得样本特征;对样本的基本特征进行转换和填空;分别对患病样本数据和无病样本数据中的胎盘生长因子及处理后的基本特征进行归一化处理;使用MLP构建多平台校准的MLP模型,校准归一化后不同测量平台的PlGF值到同一平台上;利用处理后的患病样本数据和无病样本数据中的基本特征与胎盘生长因子构建基于随机森林的子痫前期风险预测模型;运用构建的预测模型对测试样本进行子痫前期风险预测。解决目前子痫前期预测手段无法满足对于早期筛查需求的问题,为医师临床诊断子痫前期病例提供可靠的辅助工具。
Description
技术领域
本发明属于计算机辅助诊断技术领域,涉及一种基于多层感知机(MLP,Multilayer Perceptron)网络多平台校准的子痫前期风险预测方法。
背景技术
子痫前期是妊娠期高血压疾病的一种,是妊娠20周后出现的症状复杂多变的对孕妇和胎儿危害性很高的一种综合症,临床表现为孕妇血压升高并伴随有一种或多种器官/系统的异常,例如蛋白尿、肾功能异常及肝功能损伤等。子痫前期是导致孕妇死亡的第二大原因,每年发病人数大约为850万,其发病原因至今尚不清楚,可能涉及到母体、胎盘和胎儿等多种因素。在所有孕期中,孕早期的预测尤为重要,提前预测子痫前期风险,对于疾病治疗和减少患者经济负担具有重大意义。
目前子痫前期这种疾病的主要预测手段是根据妊娠期高血压和蛋白尿进行预测,但这种方法测定准确率较低,并且敏感性、特异性均不高,无法满足对于早期筛查的需求。
国际上的一些子痫前期风险预测平台如Simoa平台的超高灵敏度蛋白标志物检测技术,Elecsys平台将sFlt-1/PlGF相结合的电化学发光技术可以较为有效的预测子痫前期风险,但是仍存在一些问题如对于国人预测准确率不高等。
随着计算机科学和人工智能技术的飞速发展,其在医疗领域的应用也日趋成熟。“人工智能+医疗”的模式越来越多的被应用于临床疾病的预防、早期诊断、治疗、判断和评估预后等各个方面,为高效、快速、便捷的解决子痫前期风险的预测问题提供了新的方向。
发明内容
本发明的目的是提供一种基于MLP多平台校准的子痫前期风险预测方法,以解决目前子痫前期预测手段无法满足对于早期筛查需求的问题,为医师临床诊断子痫前期病例提供可靠的辅助工具。
本发明的技术方案是提供一种基于MLP多平台校准的子痫前期风险预测方法,其特殊之处在于,包括以下步骤:
步骤1、采集样本数据,获得样本特征;
步骤1.1、采集子痫前期患病样本数据和无病样本数据,并分别标注患病标签与无病标签;
步骤1.2、选择患病样本数据和无病样本数据中的可能与子痫前期相关的样本特征;
所述样本特征包括:胎盘生长因子(Placental growth factor,PlGF)与基本特征;所述胎盘生长因子的数值来源于两个不同的测量平台;
步骤2、对样本的基本特征进行转换和填空;
步骤2.1、将样本基本特征进行转换和编码,以使其符合训练模型的输入;
步骤2.2、若样本基本特征中部分特征存在缺失值或称空值(missing data),则针对不同特征的空值,利用不同的填空方式,对基本特征中具有空值的特征进行填空;若不存在空值,则不需要填空,直接进入步骤3;
步骤3、分别对患病样本数据和无病样本数据中的胎盘生长因子及步骤2处理后的基本特征进行归一化处理,以使其数值范围在[0,1]上;
最终得到如下特征:年龄、身高、孕前体重、现在体重、孕前BMI、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压、Simoa和Elecsys平台测得的PlGF(胎盘生长因子)值。
步骤4、使用MLP构建多平台校准的MLP模型,校准归一化后不同测量平台的PlGF值到同一平台上;
步骤5、利用步骤3和步骤4处理后的患病样本数据和无病样本数据中的基本特征与胎盘生长因子构建基于随机森林的子痫前期风险预测模型;
步骤6、运用步骤5构建的预测模型对测试样本进行子痫前期风险预测。
进一步地,步骤1.2中所述两个不同的测量平台为Simoa和Elecsys平台。
进一步地,步骤4具体为:定义归一化后Simoa和Elecsys平台测得的胎盘生长因子值分别为gSimoa和gElecsys;以gSimoa为输入用多层感知机网络(MLP3)拟合gElecsys;以gElecsys为输入用多层感知机网络(MLP4)拟合gSimoa;MLP3和MLP4的均方误差(MSE,Mean SquaredError)MSE1和MSE2如下:
其中N为训练样本数,指的是向网络中输入的gSimoa或gElecsys,是第i个训练样本由Elecsys平台测得的PlGF值,是该样本校准到Simoa平台的PlGF值;是第i个训练样本由Simoa平台测得的PlGF值,是该样本校准到Elecsys平台的PlGF值。
比较MLP3的均方误差MSE1和MLP4的MSE2,得知MSE2比MSE1小,故将Elecsys平台测得的PlGF值通过MLP4预测获得其校准到Simoa平台的PlGF值,即将Elecsys平台测出的PlGF值校准到Simoa平台。
进一步地,步骤1.2中所述基本特征包括年龄、身高、孕前体重、现在体重(指进行子痫风险检测时的体重)、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、孕周、舒张压、收缩压等。
进一步地,步骤2.1将样本基本特征进行转换和编码,具体包括:
步骤2.11、组合身高、孕前体重、现在体重得到孕前BMI、现在BMI和BMI增率;
步骤2.12、组合舒张压和收缩压得到平均动脉压;
步骤2.13、转换孕周为怀孕天数;
步骤2.14、将特征文字转化为数字信号,以使其符合训练模型的输入。
进一步地,步骤2.2具体为:
a、若患病组和无病组中孕前体重-现在体重特征中其中之一存在空值,那么针对患病组和无病组分别构建多层感知机填空模型;对孕前体重-现在体重进行填空;当二者均为空时,用各自特征的类内中值填空;
b、若患病组和无病组中舒张压-收缩压特征中其中之一存在空值,那么针对患病组和无病组分别构建多层感知机填空模型;对舒张压-收缩压进行填空;当二者均为空时,用各自特征的类内中值填空;
c、其它特征的空值均用该特征的类内中值填空。
进一步地,步骤2.2中a具体为:使用患病组和无病组中的孕前体重和现在体重两个特征中都不含有空值的数据构建基于MLP的填空模型,以下简称孕前体重无空值数据和现在体重无空值数据;
具体训练方法:根据孕周范围划分五个区间(11~13,14~18,19~23,24~28,29~33周第6天),对每个孕周区间训练MLP1和MLP2。以第一个区间为例,MLP1是以该区间内孕前体重无空值数据作为模型输入对象,以现在体重无空值数据作为监督信号输入到MLP中进行训练得到的;MLP2是以该区间内现在体重无空值数据作为模型输入对象,使用孕前体重无空值数据作为监督信号输入到MLP中进行训练得到的;
MLP1用于用孕前体重填空现在体重,MLP2用于用现在体重填空孕前体重,并根据实际缺失的是现在体重还是孕前体重采用MLP1或MLP2进行填空。
若某样本孕前体重和现在体重中数据都为空值,则使用该样本对应孕周区间范围内孕前体重无空值数据中值和现在体重无空值数据中值进行填空。
同理,用患病组样本或无病组样本数据分别构建两个MLP填空模型(MLP1和MLP2),MLP1用于用舒张压填空收缩压,MLP2用于用收缩压填空舒张压,并根据实际缺失的是舒张压还是收缩压采用MLP1或MLP2进行填空(用于风险预测模型的训练);
若患病组和无病组中舒张压-收缩压特征中均存在空值时,用各自特征的类内中值(即不同类别数据各自的中值)填空;若患病组和无病组中除孕前体重-现在体重、舒张压-收缩压两组特征外的特征存在空值,用该特征的类内中值填空。
进一步地,步骤3采用常规的min-max方式进行归一化处理。
进一步地,步骤5具体为:
步骤5.1、构建训练样本集;
以步骤3处理后的年龄、身高、孕前体重、现在体重、孕前BMI、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压及步骤4校准后的胎盘生长因子值构建训练样本集;
步骤5.2、将训练样本集作为输入对象,进行训练,获得子痫前期风险预测模型;
将训练样本集作为输入对象,以患病标签和无病标签编码为1和0作为监督信号,输入到随机森林算法中,经过训练,获得训练完成的子痫前期风险预测模型。
进一步地,步骤6具体包括:
步骤6.1、根据步骤2至步骤3的方法,对测试样本中的样本特征进行处理;
步骤6.2、若测试样本中胎盘生长因子值来源于Simoa平台则不校准,若来源于Elecsys平台则用MLP4将其校准到Simoa平台;
步骤6.3、将步骤6.1与6.2处理后的测试数据输入到训练好的子痫前期风险的随机森林预测模型,获得该测试样本是子痫前期高风险或低风险的结论。
本发明的有益效果是:
1、本发明对来自于两个平台的数据进行校准,使得能够充分运用来自不同平台的更多更丰富的数据来构建子痫前期风险预测模型,从而使风险预测的准确率更高,性能更好;
2、本发明中对有病或无病样本的missingdata的填空,采用了各自更加适应的填空方式,从而使得预测模型的准确率更高,性能更好;
3、本发明所构建的子痫前期风险预测模型,可以对来自不同平台的数据进行子痫前期风险预测,而不是仅针对某一个平台的数据才能进行风险预测;
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简要地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图。
图2为基于MLP的数据填空示意图。训练过程以患病组孕前体重-现在体重的填空为例(左图左),其它特征填空采用类内中值填空(左图右);测试过程中任意特征的空值均用中值填空(右图)。
图3为基于MLP的多平台PlGF值校准的示意图。因MSE2<MSE1,故来自Simoa平台的PlGF无需校准,而来自Elecsys平台的PlGF用MLP4进行校准。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
如图1所示,本实施例基于MLP多平台校准预测子痫前期风险的方法流程,包括以下步骤:
步骤1:采集由医生标注的子痫前期患病样本数据和无病样本数据,并分别标注患病组与无病组标签;
提取患病样本数据和无病样本数据中的样本特征,包括胎盘生长因子(Placentalgrowth factor,PlGF)与其它基本特征;
其中胎盘生长因子(Placental growth factor,PlGF)的数值来源于两个不同的测量平台;本实施例中主要是来源于Simoa(Single Molecular Array)平台和罗氏(Elecsys)平台。
其它基本特征包括:年龄、身高、孕前体重、现在体重(指进行子痫风险检测时的体重)、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、孕周、舒张压、收缩压等。
步骤2:对基本特征进行转换、编码及填空。
步骤2.1、对基本特征进行转换和编码:
将特征文字转化为数字信号,以使其符合训练模型的输入;
基于身高、孕前体重及现在体重得到孕前BMI、现在BMI和BMI增率;基于舒张压和收缩压得到平均动脉压;将孕周转换为怀孕天数。
步骤2.2、若样本基本特征中部分特征存在缺失值或称空值(missing data),则对基本特征填空;否则,不执行该步骤;
本实施例,针对不同的特征空值,采用不同的填空方式进行填空:
如,若患病组和无病组中孕前体重-现在体重特征中的其中之一存在空值,那么针对患病组和无病组分别构建MLP填空模型,对孕前体重-现在体重进行填空;若患病组和无病组中舒张压-收缩压特征中的其中之一存在空值,那么针对患病组和无病组分别构建MLP填空模型,对舒张压-收缩压进行填空;
以患病组孕前体重-现在体重为例,具体填空步骤如下:
使用患病组和无病组中的孕前体重和现在体重两个特征中都不含有空值的数据构建MLP填空模型,以下简称孕前体重无空值数据和现在体重无空值数据。根据孕周范围划分五个区间(11~13,14~18,19~23,24~28,29~33周第6天),对每个孕周区间训练MLP1和MLP2。以第一个区间为例,MLP1是以该区间内孕前体重无空值数据作为模型输入对象,以现在体重无空值数据作为监督信号输入到MLP中进行训练得到的;MLP2是以该区间内现在体重无空值数据作为模型输入对象,使用孕前体重无空值数据作为监督信号输入到MLP中进行训练得到的。MLP1用于用孕前体重填空现在体重,MLP2用于用现在体重填空孕前体重,并根据实际缺失的是现在体重还是孕前体重采用MLP1或MLP2进行填空(用于风险预测模型的训练);若某样本孕前体重和现在体重中数据都为空值,则使用该样本对应孕周区间范围内孕前体重无空值数据中值和现在体重无空值数据中值进行填空。
如图2的左图所示,利用模型实现填空的具体方式为:若某样本孕前体重中存在空值,该样本对应的现在体重中无空值,则以现在体重为输入对象,输入MLP2,MLP2会预测得到孕前体重的近似值以达到填空目的;若某样本现在体重中存在空值,该样本对应的孕前体重中无空值,则以孕前体重为输入对象,输入MLP1,MLP1预测得到现在体重的近似值以达到填空目的;若某样本孕前体重和现在体重中数据都为空值,则使用该样本对应孕周区间范围内孕前体重无空值数据中值和现在体重无空值数据中值进行填空。
使用患病组和无病组样本数据中的舒张压和收缩压两个特征中的都不为空值的数据训练MLP模型(为已知模型)进行构建,具体构建方法和填空策略与孕前体重-现在体重构建类似。
其它特征的空值均用该特征的类内中值填空。如图2的左图所示。
步骤3、对特征进行归一化处理,使其数值在[0,1]上。
使用常规的min-max方式对上述处理得到的数据进行归一化到区间[0,1]。归一化处理具体公式如下:
其中,x为原始特征值,xmax为样本数据最大值,xmin为样本数据最小值,x*为该特征归一化后的取值。
最终得到如下特征:年龄、身高、孕前体重、现在体重、孕前BMI、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压、Simoa和Elecsys平台测得的PlGF(胎盘生长因子)值(对于训练样本)和Simoa或Elecsys平台测得的PlGF值(对于测试样本)。值得说明的是,此处并未划分训练样本与测试样本,这里只是为了说明模型训练和新样本测试时使用的PlGF特征来源不一样。“对于训练样本”是指在训练子痫前期风险预测模型时,用到的特征为Simoa和Elecsys平台PlGF的值以及其它特征;“对于测试样本”是指使用已经训练好的子痫前期风险预测模型在对新样本进行预测的时候,该样本中的PlGF值这一特征只能来自于某一个平台,所以这里说的是Simoa或Elecsys平台测得的PlGF值。
步骤4:构建多平台校准的MLP模型,校准来自不同平台的PlGF值到同一平台上。
Simoa和Elecsys平台PlGF的量纲不同,上述的归一化过程消除了量纲不同所带来的影响,归一化后两个平台的PlGF特征数据分别用gSimoa和gElecsys表示。对来自两个平台的训练样本的PlGF值gSimoa和gElecsys,以gSimoa为输入用多层感知机网络(MLP3)拟合gElecsys;以gElecsys为输入用多层感知机网络(MLP4)拟合gSimoa,如图3的左图所示。MLP3和MLP4的均方误差(MSE,Mean Squared Error)MSE1和MSE2如下:
其中N为训练样本数,指的是向网络中输入的gSimoa或gElecsys,是第i个训练样本由Elecsys平台测得的PlGF值,是该样本校准到Simoa平台的PlGF值;是第i个训练样本由Simoa平台测得的PlGF值,是该样本校准到Elecsys平台的PlGF值。比较MLP3的均方误差MSE1和MLP4的MSE2,得知MSE2比MSE1小,故将Elecsys平台测得的PlGF值通过MLP4预测获得其校准到Simoa平台的PlGF值,即将Elecsys平台测出的PlGF值校准到Simoa平台。
步骤5:构建基于随机森林的子痫前期风险预测模型。运用预测模型对测试样本进行子痫前期风险预测,预测为高风险或低风险。
步骤5.1、构建训练样本;
以年龄、身高、孕前体重、现在体重、孕前BMI、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压及校准后的PlGF(胎盘生长因子)值构建训练样本;
步骤5.2、将训练集作为输入对象,进行训练,获得子痫前期风险预测模型;
通过比较多层感知机网络、支持向量机、随机森林、XGBoost、AdaBoost算法在100次十折交叉验证上的准确率、混淆矩阵、AUC、敏感度、特异性、F1、Micro-F1、Macro-F1等性能指标,选出综合性能最好、诊断效果最稳定的模型—随机森林模型,作为子痫前期风险预测模型。
将训练样本作为输入对象,以患病标签和无病标签编码为1和0作为监督信号,输入到随机森林算法中,经过训练,获得训练完成的子痫前期风险预测模型。
步骤6、测试;
测试过程如下:对测试样本中的样本特征利用上述步骤2与步骤4的方法进行处理;如,对于测试样本,其PlGF值若来源于Simoa平台则不校准,若来源于Elecsys平台则用MLP4将其校准到Simoa平台(如图3的右图所示);孕前体重-现在体重、舒张压-收缩压这两组特征若有空值则按照与训练样本中它们的填空方式填空,其它特征的空值均用相应特征的类内中值填空;做相同的归一化处理。将这样处理的测试数据输入到事先训练好的子痫前期风险的随机森林预测模型,获得该测试样本是子痫前期高风险或低风险的结论。
本实施例实验数据来源于某公司在新疆等多地医院所获取的两个平台(Simoa和Elecsys)的总计1398个样本数据。
使用来自于Simoa平台的数据集(称为数据集1)和来自于Elecsys平台的数据集2与来源于多平台的融合数据集(称为数据集3)进行性能比较。比较方法如下:
用数据集1训练、数据集2测试的结果称为Simoa_Results;用数据集2训练、数据集1测试的结果称为Elecsys_Results;用融合数据采用100次十折交叉验证(训练和测试均需校准)的结果称为Simoa_Elecsys_Results。这些结果的性能见表1中,可见:校准不同平台数据所获得的预测模型,较单平台数据获得的模型,在性能的各个侧面上得到了全面提高,表明了本发明的意义和效果。
表1使用RF算法在不同数据集上的性能比较
从上表可以得到多平台融合的数据集训练得到的模型评价结果综合评价较为优秀,其中准确率高达84.64%,相较单个数据集训练得到的模型性能高4.95%,多平台融合数据模型性能评价中Specificity性能相比较低的原因是因为前两个数据集样本不平衡程度比较严重,将大多有病的样本都判定为无病导致的,通常按照Specificity与(1-Sensitivity)的比值进行比较,结果高的性能较好,通过计算可知多平台融合数据模型要好。
从上表可以看出,校准不同平台数据所获得预测模型,较单平台数据获得的模型,在性能的各个侧面上(Error rate,specificity,sensitivity,AUC and F1)得到了全面提高。表明了本发明的意义和效果。
在整个孕期中,孕早期(11周~13周第6天)对子痫前期的预测至关重要,因为早发现才能早治疗。单平台和多平台数据建模在孕早期上的预测性能比较:采用100次十折交叉验证(一折数据作为测试集测试模型性能,其它数据作为训练集训练模型)的方式对孕早期数据集进行性能评价得到的结果称为First_Trimester_Results;划分孕早期数据集,采用十折交叉验证方式,将一折作为测试集,将其余的数据与多平台数据集中非孕早期数据集作为训练集进行性能评价得到的结果称为Simoa_Elecsys_Results2,得到的结果如下表2所示。
表2孕早期数据模型和多平台融合数据模型的性能比较
从上表我们可以看到,多平台融合数据集所训练得到的模型平均性能较优于孕早期数据集所得到的模型性能,其中,准确率达到了76.46%。这说明了多平台融合模型在孕早期数据集上测试的性能比仅使用孕早期数据所训练的模型在孕早期数据集上测试的性能效果要好。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于MLP多平台校准的子痫前期风险预测方法,其特征在于,包括以下步骤:
步骤1、采集样本数据,获得样本特征;
步骤1.1、采集子痫前期患病样本数据和无病样本数据,并分别标注患病标签与无病标签;
步骤1.2、选择患病样本数据和无病样本数据中的可能与子痫前期相关的样本特征;
所述样本特征包括:胎盘生长因子与基本特征;所述胎盘生长因子的数值来源于两个不同的测量平台;
步骤2、对样本的基本特征进行转换编码和填空;
步骤2.1、将样本的基本特征进行转换和编码,以使其符合训练模型的输入;
步骤2.2、若样本基本特征中部分特征存在缺失值或称空值,则针对不同特征的空值,利用不同的填空方式,对基本特征中具有空值的特征进行填空;若不存在空值,则进入步骤3;
步骤3、分别对患病样本数据和无病样本数据中的胎盘生长因子及步骤2处理后的基本特征进行归一化处理,以使其数值范围在[0,1]上;
步骤4、使用MLP构建多平台校准的MLP模型,校准归一化处理后不同测量平台的胎盘生长因子的数值到同一平台上;
步骤5、利用步骤3处理后的患病样本数据和无病样本数据中的基本特征和步骤4处理后的患病样本数据和无病样本数据中胎盘生长因子构建基于随机森林的子痫前期风险预测模型;
步骤6、运用步骤5构建的基于随机森林的子痫前期风险预测模型对测试样本进行子痫前期风险预测。
2.根据权利要求1所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于:步骤1.2中所述两个不同的测量平台为Simoa和Elecsys平台。
3.根据权利要求2所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤4具体为:定义归一化后Simoa和Elecsys平台测得的胎盘生长因子值分别为gSimoa和gElecsys;以gSimoa为输入用多层感知机网络MLP3拟合gElecsys;以gElecsys为输入用多层感知机网络MLP4拟合gSimoa;MLP3和MLP4的均方误差MSE1和MSE2如下:
其中N为训练样本数,指的是向网络中输入的gSimoa或gElecsys,是第i个训练样本由Elecsys平台测得的PlGF值,是该样本校准到Simoa平台的PlGF值;是第i个训练样本由Simoa平台测得的PlGF值,是该样本校准到Elecsys平台的PlGF值;
比较MLP3的均方误差MSE1和MLP4的均方误差MSE2,得知MSE2比MSE1小,故将Elecsys平台测得的PlGF值通过MLP4预测获得其校准到Simoa平台的PlGF值。
4.根据权利要求1-3任一项所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于:步骤1.2中所述基本特征包括年龄、身高、孕前体重、现在体重、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、孕周、舒张压、收缩压。
5.根据权利要求4所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤2.1将样本基本特征进行转换和编码,具体包括:
步骤2.11、组合身高、孕前体重、现在体重得到孕前BMI、现在BMI和BMI增率;
步骤2.12、组合舒张压和收缩压得到平均动脉压;
步骤2.13、转换孕周为怀孕天数;
步骤2.14、将特征文字转化为数字信号,以使其符合训练模型的输入。
6.根据权利要求5所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤2.2具体为:
a、若患病组和无病组中孕前体重-现在体重特征中其中之一存在空值,那么针对患病组和无病组分别构建基于多层感知机的填空模型;对孕前体重-现在体重进行填空;当二者均为空时,用各自特征的类内中值填空;
b、若患病组和无病组中舒张压-收缩压特征中其中之一存在空值,那么针对患病组和无病组分别构建基于多层感知机的填空模型;对舒张压-收缩压进行填空;当二者均为空时,用各自特征的类内中值填空;
c、其它特征的空值均用该特征的类内中值填空。
7.根据权利要求6所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤2.2中a具体为:
使用患病组和无病组中的孕前体重和现在体重两个特征中都不含有空值的数据构建基于多层感知机的填空模型,以下简称孕前体重无空值数据和现在体重无空值数据;
具体训练方法:根据孕周范围划分五个区间(11~13第6天,14~18第6天,19~23第6天,24~28第6天,29~33周第6天),对每个孕周区间训练MLP1和MLP2;以第一个区间为例,MLP1是以该区间内孕前体重无空值数据作为模型输入对象,以现在体重无空值数据作为监督信号输入到MLP中进行训练得到的;MLP2是以该区间内现在体重无空值数据作为模型输入对象,使用孕前体重无空值数据作为监督信号输入到MLP中进行训练得到的;
MLP1用于用孕前体重填空现在体重,MLP2用于用现在体重填空孕前体重,并根据实际缺失的是现在体重还是孕前体重采用MLP1或MLP2进行填空;
若某样本孕前体重和现在体重中数据都为空值,则使用该样本对应孕周区间范围内孕前体重无空值数据中值和现在体重无空值数据中值进行填空。
8.根据权利要求6所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于:步骤3采用常规的min-max方式进行归一化处理。
9.根据权利要求6所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤5具体为:
步骤5.1、构建训练样本集;
以步骤3处理后的年龄、身高、孕前体重、现在体重、孕前BMI、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压及步骤4校准后的胎盘生长因子值构建训练样本集;
步骤5.2、将训练样本集作为输入对象,进行训练,获得子痫前期风险预测模型;
将训练样本集作为输入对象,以患病标签和无病标签编码为1和0作为监督信号,输入到随机森林算法中,经过训练,获得训练完成的子痫前期风险预测模型。
10.根据权利要求9所述的基于MLP多平台校准的子痫前期风险预测方法,其特征在于,步骤6具体包括:
步骤6.1、根据步骤2至步骤3的方法,对测试样本中的样本特征进行处理;
步骤6.2、若测试样本中胎盘生长因子值来源于Simoa平台则不校准,若来源于Elecsys平台则用MLP4将其校准到Simoa平台;
步骤6.3、将步骤6.1与6.2处理后的测试数据输入到训练好的子痫前期风险的随机森林预测模型,获得该测试样本是子痫前期高风险或低风险的结论。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111014891.2A CN113724873B (zh) | 2021-08-31 | 2021-08-31 | 一种基于mlp多平台校准的子痫前期风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111014891.2A CN113724873B (zh) | 2021-08-31 | 2021-08-31 | 一种基于mlp多平台校准的子痫前期风险预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724873A true CN113724873A (zh) | 2021-11-30 |
CN113724873B CN113724873B (zh) | 2024-01-12 |
Family
ID=78680089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111014891.2A Active CN113724873B (zh) | 2021-08-31 | 2021-08-31 | 一种基于mlp多平台校准的子痫前期风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724873B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111094988A (zh) * | 2017-09-13 | 2020-05-01 | 普罗根尼蒂公司 | 先兆子痫生物标志物及相关系统和方法 |
CN112466460A (zh) * | 2020-09-30 | 2021-03-09 | 杭州市妇产科医院 | 早孕期孕妇MAP、PlGF和PAPP-A联合构建模型预测妊娠期高血压疾病的方法 |
WO2021113710A1 (en) * | 2019-12-04 | 2021-06-10 | Progenity, Inc. | Assessment of preeclampsia using assays for free and dissociated placental growth factor |
CN113223714A (zh) * | 2021-05-11 | 2021-08-06 | 吉林大学 | 一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法 |
-
2021
- 2021-08-31 CN CN202111014891.2A patent/CN113724873B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111094988A (zh) * | 2017-09-13 | 2020-05-01 | 普罗根尼蒂公司 | 先兆子痫生物标志物及相关系统和方法 |
WO2021113710A1 (en) * | 2019-12-04 | 2021-06-10 | Progenity, Inc. | Assessment of preeclampsia using assays for free and dissociated placental growth factor |
CN112466460A (zh) * | 2020-09-30 | 2021-03-09 | 杭州市妇产科医院 | 早孕期孕妇MAP、PlGF和PAPP-A联合构建模型预测妊娠期高血压疾病的方法 |
CN113223714A (zh) * | 2021-05-11 | 2021-08-06 | 吉林大学 | 一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法 |
Non-Patent Citations (1)
Title |
---|
OKNALITA SIMBOLON .ET: "Predicting the Risk of Preeclampsia using Soft Voting-based Ensemble and Its Recommendation", 《 2020 INTERNATIONAL SYMPOSIUM ON COMMUNITY-CENTRIC SYSTEMS》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113724873B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Kat et al. | Prediction models for preeclampsia: A systematic review | |
Ye et al. | Comparison of machine learning methods and conventional logistic regressions for predicting gestational diabetes using routine clinical data: a retrospective cohort study | |
O’Gorman et al. | Competing risks model in screening for preeclampsia by maternal factors and biomarkers at 11-13 weeks gestation | |
Baschat et al. | Prediction of preeclampsia utilizing the first trimester screening examination | |
Flatley et al. | Magnitude of change in fetal cerebroplacental ratio in third trimester and risk of adverse pregnancy outcome | |
Porcelli et al. | A new definition of gestational hypertension? New-onset blood pressures of 130 to 139/80 to 89 mm Hg after 20 weeks of gestation | |
CN113077900B (zh) | 糖尿病早期风险评估方法、装置、计算机设备及介质 | |
KR20230110615A (ko) | 태아 염색체 이상을 검출하는 방법 및 시스템 | |
Can et al. | Maternal and neonatal outcomes of expectantly managed pregnancies with previable preterm premature rupture of membranes | |
Luchristt et al. | Risk of obstetric anal sphincter injuries at the time of admission for delivery: a clinical prediction model | |
Chaemsaithong et al. | Accuracy of placental growth factor alone or in combination with soluble fms-like tyrosine kinase-1 or maternal factors in detecting preeclampsia in asymptomatic women in the second and third trimesters: a systematic review and meta-analysis | |
CN113052205B (zh) | 基于机器学习的产妇数据分类方法、装置、设备及介质 | |
CN110387414A (zh) | 一种利用外周血游离dna预测妊娠期糖尿病的模型 | |
Bommarito et al. | The effect of clinical chorioamnionitis on cesarean delivery in the United States | |
CN112992353A (zh) | 预产期精准预测方法、装置、计算机设备及存储介质 | |
CN112820406A (zh) | 一种妊娠早期对子痫前期发病风险的预测方法 | |
CN113724873B (zh) | 一种基于mlp多平台校准的子痫前期风险预测方法 | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN115938575A (zh) | 一种妊娠早中期子痫前期预测模型 | |
Silva et al. | Comparison of the CIPHER prognostic model with the existing scores in predicting severe maternal outcomes during intensive care unit admission | |
CN114300135A (zh) | 一种肝癌术后早期复发预测模型构建方法及装置 | |
CN114550910A (zh) | 基于人工智能的射血分数保留型心衰诊断及分型系统 | |
Kim et al. | Blood pressure trajectories for 16 years and the development of left ventricular hypertrophy and increased left atrial size: the Korean Genome and Epidemiology Study | |
CN114141360A (zh) | 基于惩罚cox回归的乳腺癌预测方法 | |
Lee et al. | Prediction of preeclampsia in asymptomatic women |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |