CN118262905A - 一种妊娠期风险预测方法、装置、设备和可读存储介质 - Google Patents
一种妊娠期风险预测方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN118262905A CN118262905A CN202211639802.8A CN202211639802A CN118262905A CN 118262905 A CN118262905 A CN 118262905A CN 202211639802 A CN202211639802 A CN 202211639802A CN 118262905 A CN118262905 A CN 118262905A
- Authority
- CN
- China
- Prior art keywords
- data
- risk prediction
- prediction model
- clinical index
- preeclampsia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000035935 pregnancy Effects 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 201000011461 pre-eclampsia Diseases 0.000 claims abstract description 51
- 238000013058 risk prediction model Methods 0.000 claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 208000002296 eclampsia Diseases 0.000 description 3
- 230000008774 maternal effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 108010082093 Placenta Growth Factor Proteins 0.000 description 1
- 102000003666 Placenta Growth Factor Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 230000004872 arterial blood pressure Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002175 menstrual effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009984 peri-natal effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000000685 uterine artery Anatomy 0.000 description 1
- 230000036266 weeks of gestation Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种妊娠期风险预测方法、装置、设备和可读存储介质,可以通过待预测用户的唯一标识获取到待测用户的目标临床指标数据。然后对目标临床指标数据进行预处理,得到待预测用户的特征数据。再将特征数据输入至预设融合模块中进行融合。基于目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型。将融合后的特征数据输入至风险预测模型中得到子痫前期的预测结果。该妊娠期风险预测方法能够根据用户的不同的临床指标数据,自适应选择相应的风险预测模型进行患有子痫前期的预测,能够有效避免待预测孕产妇输入特征缺少所带来的准确度低和灵敏度低的问题,提高了子痫前期预测的准确度和可靠性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种妊娠期风险预测方法、装置、设备和可读存储介质。
背景技术
子痫前期是妊娠20周以后以高血压为临床表现的并发症,发生率约在2%~8%,特别是早发型子痫前期发病早、进展快、并发症多,是孕产妇和围产儿发生不良结局的重要原因。现有研究已经表明在孕早期(怀孕12周)起即对高风险人群进行干预,将显著预防子痫前期的发生,改善妊娠结局。因此对子痫前期进行早期预测一直是学界和临床所关注的重点。
而现有的子痫前期的预测多依靠人的诊治经验和指南规范,以母体妊娠危险因素、孕期平均动脉压、子宫动脉多普勒指标以及少量血清生化标志物等作为预警指标进行子痫前期的预测,准确度和灵敏度都非常的低。
发明内容
为了解决现有技术存在的准确度低、灵敏度低的问题,本发明提供了一种妊娠期风险预测方法、装置、设备和可读存储介质,其具有预测准确度、灵敏度更高等特点。
根据本发明具体实施方式提供的一种妊娠期风险预测方法,包括:
获取与待预测用户的唯一标识相关联的目标临床指标数据;
对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据;
将所述特征数据输入至预设融合模块中进行融合;
基于所述目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型;
将融合后的特征数据输入至所述风险预测模型中得到子痫前期的预测结果。
进一步地,所述子痫前期风险预测方法还包括:
当所述子痫前期的发生概率大于预设阈值时,对与所述唯一标识相关联的新的临床指标数据进行预处理得到新的特征数据;
将所述新的特征数据输入至所述预设融合模型中进行融合;
将融合后的新的特征数据输入至所述风险预测模型中得到新的子痫前期的预测结果。
进一步地,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,包括:
若所述目标临床指标数据只包括多组学数据时,则将深度预测模型作为所述风险预测模型,所述多组学数据包括影像组学数据、基因组学数据以及转录组学数据中的一种或多种。
进一步地,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,还包括:
若所述目标临床指标数据只包括用户基础数据时,则将浅层预测模型作为所述风险预测模型,所述用户基础数据包括:基本信息数据和/或实验检测数据。
进一步地,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,还包括:
若所述目标临床指标数据包括所述多组学数据和所述用户基础数据,则将所述深度预测模型和所述浅层预测模型分别作为所述风险预测模型;
所述将融合后的特征数据输入至所述风险预测模型中得到子痫前期的发生概率,包括:
将所述融合后的特征数据分别输入所述深度预测模型和所述浅层预测模型中得到子痫前期的发生概率。
进一步地,所述对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据,包括:
将所述转录组学数据和子痫前期患者的基因数据进行比较,得到转录组学特征数据;
将所述影像组学数据输入至卷积神经网络提取图片特征,得到影像组学特征数据。
进一步地,所述对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据,包括:
从所述基本信息数据中抽取家族史结构化信息和既往史结构化信息;
对所述实验检测数据中的数值型数据依次进行数据清洗、异常检测,特征分桶、特征组合和数据归一化处理;
对所述实验检测数据中的文本数据进行实体识别和规则匹配,得到文本特征数据。
根据本发明具体实施方式提供的一种妊娠期风险预测装置,包括:
数据获取模块,用于获取与待预测用户的唯一标识相关联的目标临床指标数据;
预处理模块,用于对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据;
特征融合模块,用于将所述特征数据输入至预设融合模块中进行融合;
模型确定模块,用于基于所述目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型;以及
风险预测模块,用于将融合后的特征数据输入至所述风险预测模型中得到子痫前期的预测结果。
根据本发明具体实施方式提供的一种设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的妊娠期风险预测方法的各个步骤。
根据本发明具体实施方式提供的一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的妊娠期风险预测方法的各个步骤。
本发明所提供的妊娠期风险预测方法,可以通过待预测用户的唯一标识获取到待测用户的目标临床指标数据。然后对目标临床指标数据进行预处理,得到待预测用户的特征数据。再将特征数据输入至预设融合模块中进行融合。基于目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型。将融合后的特征数据输入至风险预测模型中得到子痫前期的预测结果。该妊娠期风险预测方法能够根据用户的不同的临床指标数据,自适应选择相应的风险预测模型进行患有子痫前期的预测,能够有效避免待预测孕产妇输入特征缺少所带来的准确度低和灵敏度低的问题,提高了子痫前期预测的准确度和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是根据一示例性实施例提供的妊娠期风险预测方法的流程图;
图2是根据一示例性实施例提供的妊娠期风险预测方法的另一流程图;
图3是根据一示例性实施例提供的预设融合模块的结构原理图;
图4是根据一示例性实施例提供的特征融合过程的损失变化图;
图5是根据一示例性实施例提供的风险预测模型的架构图;
图6是根据一示例性实施例提供的妊娠期风险预测装置的结构图;
图7是根据一示例性实施例提供的设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明的实施例提供了一种妊娠期风险预测方法,该方法可以包括以下步骤:
101、获取与待预测用户的唯一标识相关联的目标临床指标数据。
一般在孕产妇诊治过程中,都会以唯一的身份标识将产检过程中的所有数据如病历、临床检查、影像和基因转录等多组学病历数据进行存储,因此通过待预测用户的唯一标识如身份证号、社保号、诊疗卡号等,可获取到预测所需的目标临床指标数据。其中临床指标数据可包括用户基本信息如性别、年龄、既往史、现病史、月经史、妊娠史、查体等,实验检测数据包括但不限于血生化数据、血压、血脂等,孕产妇影像组学数据,孕产妇基因组学数据以及转录组学的数据。
102、对目标临床指标数据进行预处理,得到待预测用户的特征数据。
因为搜集得到的临床指标数据较为原始,需从中提取出有效的特征数据以便进行特征的融合和提取。其中对于带预测用户的病历数据,可对其中的数值型数据进行数据清洗、异常检测,特征分桶、特征组合和数据归一化。其中数据清洗是将数据的特征进行统计分析,删除空值占比超过80%的特征,如:胎盘生长因子、双顶径等特征。异常检测是根据获得的每个特征的取值范围,利用取值范围对数值型特征进行异常检测,从而得到患者基本信息中身高、体重出现异常的特征。特征分桶是对一些特征进行分桶操作,比如依据患者年龄是否大于35岁,分为高龄和低龄。特征组合是根据专家经验规则将多个特征组合成一个特征,例如通过孕妇的家族史是否患有子痫,孕妇年龄是否大于40岁,病史中是否有子痫,只要满足一个就定义该患者为高危孕妇。最后可采用如Z-score标准化方法进行数据归一化处理,将数值型数据转换为正态分布,从而降低数据的单位对后边融合模型以及风险预测模型的影响。
对于病历中的文本数据可进行结构化抽取,采用实体识别结合规则匹配的方法抽取出有效特征,包括但不限于诊断、肯定修饰、否定修饰、部位、症状、药物(方剂)、疾病、病程、检查数值、检查名称、治法、人群等,不良反应结论及等级。数据处理部分离散变量可采用one-hot编码。连续变量计算可为该特征观察值与期望值的比值。
从家族史描述中抽取家族史结构化信息,从既往史描述中抽取既往史结构化信息,从诊断结构中抽取标签信息等。其中数据抽取的方法可采用基于Transform的Embedding方法。
影像组学数据可通过卷积神经网络如Resnet,提取出图片特征数据。通过子痫前期患者和正常组之间的差异表达分析筛选出差异表达基因,作为转录组学特征。
103、将特征数据输入至预设融合模块中进行融合。
将预处理后得到的上述特征进行拼接后,可采用自编码器融合,自编码器是一种深度无监督学习,可以从高维特征中学习到不同维度特征的组合表示。参照图3所示自编码器可由输入层、输出层和多个隐藏层构成。具体的,给定一个输入层,取维度为n的输入x=(x1,...,xn)自动编码器的目标是通过连续的隐藏层对x进行变换,通过输出x′(x和x′具有相同的维度)重构x。对于给定的第i层,用tanh作为输入层x和输出层y之间的激活函数,即:
y=fi(x)=tanh(Wi·x+bi)
其中x和y分别是大小为d和p的两个向量,Wi是大小为p×d的权矩阵,bi是大小为p和Wi的截距向量。x给出一个大小为p的向量。对于一个有k层的自动编码器,x′则由:
x′=F1→k(x)=f1°...°fk-1°fk(x)
其中fk-1°fk(x)=fk-1(fk(x))是fk-1与fk的复合函数。训练一个自动编码器,目标是找到使特定目标函数最小化的不同权重向量Wi。选择对数损失函数作为目标函数,测量输入x与输出x′之间的误差:
为了控制过拟合,可在权向量Wi上增加L1正则化惩罚αw,在节点活动F1→k(x)上增加L2正则化惩罚αa。因此上述目标函数为:
在具体应用时可采用具有三个隐藏层的自动编码器,通过自动编码器的输出层来产生新的特征组学数据,αa和αw可分别设为0.0001和0.001。其中为训练自动编码器可使用100个epoch和50%dropout的梯度下降算法,其中epoch指的是学习算法(随机梯度下降)在整个训练数据集中的迭代,在一个时期内学习算法只处理一次训练数据的每个实例,其中100个epoch的损失参照图4所示,随着epoch个数的增多,损失逐步的减小具有良好的融合效果。
104、基于目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型。
风险预测模型可采用自适应Wide(浅层)and Deep(深度)模型训练得到。其中当目标临床指标数据只包括多组学数据时,则将深度预测模型作为风险预测模型,其中多组学数据包括影像组学数据、基因组学数据以及转录组学数据中的一种或多种。当目标临床指标数据只包括用户基础数据时,则将浅层预测模型作为风险预测模型,其中用户基础数据包括:基本信息数据和/或实验检测数据。当患者的输入为多类型数据如包含:影像组学数据、基因组学数据和转录组学数据包括患者基本信息数据和实验室检测数据时候,采用Deep模型和Wide模型分别进行预测,将患者基本信息数据以及实验室检测数据作为Wide模型的输入,将影像组学数据集运组学数据和转录组学数据作为Deep模型的输入进行联合训练和预测,因为两种预测模型在经过联合训练后具有相同的预测精度,可实现数据的分类预测提高风险的预测的速度和效率。
从而实现动态根据患者数据维度的不同,动态调整最合适的模型。可有效降低临床漏判率、误判率。从而实现有效早期干预,显著提升孕产妇妊娠结局。
其中参照图5所示,Wide and Deep模型中的wide部分为单个数据类别的逻辑回归模型的输出,deep部分为多组学融合后的数据。Wide and Deep模型包含两部分,一个是浅层(wide)逻辑回归模型另一个是深层(deep)深度神经网络模型,该模型框架是将两种模型进行联合训练,综合利用浅层模型的记忆能力和深层模型的泛化能力,既能学习到线性特征又能学习到非线性特征,实现单模型可以兼顾准确性和拓展性。
其中Wide模型是广义线性模型,计算公式如式(3-1)所示:
y=WTx+b 式(3-1)
其中,y是线性模型的预测值,x=[x1,x2,...,xn]是输入模型的特征集合,WT是模型权重参数的矩阵,b为偏移常量。输入特征不仅包含原始特征还包含交叉特征,定义如式(3-2)所示:
cki是一个布尔值,交叉特征可以理解为原始特征通过逻辑与运算完成特征组合。
线性模型的输入特征是不需要向量化处理,直接将特征以及组合特征作为模型的输入,输入特征可以是连续特征也可以是离散特征。
Deep模型是一个深度神经网络,输入特征为连续特征、字符型特征,特征要经过向量化处理再进行模型训练。Deep模型是通过反向传播调整更新得到最合适的模型的权重以及偏置向量。其中隐藏层计算如式(3-3)所示:
al+1=g(Wlal+bl) 式(3-3)
其中,l代表第l隐含层,g代表神经网络中的激活函数,al是第l层经过激活函数的输出值,bl是l层偏倚值,Wl是第l层的权重矩阵。
虽然Wide模型可以通过训练对特征权重进行判断,记住比较重要的特征,但是需要耗费大量的人工做特征组合,因为广义线性模型不能自主学到没有出现过的特征组合。而Deep模型对模型的输入特征要求不是很高,只需要将基本特征作为模型的输入特征就可以学习到末出现过的高阶非线性特征。Wide And Deep模型将两种模型进行联合训练,当产生误差时Wide模型和Deep模型都会收到反馈信息并及时进行参数更新。联合训练与集成学习不同的是,联合训练在训练阶段进行模型融合而不是在最后的结果预测阶段,联合训练是两个模型会同时接收误差反馈信息对参数进行更改。由于每个模型的权重都会受到Wide模型和Deep模型对Wide and Deep模型的共同影响,因此在模型设计阶段只需要将两个模型分别考虑,Wide模型的输入特征为稠密的离散特征,Deep模型的输入为稀疏的连续特征再做向量化处理。这样既能保持线性模型的记忆能力同时又能通过深度神经网络提高了泛化能力,模型的大小也得到了控制。
下面是Wide and Deep模型的预测计算公式如式(3-4)所示:
其中,Y是输出结果,g是整个模型的激活函数,是Wide模型的权重矩阵,是Deep模型的权重矩阵。
在进行模型训练时,可采用自然分娩的孕产妇临床病历12000份经预处理后得到112维度的特征数据。从家族史描述中抽取家族史结构化信息,从既往史描述中抽取既往史结构化信息,从诊断结构中抽取标签信息得到256维度特征。预处理后的影像组学数据得到256维度的图片特征。转录组学数据10500份数据,通过子痫前期患者和正常组之间的差异表达分析筛选出差异表达基因,作为转录组学特征,得到组学特征维度为1210维度。将得到的四种维度的数据进行交叉筛选,可得到训练数据集9600份,并划分为训练集和测试集。其中训练集7680份;测试集1920份。将不同的类型的特征进行组合拼接,共得到1834个特征,然后进行自编码器融合后基于是否为子痫前期患者的标签对Wide and Deep模型进行训练。
105、将融合后的特征数据输入至风险预测模型中得到子痫前期的预测结果。
在测试集上的准确率为90.1%。实际针对子痫前期预测精准率为83.5%,召回率为78.1%,能够满足预测要求。当发生概率的风险阈值大于试验风险阈值时候,可建议医生进行进一步结合组学信息进行最终风险评测,当最终判断风险值较高时候,可建议医生进行特定子痫预防。
该子痫前期风险预测方法通过多组学特征融合的方式,可自适应动态调整模型的输入,即根据待预测孕产妇所具有的数据维度,自适应至数据维度相匹配的模型进行预测,有效解决了待预测孕产妇输入特征缺少的问题。准确度和灵敏度更高,可辅助医生在临床中更准确的判断孕产妇发生子痫前期的风险,降低临床漏判率、误判率。
可以理解的是,本领域技术人员还可采用其他深度学习、神经网络等模型进行风险预测模型的构建,本发明在此不做限制。
为进一步优化该技术方案,参照图2所示该妊娠期风险预测方法还可包括以下步骤:
201、当子痫前期的发生概率大于预设阈值时,对与唯一标识相关联的新的临床指标数据进行预处理得到新的特征数据。
202、将所述新的特征数据输入至预设融合模型中进行融合。
203、将融合后的新的特征数据输入至风险预测模型中得到新的子痫前期的预测结果。
具体的,可在孕妇孕早期(建议12周左右)产检时,根据其病历已有信息使用风险预测模型估计孕妇发生子痫前期的概率,当风险概率超过阈值则定义为子痫前期高风险。并针对高风险用户可补充进行多组学检查,将检查完成后的监测数据输入至风险预测模型中进行子痫前期的风险的再次预测,如再次预测患病风险仍然高于阈值,即建议临床及早干预。从而进一步提高了子痫前期风险预测的准确度和可靠度。
基于同样的设计思路参照图6所示,本发明的实施例还提供了一种妊娠期风险预测装置,该装置在运行时可实现上述妊娠期风险预测方法的各个步骤,该装置可以包括:
数据获取模块601,用于获取与待预测用户的唯一标识相关联的目标临床指标数据。
预处理模块602,用于对目标临床指标数据进行预处理,得到待预测用户的特征数据。
特征融合模块603,用于将特征数据输入至预设融合模块中进行融合。
模型确定模块604,用于基于目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型。以及
风险预测模块605,用于将融合后的特征数据输入至和风险预测模型中得到子痫前期的预测结果。
进一步地,该妊娠期风险预测装置还包括:
第一触发模块,用于当子痫前期的发生概率大于预设阈值时,触发预处理模块602将与唯一标识相关联的新的临床指标数据进行预处理得到新的特征数据。
第二触发模块,用于触发特征融合模块603将新的特征数据输入进行融合。
以及
第三触发模块,用于触发风险预测模块605将融合后的新的特征数据进行风险预测,得到新的子痫前期的发生概率。
进一步地,模型确定模块604具体用于若目标临床指标数据只包括多组学数据时,则将深度预测模型作为风险预测模型,多组学数据包括影像组学数据、基因组学数据以及转录组学数据中的一种或多种。
进一步地,模型确定模块604具体用于若目标临床指标数据只包括用户基础数据时,则将浅层预测模型作为风险预测模型,用户基础数据包括:基本信息数据和/或实验检测数据。
进一步地,模型确定模块604还具体用于若目标临床指标数据包括多组学数据和用户基础数据,则将深度预测模型和浅层预测模型分别作为风险预测模型。
风险预测模块605具体用于将融合后的特征数据分别输入深度预测模型和浅层预测模型中得到子痫前期的预测结果。
预处理模块602具体用于将影像组学数据输入至卷积神经网络提取图片特征,得到影像组学特征数据。
从基本信息数据中抽取家族史结构化信息和既往史结构化信息。
对实验检测数据中的数值型数据依次进行数据清洗、异常检测,特征分桶、特征组合和数据归一化处理。
对实验检测数据中的文本数据进行实体识别和规则匹配,得到文本特征数据。
该子痫前期风险预测装置具有和上述子痫前期风险预测方法相同的有益效果,其具体实现方式可参照上述子痫前期风险预测方法的实施例,本发明在此不再赘述。
参照图7所示,本发明的实施例还提供了一种设备,该设备可以包括:存储器701和处理器702。
存储器701,用于存储程序.
处理器702,用于执行该程序,实现如上实施例所述的妊娠期风险预测方法的各个步骤。
本发明的实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上实施例所述的妊娠期风险预测方法的各个步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本发明各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本发明所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种妊娠期风险预测方法,其特征在于,包括:
获取与待预测用户的唯一标识相关联的目标临床指标数据;
对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据;
将所述特征数据输入至预设融合模块中进行融合;
基于所述目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型;
将融合后的特征数据输入至所述风险预测模型中得到子痫前期的预测结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所述子痫前期的发生概率大于预设阈值时,对与所述唯一标识相关联的新的临床指标数据进行预处理得到新的特征数据;
将所述新的特征数据输入至所述预设融合模型中进行融合;
将融合后的新的特征数据输入至所述风险预测模型中得到新的子痫前期的预测结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,包括:
若所述目标临床指标数据只包括多组学数据时,则将深度预测模型作为所述风险预测模型,所述多组学数据包括影像组学数据、基因组学数据以及转录组学数据中的一种或多种。
4.根据权利要求3所述的方法,其特征在于,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,还包括:
若所述目标临床指标数据只包括用户基础数据时,则将浅层预测模型作为所述风险预测模型,所述用户基础数据包括:基本信息数据和/或实验检测数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述临床指标数据所包含的数据类型的种类和数量,确定风险预测模型,还包括:
若所述目标临床指标数据包括所述多组学数据和所述用户基础数据,则将所述深度预测模型和所述浅层预测模型分别作为所述风险预测模型;
所述将融合后的特征数据输入至所述风险预测模型中得到子痫前期的发生概率,包括:
将所述融合后的特征数据分别输入所述深度预测模型和所述浅层预测模型中得到子痫前期的发生概率。
6.根据权利要求3所述的方法,其特征在于,所述对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据,包括:
将所述转录组学数据和子痫前期患者的基因数据进行比较,得到转录组学特征数据;
将所述影像组学数据输入至卷积神经网络提取图片特征,得到影像组学特征数据。
7.根据权利要求4所述的方法,其特征在于,所述对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据,包括:
从所述基本信息数据中抽取家族史结构化信息和既往史结构化信息;
对所述实验检测数据中的数值型数据依次进行数据清洗、异常检测,特征分桶、特征组合和数据归一化处理;
对所述实验检测数据中的文本数据进行实体识别和规则匹配,得到文本特征数据。
8.一种妊娠期风险预测装置,其特征在于,包括:
数据获取模块,用于获取与待预测用户的唯一标识相关联的目标临床指标数据;
预处理模块,用于对所述目标临床指标数据进行预处理,得到所述待预测用户的特征数据;
特征融合模块,用于将所述特征数据输入至预设融合模块中进行融合;
模型确定模块,用于基于所述目标临床指标数据所包含的数据类型的种类和数量,确定风险预测模型;以及
风险预测模块,用于将融合后的特征数据输入至所述风险预测模型中得到子痫前期的预测结果。
9.一种设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的妊娠期风险预测方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的妊娠期风险预测方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211639802.8A CN118262905A (zh) | 2022-12-20 | 2022-12-20 | 一种妊娠期风险预测方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211639802.8A CN118262905A (zh) | 2022-12-20 | 2022-12-20 | 一种妊娠期风险预测方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118262905A true CN118262905A (zh) | 2024-06-28 |
Family
ID=91611515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211639802.8A Pending CN118262905A (zh) | 2022-12-20 | 2022-12-20 | 一种妊娠期风险预测方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118262905A (zh) |
-
2022
- 2022-12-20 CN CN202211639802.8A patent/CN118262905A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
Harper | A review and comparison of classification algorithms for medical decision making | |
JP2022031730A (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
CN113782183A (zh) | 一种基于多算法融合的压力性损伤风险预测装置及方法 | |
Mounika et al. | Prediction of type-2 diabetes using machine learning algorithms | |
Togunwa et al. | Deep hybrid model for maternal health risk classification in pregnancy: synergy of ANN and random forest | |
Verma et al. | Breast cancer survival rate prediction in mammograms using machine learning | |
Chandramouli et al. | Diabetes prediction using hybrid bagging classifier | |
Samet et al. | Predicting and staging chronic kidney disease using optimized random forest algorithm | |
Sudharson et al. | Performance analysis of enhanced adaboost framework in multifacet medical dataset | |
Jaganathan et al. | Machine learning for smartphone-based early detection of diabetic disease in Pima Indians diabetes database | |
Alotaibi et al. | Early prediction of gestational diabetes using machine learning techniques | |
Oliullah et al. | Analyzing the effectiveness of several machine learning methods for heart attack prediction | |
CN118262905A (zh) | 一种妊娠期风险预测方法、装置、设备和可读存储介质 | |
Chowdhury et al. | Incorporating an Integrated Software System for Stroke Prediction using Machine Learning Algorithms and Artificial Neural Network | |
Ramdhani et al. | Heart failure prediction based on random forest algorithm using genetic algorithm for feature selection | |
Selvan et al. | [Retracted] An Image Processing Approach for Detection of Prenatal Heart Disease | |
RU2723674C1 (ru) | Способ прогнозирования диагноза на основе обработки данных, содержащих медицинские знания | |
Gangula et al. | Prediction and Prognosis of Diabetes Using Logistic Regression | |
Kumar et al. | Cervical Cancer Prediction Using Machine Learning Algorithms | |
Hammoud et al. | EventScore: An automated real-time early warning score for clinical events | |
Ismail et al. | A Comparative Study of Diabetes Classification Based on Machine Learning | |
Satam et al. | Diabetes Prediction using Machine Learning | |
CN115240854B (zh) | 一种胰腺炎预后数据的处理方法及其系统 | |
Adwaith et al. | EfficientNet-based Three Head CNN Model with CLAHE Pre-processing for Accurate Diabetic Retinopathy Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |