CN113921142A - 早产风险预测方法、装置、计算机设备及存储介质 - Google Patents
早产风险预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113921142A CN113921142A CN202111045847.8A CN202111045847A CN113921142A CN 113921142 A CN113921142 A CN 113921142A CN 202111045847 A CN202111045847 A CN 202111045847A CN 113921142 A CN113921142 A CN 113921142A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction
- gru
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例公开了一种早产风险预测方法、装置、计算机设备及存储介质。所述方法包括:获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;对所述初始数据进行预处理,以得到预处理后的数据;对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;反馈所述预测结果至终端,以在终端进行显示;其中,所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的。通过实施本发明实施例的方法可实现结合孕妇各个时期的特征,进行早产高危人群的早期筛查,获取更加准确的预测结果。
Description
技术领域
本发明涉及人工智能技术领域,更具体地说是指早产风险预测方法、装置、计算机设备及存储介质。
背景技术
早产是指妊娠不足37周而终止妊娠,按病因分为自发性早产和医源性早产,是新生儿死亡及病残的首要原因,且影响新生儿的远期健康。当下国内二胎政策下早产儿的发生率呈上升趋势,因此早期预测早产并采取预防性措施对降低早产儿病死率、提高早产儿生存率存在重要的意义。临床上认为宫颈筛查和胎儿纤维连接蛋白可有效预测早产,其中宫颈筛查是最有效的筛查方法,但因成本预算暂无法在全人群进行普查,目前仅针对宫颈机能不全的孕妇进行宫颈检查;而基于胎儿纤维连接蛋白检查的方法特异性高,检出率低,通常只作为排查工具。此外,炎症因子、基因检测等预测手段仍需进一步的医学临床验证。
目前传统的早产预测模型的构建基于单一指标或进行指标的联合检测,利用统计学方法建立Logistic回归模型,此类方法的结构简单,而早产病因机制复杂,各危险因素之间的非线性相互作用关系复杂,模型须考虑疾病的整体性、复杂性和动态性,而结构简单的统计模型很难满足预测需求,且输入指标多为特殊检查项,难以进行大规模临床验证。因此,基于电子病历常规诊疗数据的机器学习模型以其高精度、高效率在母胎医学领域中得到广泛的应用,旨在获得更优秀的筛查模型,如Koivu等人利用纽约公开数据集基于人工神经网络和梯度增强决策树等算法构建预测模型,早产的AUC约为0.64,而Abraham利用电子病历中的高危因素构建预测模型,AUC约为0.59,但现有的机器学习研究均未涉及到时序研究,且模型的效果相对较差,灵敏度仅为0.33~0.37,需要继续通过添加生化和/或生物物理标记来改进模型,但是整个模型预测的准确率较低。
因此,有必要设计一种新的方法,实现结合孕妇各个时期的特征,进行早产高危人群的早期筛查,获取更加准确的预测结果。
发明内容
本发明的目的在于克服现有技术的缺陷,提供早产风险预测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:早产风险预测方法,包括:
获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;
对所述初始数据进行预处理,以得到预处理后的数据;
对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;
反馈所述预测结果至终端,以在终端进行显示;
其中,所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的。
其进一步技术方案为:所述初始数据包括产妇个人档案资料、产前检查资料、孕检数据、超声影像检查记录以及产时分娩数据中的分娩时间。
其进一步技术方案为:所述对所述初始数据进行预处理,以得到预处理后的数据,包括:
对所述初始数据进行数据转换和特征提取,以得到关键特征;
对所述关键特征进行缺失值填补,以得到填补结果;
对所述填补结果进行归一化处理,以得到处理后的数据;
对处理后的数据进行异常值剔除,以得到合格数据;
对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
其进一步技术方案为:所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的,包括:
构建GRU模型;
采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果;
构建LGBM模型;
利用所述第一预测结果对所述LGBM模型进行训练;
采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到预产期预测模型。
其进一步技术方案为:所述利用所述第一预测结果对所述LGBM模型进行训练,包括:
将所述第一预测结果进行特征融合,以得到GRU特征;
利用所述GRU特征对所述LGBM模型进行训练。
其进一步技术方案为:所述利用所述GRU特征对所述LGBM模型进行训练,包括:
计算所述LGBM模型的负梯度;
更新本轮回归树;
基于单边梯度采样算法计算方差增益值;
利用互补特征压缩算法减少所述GRU特征的维度;
对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
其进一步技术方案为:所述评价指标包括准确率、灵敏度、特异性以及ROC曲线。
本发明还提供了早产风险预测装置,包括:
数据获取单元,用于获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;
预处理单元,用于对所述初始数据进行预处理,以得到预处理后的数据;
预测单元,用于对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;
发送单元,用于反馈所述预测结果至终端,以在终端进行显示。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过整合多源异构的医疗数据,基于时序模型的优点,契合孕妇怀孕时期的特征,保证各个孕期数据的合理利用,通过GRU神经网络捕捉孕妇早中期孕妇的历次产检时生理特点,结合LGBM模型进行早产风险的预测,实现结合孕妇各个时期的特征,进行早产高危人群的早期筛查,获取更加准确的预测结果。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的早产风险预测方法的应用场景示意图;
图2为本发明实施例提供的早产风险预测方法的流程示意图;
图3为本发明实施例提供的早产风险预测方法的子流程示意图;
图4为本发明实施例提供的早产风险预测方法的子流程示意图;
图5为本发明实施例提供的早产风险预测方法的子流程示意图;
图6为本发明实施例提供的早产风险预测方法的子流程示意图;
图7为本发明实施例提供的早产风险预测装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的早产风险预测方法的应用场景示意图。图2为本发明实施例提供的早产风险预测方法的示意性流程图。该早产风险预测方法应用于服务器中。该服务器与终端进行数据交互,终端主要是集成有医疗系统,包括医生的就诊端以及病人的资料上传端等,服务器针对着终端输入的医疗数据进行预处理后在进行早产风险的精准预测,并及时反馈至终端。
图2是本发明实施例提供的早产风险预测方法的流程示意图。如图2所示,该方法包括以下步骤S110至S140。
S110、获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据。
在本实施例中,初始数据是指包括产妇个人档案资料、产前检查资料、孕检数据、超声影像检查记录以及产时分娩数据中的分娩时间等多源异构数据,并按照产检指南进行划分后形成的数据。
具体地,获取的医疗数据主要针对以下人群:参与研究的妇女在怀孕12周前进行登记和初检,并在28周前每月1次通过门诊随访,这项研究是根据赫尔辛基宣言进行的,并得到了当地伦理审查委员会的批准。参与者的排除标准如下:①妊娠合并子宫体肿瘤;②有严重的心、脑、血管、肾等内外科合并症及妊娠并发症;③妊娠期间行宫颈环扎术;④妊娠结局为流产、引产的孕妇。
获取预期的医疗数据时主要从收集固定数据、时序数据以及因变量。其中,固定数据为产妇人口统计学资料和产前检查资料,输入变量包括年龄、出生日期、孕次、产次、身高、孕前体重、产前收缩压和舒张压、疾病史、末次月经、初潮、经期、周期、月经量、痛经、自然妊娠、血型、文化程度、所处社区等。
24周前的化验多在社区进行,检验标准各异,因此本发明仅将25周~28周的化验记录作为固定数据输入。化验数据包括血液检查、脂代谢、血糖和甲状腺相关数据。其中血液检查包括血红蛋白、红细胞压积、血小板、中性粒细胞、淋巴细胞、嗜酸性粒细胞等;脂代谢项目包括甘油三酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇等;糖代谢项目为OGTT检查,包括空腹血糖、餐后1小时血糖、餐后2小时血糖;甲状腺相关项目包括游离三碘甲状腺原氨酸、游离甲状腺素、人促甲状腺激素、总三碘甲状腺原氨酸、总甲状腺素等;其他还包括尿酸、丙氨酸氨基转移酶、同型半胱氨酸、天门冬氨酸氨基转移酶等代谢化验项目,共计40余项。
时序医疗数据包含孕检数据和超声检查数据。其中,孕检数据包括当前的体重、收缩压和舒张压、宫高、腹围、脉率、心率等,如表1所示;妊娠早期超声数据包括孕囊大小、胚芽、卵黄囊、顶臀径、双顶径、NT厚度等;妊娠中晚期数据集的超声数据包括胎位、胎心、胎盘成熟度、羊水指数、脐血S/D、双顶径、胎儿头围、胎儿腹围、股骨长等。
表1.孕检数据示意表
因变量包括产时分娩数据中的分娩时间,将分娩孕周大于28周且小于37周,分娩方式为自然分娩的产妇定义为自发性早产。
S120、对所述初始数据进行预处理,以得到预处理后的数据。
在本实施例中,预处理后的数据是指经过数据筛选、数据清洗转换、缺失值填补、归一化等预处理后的特征。
在一实施例中,请参阅图3,上述的步骤S120可包括步骤S121~S125。
S121、对所述初始数据进行数据转换和特征提取,以得到关键特征。
在本实施例中,关键特征是指阴道分娩史、剖宫产史、流产史、B超影像和疾病史转换得到的特征。
具体地,根据查询产妇具体分娩记录,将孕次和产次转化为阴道分娩史、流产史;B超影像和疾病史以文本报告的形式,通过正则表达式方法提取超声特征。
S122、对所述关键特征进行缺失值填补,以得到填补结果。
在本实施例中,填补结果是指采用拉格朗日插值法填补所述关键特征的缺失值。
具体地,本实施例认为化验数据是预测模型较重要的数据,依据实验室检查的分布,筛去缺少化验1和化验2项目的记录,化验3可为空值;然后筛除单条记录中含30%以上其他缺失值的记录。
年龄、BMI等<1%的固定变量的缺失值,可通过人工校验原始数据直接填补;而妊娠中晚期的体检数据和超声数据等连续性变量采用拉格朗日插值法填补缺失值:x2-x1<8week;其中,x2、x1表示时间,y表示具体某个中晚期孕检特征或超声特征,其几何意义为(x2,y2)和(x1,y1)是曲线上的两个点,由一条直线y来近似拟合该曲线。线性插值的条件是填补数据前后区间的时间不超过8周,临床上要求产妇在妊娠早中期至少每1个月周进行一次产前综合检查。
S123、对所述填补结果进行归一化处理,以得到处理后的数据。
在本实施例中,处理后的数据是指归一化处理后的特征。
由于样本特征数据具有不同的量纲和量纲单位,数值间的差距会对模型造成影响,因此需要对数据进行归一化处理,避免值域较大的特征影响其他特征,同时提升模型的收敛速度。采用min-max标准化,使得结果映射到[0,1]之间,模型得到预测结果后,需要对结果进行反归一化处理得到真实值。
S124、对处理后的数据进行异常值剔除,以得到合格数据。
在本实施例中,合格数据是指剔除异常值之后所剩下的处理后的数据。
采用拉依达准则进行异常值处理,即以给定的置信概率99.7%为标准,以3倍数据列标准差为依据,纳入预测模型的测量值的剩余误差大于3倍σ时,应予剔除,|剩余误差|=|纳入早产模型的测量值-测量均值|>3σ。
S125、对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
依次计算每位产妇各项检查结果,记录其在首诊和末诊的变化值纳入模型。
S130、对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果。
在本实施例中,预测结果是指早产风险的预测值。
其中,所述早产风险预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU(门控循环单元,Gated Recurrent Unit)模型以及LGBM模型所得的。
在一实施例中,请参阅图4,上述的早产风险预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的,可包括步骤S131~S135。
S131、构建GRU模型;
S132、采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果。
在本实施例中,第一预测结果是指由GRU模型对预处理后的医疗数据进行预测后得到的早产风险预测的概率值。具体地,若干个医疗数据的预处理可参照步骤S110,此处不再赘述。
孕检数据和超声检查数据为时间序列数据,通过GRU模型隐藏层中的更新门和控制门来共同决定模型的保留和遗忘的能力,迭代得到最终的预测结果。一个当前的输入xt,和上一个节点传递下来的隐状态ht-1,这个隐状态包含了之前节点的信息。rt=σ(Wr·[ht-1,xt]);zt=σ(Wz·[ht-1,xt])。其中,zt和rt分别表示更新门和重置门。zt决定前一时刻的状态信息传输到当前状态的多少,rt决定前一状态有多少信息被写入到当前的候选集ht上,σ是Sigmoid激活函数。
上一时刻隐藏数据经过重置门控得到的重置数据与当前的输入xt相结合并通过tanh激活函数可以得到当前时刻的候选隐藏状态最后rt=σ(Wr·[ht-1,xt]);zt=σ(Wz·[ht-1,xt])得到t时刻的隐藏状态ht;ht=(1-zt)*进一步得到GRU网络模型的输出,即为预测的早产风险概率值,即第一预测结果:yt=σ(WO·ht)。
S133、构建LGBM模型;
S134、利用所述第一预测结果对所述LGBM模型进行训练。
在一实施例中,请参阅图5,上述的步骤S134可包括步骤S1341~S1342。
S1341、将所述第一预测结果进行特征融合,以得到GRU特征。
在本实施例中,GRU特征是指第一预测结果、孕前特征群、末次孕检特群以及孕检结果变化特征群融合后得到的特征。
将第一预测结果Featuresgru,与孕前特征群Featurefirst、末次孕检特群Featureslast以及孕检结果变化特征群Featureschange,获得GRU特征Featuresnew;Featuresnew=Featuresgru∪Featurefirst∪Featureslast∪Featureschange。
S1342、利用LGBM模型对所述融合特征群进行训练。
将GRU特征的数据按照4:1分为训练集和测试集,利用LGBM模型对训练集进行训练,待训练完成后,使用测试集进行预测,预测结果为最终的早产分类。
在一实施例中,请参阅图6,上述的步骤S1342可包括步骤S13421~S13425。
S13421、计算所述LGBM模型的负梯度。
具体地,初始化后,计算损失函数的负梯度在当前模型的值,在当前模型Fm(x)=Fm-1(x)的值近似替代残差,则负梯度rij的计算公式如下: 其中,当前LGBM模型为Fm(x),训练样本为i(i=1,2,3…,n),迭代次数j(j=1,2,3…,m),损失函数为L(yi,F(xi))。
S13422、更新本轮回归树。
S13423、基于单边梯度采样算法计算方差增益值。
在本实施例中,GOSS(基于单边梯度采样,Gradient-based One Side Sampling,)算法可保持信息增益估计的准确,信息增益使用分裂后的方差增益衡量,只保留那些具有较大贡献的样本,方差增益Vj(d)如下:其中,d是样本特征的分裂点,n表示样本数,A、B分别表示分裂的大、小梯度样本,l、r分别表示左子树和右子树,g表示样本梯度。
S13424、利用互补特征压缩算法减少所述GRU特征的维度。
在本实施例中,EFB(互补特征压缩,Exclusive Feature Bundling)算法则可减少高维数据的特征数目并且使损失最小,将特征值离散化作为索引在直方图中累积统计量,并通过捆绑合并相互独立的特征减少特征的数量,Featureab=Featurea+β∪Featureb,其中,β为可调的偏置常量,Featureab是捆绑后的特征值,EFB可有效降低模型的内存占用和时间复杂。
S13425、对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
S135、采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到早产风险分类预测模型。
在本实施例中,所述评价指标包括准确率、灵敏度、特异性以及ROC曲线。
S140、反馈所述预测结果至终端,以在终端进行显示
基于本发明实例建立预测模型,嵌入电子病历系统实现早产高危人群的早期筛查。
本实施例实现早期的高危早产人群筛选,以建议该部分人群进行进一步的早产项目检查。本发明的预测模型采用常规诊疗数据,不涉及特殊化验项和检查项,保证预测模型的可行性,且本实施例的预测模型在保证一定检出率的前提下尽可能提高其特异性,可有效解决因成本核算而无法大规模进行宫颈筛查来预防早产的现状,在不进行额外检查项的同时基于历史诊疗数据进行早期筛查,可节省大量资源,为临床护理工作提供新途径。
通过建立GRU和LGBM的混合模型来进行早产高危人群筛选。GRU-LGBM模型通过从经验中获取信息,挖掘数据中隐藏的知识,从而做出更有效、更合理的决策。基于时序神经网络技术,挖掘孕期内潜在的时序特征以建立早产预测模型,旨在对早产高危人群的早期筛查,提早干预和救治,降低早产发生率、改善早产人群的母婴结局。
上述的早产风险预测方法,通过整合多源异构的医疗数据,基于时序模型的优点,契合孕妇怀孕时期的特征,保证各个孕期数据的合理利用,通过GRU神经网络捕捉孕妇早中期孕妇的历次产检时生理特点,结合LGBM模型进行早产风险的预测,实现结合孕妇各个时期的特征,进行早产高危人群的早期筛查,获取更加准确的预测结果。
图7是本发明实施例提供的一种早产风险预测装置的示意性框图。如图7所示,对应于以上早产风险预测方法,本发明还提供一种早产风险预测装置。该早产风险预测装置包括用于执行上述早产风险预测方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该早产风险预测装置300包括数据获取单元301、预处理单元302、预测单元303以及发送单元304。
数据获取单元301,用于获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;预处理单元302,用于对所述初始数据进行预处理,以得到预处理后的数据;预测单元303,用于对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;发送单元304,用于反馈所述预测结果至终端,以在终端进行显示。
在一实施例中,上述的早产风险预测装置300还包括训练单元,所述训练单元,用于通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型,以得到所述预产期预测模型。
在一实施例中,所述预处理单元302包括特征提取子单元、填补子单元、归一化子单元、剔除子单元以及特征群提取子单元。
特征提取子单元,用于对所述初始数据进行数据转换和特征提取,以得到关键特征;填补子单元,用于对所述关键特征进行缺失值填补,以得到填补结果;归一化子单元,用于对所述填补结果进行归一化处理,以得到处理后的数据;剔除子单元,用于对处理后的数据进行异常值剔除,以得到合格数据;特征群提取子单元,用于对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
在一实施例中,所述训练单元包括第一构建子单元、第一训练子单元、第二构建子单元、第二训练子单元以及评价子单元
第一构建子单元,用于构建GRU模型;第一训练子单元,用于采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果;第二构建子单元,用于构建LGBM模型;第二训练子单元,用于利用所述第一预测结果对所述LGBM模型进行训练;评价子单元,用于采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到预产期预测模型。
在一实施例中,所述第二训练子单元包括融合模块以及模型训练模块。
融合模块,用于将所述第一预测结果进行特征融合,以得到GRU特征;模型训练模块,用于利用所述GRU特征对所述LGBM模型进行训练。
在一实施例中,所述模型训练模块包括负梯度计算子模块、更新子模块、增益值计算子模块、维度减少子模块以及线性相加子模块。
负梯度计算子模块,用于计算所述LGBM模型的负梯度;更新子模块,用于更新本轮回归树;增益值计算子模块,用于基于单边梯度采样算法计算方差增益值;维度减少子模块,用于利用互补特征压缩算法减少所述GRU特征的维度;线性相加子模块,用于对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述早产风险预测装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述早产风险预测装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种早产风险预测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种早产风险预测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;对所述初始数据进行预处理,以得到预处理后的数据;对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;反馈所述预测结果至终端,以在终端进行显示;
其中,所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的。
所述初始数据包括产妇个人档案资料、产前检查资料、孕检数据、超声影像检查记录以及产时分娩数据中的分娩时间。
在一实施例中,处理器502在实现所述对所述初始数据进行预处理,以得到预处理后的数据步骤时,具体实现如下步骤:
对所述初始数据进行数据转换和特征提取,以得到关键特征;对所述关键特征进行缺失值填补,以得到填补结果;对所述填补结果进行归一化处理,以得到处理后的数据;对处理后的数据进行异常值剔除,以得到合格数据;对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
在一实施例中,处理器502在实现所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的步骤时,具体实现如下步骤:
构建GRU模型;采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果;构建LGBM模型;利用所述第一预测结果对所述LGBM模型进行训练;采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到预产期预测模型。
其中,所述评价指标包括准确率、灵敏度、特异性以及ROC曲线。
在一实施例中,处理器502在实现所述利用所述第一预测结果对所述LGBM模型进行训练步骤时,具体实现如下步骤:
将所述第一预测结果进行特征融合,以得到GRU特征;利用所述GRU特征对所述LGBM模型进行训练。
在一实施例中,处理器502在实现所述利用所述GRU特征对所述LGBM模型进行训练步骤时,具体实现如下步骤:
计算所述LGBM模型的负梯度;更新本轮回归树;基于单边梯度采样算法计算方差增益值;利用互补特征压缩算法减少所述GRU特征的维度;对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;对所述初始数据进行预处理,以得到预处理后的数据;对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;反馈所述预测结果至终端,以在终端进行显示;
其中,所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的。
所述初始数据包括产妇个人档案资料、产前检查资料、孕检数据、超声影像检查记录以及产时分娩数据中的分娩时间。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述初始数据进行预处理,以得到预处理后的数据步骤时,具体实现如下步骤:
对所述初始数据进行数据转换和特征提取,以得到关键特征;对所述关键特征进行缺失值填补,以得到填补结果;对所述填补结果进行归一化处理,以得到处理后的数据;对处理后的数据进行异常值剔除,以得到合格数据;对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述预产期预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的步骤时,具体实现如下步骤:
构建GRU模型;采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果;构建LGBM模型;利用所述第一预测结果对所述LGBM模型进行训练;采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到预产期预测模型。
其中,所述评价指标包括准确率、灵敏度、特异性以及ROC曲线。
在一实施例中,所述处理器在执行所述计算机程序而实现所述利用所述第一预测结果对所述LGBM模型进行训练步骤时,具体实现如下步骤:
将所述第一预测结果进行特征融合,以得到GRU特征;利用所述GRU特征对所述LGBM模型进行训练。
在一实施例中,所述处理器在执行所述计算机程序而实现所述利用所述GRU特征对所述LGBM模型进行训练步骤时,具体实现如下步骤:
计算所述LGBM模型的负梯度;更新本轮回归树;基于单边梯度采样算法计算方差增益值;利用互补特征压缩算法减少所述GRU特征的维度;对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.早产风险预测方法,其特征在于,包括:
获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;
对所述初始数据进行预处理,以得到预处理后的数据;
对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;
反馈所述预测结果至终端,以在终端进行显示;
其中,所述早产风险预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的。
2.根据权利要求1所述的早产风险预测方法,其特征在于,所述初始数据包括产妇个人档案资料、产前检查资料、孕检数据、超声影像检查记录以及产时分娩数据中的分娩时间。
3.根据权利要求1所述的早产风险预测方法,其特征在于,所述对所述初始数据进行预处理,以得到预处理后的数据,包括:
对所述初始数据进行数据转换和特征提取,以得到关键特征;
对所述关键特征进行缺失值填补,以得到填补结果;
对所述填补结果进行归一化处理,以得到处理后的数据;
对处理后的数据进行异常值剔除,以得到合格数据;
对所述合格数据进行孕检结果变化特征群的提取,以得到预处理后的数据。
4.根据权利要求1所述的早产风险预测方法,其特征在于,所述早产风险预测模型是通过若干个医疗数据进行预处理后形成样本集并依序训练GRU模型以及LGBM模型所得的,包括:
构建GRU模型;
采用若干个医疗数据进行预处理后形成的样本集对所述GRU模型进行训练,并得到第一预测结果;
构建LGBM模型;
利用所述第一预测结果对所述LGBM模型进行训练;
采用预设定的评价指标评价训练后的所述GRU模型以及所述LGBM模型,以得到早产风险预测模型。
5.根据权利要求1所述的早产风险预测方法,其特征在于,所述利用所述第一预测结果对所述LGBM模型进行训练,包括:
将所述第一预测结果进行特征融合,以得到GRU特征;
利用所述GRU特征对所述LGBM模型进行训练。
6.根据权利要求5所述的早产风险预测方法,其特征在于,所述利用所述GRU特征对所述LGBM模型进行训练,包括:
计算所述LGBM模型的负梯度;
更新本轮回归树;
基于单边梯度采样算法计算方差增益值;
利用互补特征压缩算法减少所述GRU特征的维度;
对每轮产生的基学习器通过线性相加,以得到训练后的所述LGBM模型。
7.根据权利要求4所述的早产风险预测方法,其特征在于,所述评价指标包括准确率、灵敏度、特异性以及ROC曲线。
8.早产风险预测装置,其特征在于,包括:
数据获取单元,用于获取孕期的医疗数据,并对所述医疗数据进行划分,以得到初始数据;
预处理单元,用于对所述初始数据进行预处理,以得到预处理后的数据;
预测单元,用于对预处理后的数据输入至早产风险预测模型内进行早产风险预测,以得到预测结果;
发送单元,用于反馈所述预测结果至终端,以在终端进行显示。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045847.8A CN113921142A (zh) | 2021-09-07 | 2021-09-07 | 早产风险预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045847.8A CN113921142A (zh) | 2021-09-07 | 2021-09-07 | 早产风险预测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113921142A true CN113921142A (zh) | 2022-01-11 |
Family
ID=79234137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111045847.8A Withdrawn CN113921142A (zh) | 2021-09-07 | 2021-09-07 | 早产风险预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113921142A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122770A1 (en) * | 2013-10-15 | 2019-04-25 | Parkland Center For Clinical Innovation | Lightweight Clinical Pregnancy Preterm Birth Predictive System and Method |
CN110322695A (zh) * | 2019-07-23 | 2019-10-11 | 内蒙古工业大学 | 一种基于深度学习的短时交通流预测方法 |
CN112992353A (zh) * | 2021-03-11 | 2021-06-18 | 杭州和乐科技有限公司 | 预产期精准预测方法、装置、计算机设备及存储介质 |
CN113077900A (zh) * | 2021-03-11 | 2021-07-06 | 杭州市妇产科医院 | 糖尿病早期风险评估方法、装置、计算机设备及介质 |
CN113127537A (zh) * | 2021-04-16 | 2021-07-16 | 北京交通大学 | 融合时序预测模型和机器学习模型的备件需求预测方法 |
KR20210097515A (ko) * | 2020-01-30 | 2021-08-09 | 연세대학교 원주산학협력단 | 딥러닝 기반 건강 위험도 예측을 통한 건강 개선 프로그램 제공 방법 |
-
2021
- 2021-09-07 CN CN202111045847.8A patent/CN113921142A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122770A1 (en) * | 2013-10-15 | 2019-04-25 | Parkland Center For Clinical Innovation | Lightweight Clinical Pregnancy Preterm Birth Predictive System and Method |
CN110322695A (zh) * | 2019-07-23 | 2019-10-11 | 内蒙古工业大学 | 一种基于深度学习的短时交通流预测方法 |
KR20210097515A (ko) * | 2020-01-30 | 2021-08-09 | 연세대학교 원주산학협력단 | 딥러닝 기반 건강 위험도 예측을 통한 건강 개선 프로그램 제공 방법 |
CN112992353A (zh) * | 2021-03-11 | 2021-06-18 | 杭州和乐科技有限公司 | 预产期精准预测方法、装置、计算机设备及存储介质 |
CN113077900A (zh) * | 2021-03-11 | 2021-07-06 | 杭州市妇产科医院 | 糖尿病早期风险评估方法、装置、计算机设备及介质 |
CN113127537A (zh) * | 2021-04-16 | 2021-07-16 | 北京交通大学 | 融合时序预测模型和机器学习模型的备件需求预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Prediction of fetal weight at varying gestational age in the absence of ultrasound examination using ensemble learning | |
Liu et al. | Machine learning algorithms to predict early pregnancy loss after in vitro fertilization-embryo transfer with fetal heart rate as a strong predictor | |
CN113077900B (zh) | 糖尿病早期风险评估方法、装置、计算机设备及介质 | |
CN110808097A (zh) | 一种妊娠期糖尿病预测系统及方法 | |
EP2124193A2 (en) | Automated placental measurement | |
US8565507B2 (en) | Automated placental measurement | |
US11969289B2 (en) | Premature birth prediction | |
US20110081056A1 (en) | Automated placental measurement | |
CN112819045A (zh) | 用于用户生理状态分类的方法、装置、电子设备及介质 | |
CN112992353A (zh) | 预产期精准预测方法、装置、计算机设备及存储介质 | |
Kamat et al. | Implementation of classification algorithms to predict mode of delivery | |
Schwartz et al. | Fully Automated Placental Volume Quantification From 3D Ultrasound for Prediction of Small‐for‐Gestational‐Age Infants | |
Liang et al. | Fully automatic classification of cardiotocographic signals with 1D-CNN and bi-directional GRU | |
US20230005133A1 (en) | Automated placental measurement | |
CN117954093A (zh) | 极早产儿肺部血管发育评估方法和装置 | |
US20180365825A1 (en) | Automated placental measurement | |
CN116563224B (zh) | 基于深度语义特征的影像组学胎盘植入预测方法及装置 | |
WO2024131025A1 (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Badriyah et al. | Application of naive bayes method for IUGR (Intra Uterine Growth Restriction) diagnosis on the pregnancy | |
MacDonald et al. | Prospective longitudinal assessment of the fetal left modified Myocardial Performance Index | |
CN113921142A (zh) | 早产风险预测方法、装置、计算机设备及存储介质 | |
CN115331817A (zh) | 孕早期阶段早产型子痫前期风险筛查装置 | |
CN114550910A (zh) | 基于人工智能的射血分数保留型心衰诊断及分型系统 | |
Baller et al. | Gestational growth trajectories derived from a dynamic fetal–placental scaling law | |
CN117954083B (zh) | 一种基于机器学习算法的子痫前期预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220111 |