CN112836730A - 用于用户妊娠状态分类的方法、装置、电子设备及介质 - Google Patents

用于用户妊娠状态分类的方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN112836730A
CN112836730A CN202110077865.8A CN202110077865A CN112836730A CN 112836730 A CN112836730 A CN 112836730A CN 202110077865 A CN202110077865 A CN 202110077865A CN 112836730 A CN112836730 A CN 112836730A
Authority
CN
China
Prior art keywords
user
pregnancy
gestational
detected
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110077865.8A
Other languages
English (en)
Inventor
马旭
路建波
孙琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN202110077865.8A priority Critical patent/CN112836730A/zh
Publication of CN112836730A publication Critical patent/CN112836730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请公开了一种用于用户妊娠状态分类的方法、装置、电子设备及介质。本申请中,可以从产前检查数据中心调取妊娠期用户的样本数据集,样本数据包括妊娠期用户的孕周数值;通过随机森林算法持续优化训练决策树模型,得到目标预测模型;获取待检测妊娠期用户的生理特征数据,将待检测妊娠期用户的生理特征数据输入至目标预测模型,得到待检测妊娠期用户的妊娠状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为妊娠期用户生成可以确定妊娠状态分类的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户妊娠状态的目的,进而可以针对性的为用户进行相应的处理。

Description

用于用户妊娠状态分类的方法、装置、电子设备及介质
技术领域
本申请中涉及数据处理技术,尤其是一种用于用户妊娠状态分类的方法、装置、电子设备及介质。
背景技术
随着通信技术的发展和广泛应用,机器学习算法在医疗领域的应用频率和研究深度增长迅速。尤其是针对应用在妊娠期用户的妊娠状态监测是机器学习算法中较有特点的一类。
进一步的,在监测妊娠期用户妊娠状态的过程中,通常需要根据用户的特征数据来判定。其中,对于获取用户特征数据来说,相关技术中可以通过使用数据挖掘将海量数据中的有用信息挖掘出来,并通过发现用户特征数据中存在的规律以及其中的相互关系,提供给决策者们使用,这些对医学决策及医学研究都有巨大的价值和意义。但疾病数据带来的数学挖掘挑战巨大,要处理的疾病数据维度高、数据结构复杂,要求模型有更强大的学习适应能力。
近年来,深度学习得到广泛应用,由于其强大的自动特征提取和复杂函数的表达能力,非常适合处理疾病数据分析所面临的问题。因此,如何在妊娠期用户的特征数据挖掘当中,更好的刻画数据的丰富内在信息与提高判断妊娠期用户的妊娠状态的准确率,是目前产前数据处理分析的重要课题。
发明内容
本申请实施例提供一种用于用户妊娠状态分类的方法、装置、电子设备及介质,其中,根据本申请实施例的一个方面,提供的一种用于用户妊娠状态分类的方法,其特征在于,包括:
从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;
利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;
获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。
可选地,在基于本申请上述方法的另一个实施例中,所述从产前检查数据中心调取妊娠期用户的样本数据集,包括:
从所述产前检查数据中心调取妊娠期用户的病案信息、基础信息、体检信息、生化检测信息;
将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述妊娠期用户的样本数据集。
可选地,在基于本申请上述方法的另一个实施例中,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
可选地,在基于本申请上述方法的另一个实施例中,在所述从产前检查数据中心调取妊娠期用户的样本数据集之后,还包括:
基于所述妊娠期用户的样本数据集,确定每个孕周数值以及对应的权重比;
利用所述每个孕周数值以及对应的权重比,并通过随机森林算法持续优化训练所述决策树模型,得到所述目标预测模型。
可选地,在基于本申请上述方法的另一个实施例中,所述生理特征数据包括所述待检测妊娠期用户的变量年龄值、镁值、宫高值、血清无机磷值、平均血小板容积值、腰围值、总胆固醇值、甲状腺球蛋白值、球蛋白值、总胆红素值的至少一种。
可选地,在基于本申请上述方法的另一个实施例中,在所述得到所述待检测妊娠期用户的妊娠状态分类结果之后,还包括:
解析所述待检测妊娠期用户的生理特征数据,确定所述待检测妊娠期用户的孕周数值;
根据所述待检测妊娠期用户的孕周数值以及对应的权重参考比,得到所述待检测妊娠期用户的妊娠分类结果。
其中,根据本申请实施例的又一个方面,提供的一种用于用户妊娠状态分类的装置,其特征在于,包括:
获取模块,被配置为从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;
训练模块,被配置为利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块,被配置为通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;
所述生成模块,被配置为获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述用于用户妊娠状态分类的方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述用于用户妊娠状态分类的方法的操作。
本申请中,可以从产前检查数据中心调取妊娠期用户的样本数据集,样本数据包括妊娠期用户的孕周数值;利用包含孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法持续优化训练决策树模型,得到目标预测模型;获取待检测妊娠期用户的生理特征数据,将待检测妊娠期用户的生理特征数据输入至目标预测模型,得到待检测妊娠期用户的妊娠状态分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为妊娠期用户生成可以确定妊娠状态分类的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户妊娠状态的目的,进而可以针对性的为用户进行相应的处理。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种用于用户妊娠状态分类的方法示意图;
图2为本申请用于用户妊娠状态分类的方法电子装置的结构示意图;
图3为本申请用于用户妊娠状态分类的电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1来描述根据本申请示例性实施方式的用于进行用户妊娠状态分类的方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种用于用户妊娠状态分类的方法、装置、目标终端及介质。
图1示意性地示出了根据本申请实施方式的一种用于用户妊娠状态分类的方法的流程示意图。如图1所示,该方法包括:
S101,从产前检查数据中心调取妊娠期用户的样本数据集,样本数据包括妊娠期用户的孕周数值。
进一步的,早产(Preterm birth,PTB)是孕妇在37周之前分娩,它是一个比较常见的妊娠不良结局。2014年,一项系统性综述估计全球有10.60%的早产患者,在中国有6.90%的孕妇妊娠结局为早产。研究发现35%的新生死亡由早产的并发症引起。早产对患者家庭和社会造成了巨大的经济负担。
另外,早产不仅造成了巨大经济负担,而且影响了新生儿的发育发展,造成了残疾。存货下来的早产儿容易患有许多疾病,如高血压、视网膜病变、视力和听力障碍、和心理健康问题。此外,早产儿的母亲更容易在分娩后一段时间内受到心理伤害痛苦,如焦虑、抑郁。一项研究表明,早期对早产进行筛查可以降低早产的发生率。因此,亟需构建一个早产预测模型,能够在妊娠的早期预测孕妇患有早产的可能,为及早的干预和治疗早产提供可能。目前,早产发生的确切机制尚不清楚,主要涉及几种因素,如产妇的特征(产妇体重、种族、是否吸烟、经济状况、饮酒使用和早产病史),妊娠中期宫颈长度测量,产科病史,胎儿纤连蛋白和环境细颗粒物(。基于这些影响因素建立了多种预测模型。研究发现超声测量宫颈长度(cervical length,CL)在妊娠的早期预测早产,但是一些研究提出了相反的观点。另外一些研究使用代谢物预测早产,发现与早产相关的4种代谢物包括组氨酸,5-氧脯氨酸、肌酐和肌醇。早产的发生和基因也存在关联,有研究发现基因SERPINB8、AZU1和WASF3和早产存在关联,这些基因影响机体的生物过程如细胞运动和迁移,糖皮质激素激活、信号传导、代谢控制和细胞凋亡。另外的一项研究发现SKA2基因可能作为一种潜在的生物标志物预测早产。一项以人群为基础的研究发现新生儿的FGF1基因与胎盘的病理损伤有关,并增加早产的风险。Menon等人发现肿瘤坏死因子-alpha(TNF-alpha)的基因变异,TNF受体(TNFRI和TNFRII)、白细胞介素-6(IL-6)和IL-6受体(IL-6R)有望成为PTB的预测因子。Winger等人发现micro RNA可以预测早产,模型的敏感性和特异性较好,但是令一项研究提供了相反的结果。胎儿纤连蛋白被广泛用于预测早产,但是敏感性和特异性较低。
上述的研究,对于预测早产的表现较好,但是,这些预测指标并没有广泛的应用与临床。另外,这些预测模型是基于简单的线性回归算法,模型的预测精度在一定程度上不是很高。最近几年,机器学习方法在医学上得到了较好的广泛应用切性能不错。与传统的生物统计学方法相比,机器学习的优势在于处理高维数据的能力和自学习的能力。随着电子病历(EMR)的使用,在临床实践中产生了大量的数据,这些数据具有大数据的特点(数据量大,高纬度和多样性)。因此对临床数据使用机器学习算法预测早产预测精度可能会高于传统的统计算法。
更进一步的,基于上述存在的问题,本申请即可以利用通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为妊娠期用户生成可以确定其妊娠状态的目标预测模型,从而实现精准掌握妊娠期当前处于何种妊娠状态的目的。
可选的,由于妊娠期用户在产检的过程中需要参加多次的产前诊断,因此会产生大量的临床检查数据,如血常规、血生化和体格检查等数据,这些数据具有数据量大、变量多等大数据特征,使用传统的统计模型处理较为困难。因此本申请可以使用人工智能算法,从产前检查数据中心处自动提取多个妊娠期用户的样本数据集。以使后续根据该样本数据集实现预测模型的建立。
可以理解的,本申请可以将样本数据集划分为样本训练集以及样本测试集的过程中。例如可以将数据集的80%作为训练集,20%作为测试集。具体的,本申请可以在开始构建预测模型之前把数据集进行划分,从而实现防止数据窥探偏误的目的。
其中,本申请中的样本训练集是用来训练模型的。而测试集是用于对学习出来的模型进行优化调整的参数,如在神经网络中选择隐藏单元数。测试集还用来确定网络结构或者控制模型复杂程度的参数。
另外,本申请还可以在构建模型的时候预先将数据进行处理,例如可以将训练集数据进行数据清洗,数据的特征缩放(标准化或者归一化),然后将其在训练集上得到的参数应用到测试集。
需要说明的是,本申请不对样本数据集的数量进行具体限定,例如可以为一类,也可以为多类。
S102,利用包含孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型。
其中,决策树模型是属于机器学习监督学习分类算法中的一种,决策树是预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。决策树算法有ID3,C4.5,CART算法,共同点为都是贪心算法,区别为度量方式不同,例如ID3使用了信息获取量作为度量方式,而C4.5使用最大增益率作为度量方式。
进一步的,本申请中可以利用妊娠期用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型。本申请可以在得到该决策树模型之后,利用随机森林算法持续性的对该决策树模型进行优化,从而得到最终的用于确定妊娠期用户妊娠状态的预测模型。
S103,通过随机森林算法持续优化训练决策树模型,得到目标预测模型。
S104,获取待检测妊娠期用户的生理特征数据,将待检测妊娠期用户的生理特征数据输入至目标预测模型,得到待检测妊娠期用户的妊娠状态分类结果。
其中,生理特征数据至少包括待检测妊娠期用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一种或多种。例如可以包括待检测妊娠期用户的年龄、性别、身高体重、就诊内容、用药情况、健康告知等信息。
进一步的,本申请可以将该生理特征数据输入至预测模型中,并将该模型生成的结果作为待检测妊娠期用户的状态妊娠分类结果。其中该状态妊娠分类结果可以对应于多个维度。本申请对此不作限定。例如可以包括基于待检测用户是否早产而确定的状态结果。
另外一种方式中,对于整理后的样本数据集可以随机分为训练集(70%)和测试集(30%),训练集用来拟合模型,测试集用来验证模型的表现。使用ROC曲线、准确率、特异度、灵敏度、AUC指标描述模型在测试集中的表现。变量重要性的确定通过去除这个变量模型降低的准确性来评估。模型的精度降低越高,变量就越重要。所有统计分析均采用R软件(3.5.1),使用“e1071”包建立朴素贝叶斯模型和支持向量模型)、使用“randomForest”建立随机森林模型、使用“kknn”包建立K-means模型。对于所有的分析,如果P值<0.05,认为有统计学意义。
本申请中,可以从产前检查数据中心调取妊娠期用户的样本数据集,并将样本数据集划分为样本训练集以及样本测试集;利用妊娠期用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本测试集持续优化训练决策树模型,得到目标预测模型后,并将待检测妊娠期用户的生理特征数据输入至目标预测模型,得到待检测妊娠期用户的状态妊娠分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户妊娠状态的目的,进而可以针对性的为用户进行相应的处理。
可选的,在本申请一种可能的实施方式中,从产前检查数据中心调取妊娠期用户的样本数据集,包括:
从产前检查数据中心调取妊娠期用户的病案信息、基础信息、体检信息、生化检测信息;
将病案信息、基础信息、体检信息、生化检测信息合并作为妊娠期用户的样本数据集。
进一步的,本申请基于产前检查数据中心,其具有样本量大、变量多、缺失数据多、数据库不规范等问题,如果不进行处理,模型无法构建,因此在构建预测模型前,需要对数据进行规范化处理。另外,样本数据可以包括妊娠期用户的病案信息、基础信息(年龄、职业等)、体格检查数据(BMI、血压等)和生化检查信息(血常规、尿常规、肝肾功能等),使用文本挖掘对大病历进行变量提取。
可选的,在本申请一种可能的实施方式中,体检信息包括标准体重指数以及血压参数,生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
其中,对于样本数据集中的数据来说,在数据收集的过程中,还可以包括人口统计学因素(如年龄)、体格检查、血液测试(红细胞、白细胞计数和血小板计数),尿液测试条带(尿液pH值,尿液)和妇科检查(细菌性阴道病(BV),阴道清洁度(CDV),阴道酵母菌感染(VYI))。
另外,对于其中的变量数据来说,选择将连续性的变量使用均数±标准差进行描述,对于分类变量使用频数和占比进行描。正态性检验使用夏皮罗维尔克检验法(Shapiro-Wilktest)进行检验,如果变量的分布符合正态性,使用t检验进行比较,如果变量不符合正态性,使用非参数检验方法进行比较。对于分类变量,使用卡方检验进行比较或者fisher确切概率法进行比较。
可选的,在本申请一种可能的实施方式中,在从产前检查数据中心调取妊娠期用户的样本数据集之后,还包括:
基于妊娠期用户的样本数据集,确定每个孕周数值以及对应的权重比;
利用每个孕周数值以及对应的权重比,并通过随机森林算法持续优化训练决策树模型,得到目标预测模型。
进一步的,为了避免模型的过拟合,模型中多次测量的变量可以根据变量的类型转换为:平均值和众数。因为与胎龄的增加和变量对结果的影响更大。一种方式中,本申请可以对于孕后期的数据给予更大的权重,公式如下:
Figure BDA0002908191970000101
其中,
Figure BDA0002908191970000102
为模型输出的结果,i代表对于的孕周数。
可选的,在本申请一种可能的实施方式中,生理特征数据包括待检测妊娠期用户的变量年龄值、镁值、宫高值、血清无机磷值、平均血小板容积值、腰围值、总胆固醇值、甲状腺球蛋白值、球蛋白值、总胆红素值的至少一种。
其中,本申请可以基于妊娠期用户不同的孕周数(例如可以为孕20、22、24、26、和27周)以及多个算法(例如包括神经网络算法、支持向量机算法、k-均值算法、逻辑回归算法和朴素贝叶斯算法等)被用来预测妊娠期用户的妊娠状态。其中,生理特征数据包括待检测妊娠期用户的变量年龄值、镁值、宫高值、血清无机磷值、平均血小板容积值、腰围值、总胆固醇值、甲状腺球蛋白值、球蛋白值、总胆红素值的至少一种。
可选的,在本申请一种可能的实施方式中,在得到待检测妊娠期用户的妊娠状态分类结果之后,还包括:
解析待检测妊娠期用户的生理特征数据,确定待检测妊娠期用户的孕周数值;
根据待检测妊娠期用户的孕周数值以及对应的权重参考比,得到待检测妊娠期用户的妊娠分类结果。
其中,生理特征数据至少包括待检测妊娠期用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一种或多种。例如可以包括待检测妊娠期用户的年龄、性别、身高体重、就诊内容、用药情况、健康告知等信息。
其中,不是可以选择基于孕妇的不同孕周数。选择为其配备不同的权重参考比。例如当孕妇周数越高时,其对应的权重参考比即可以越高,而当孕妇周数越低时,其对应的权重参考比即可以越低。
还需要说明的是,本申请中除了可以利用随机森林算法得到目标预测模型之外,还可以通过其他算法共同优化该预测模型。例如可以包括神经网络算法、支持向量机算法、k-均值算法、逻辑回归算法和朴素贝叶斯算法等等。
具体的,对于逻辑回归算法来说,是目前临床研究中使用较多的算法,对于处理二分类问题有着较大的优势,它是在传统的线性模型基础上使用激活函数(Sigmoid函数),使得预测值落在0/1的范围内,并且能够对查看对疾病的危险或者保护因素。虽然逻辑回归应用范围较为广泛,但是它是线性回归的变形,因此需要满足线性回归的一些假设,这种假设会导致逻辑回归面对共线性等问题。
另外的,对于向量机算法来说,向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。SVM算法的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,对于线性可分的数据,这样的超平面可能有很多个,但是几何间隔最大的超平面却是唯一的,SVM算法的目的就是寻找这样的几何超平面,如图2所示,其中的w*x+b=0,即为分离的超平面。
再者,对于人工神经网络算法来说,人工神经网络(Artificial NeuralNetworks,简写为ANNs)是一种模仿人脑神经元的信息处理方法,算法整体由大量节点互相连接组成,每个节点分别代表一种特定的输出函数,同时对于每一个输入信号通过学习可以获得不同的权重,类似于人类的记忆,下图描述的为最简单的神经网络模型,包含三个结构,输入层,隐藏层和输出层。其具有自学习功能、具有联想存储、高效寻找最优解等优点。
还有,朴素贝叶斯算法与绝大多数的机器学习算法不同,决策树、神经网络和支持向量机是寻找特征x和输出y之间的联系,而对于贝叶斯算法则是直接寻找x和y的联合分布,然后利用贝叶斯公式进行模型预测。朴素贝叶斯算法能够同时处理多个任务,对缺失数据不敏感等优点。
另外,对于k-means算法(k-均值聚类算法)来说,是一种基本的已知聚类类别数的划分算法。它基于距离的距离算法,如果两个样本距离相近,其相似度就越大,算法采用迭代更新的方法,每一次迭代过程都是向目标函数减小的方向进行,最终聚类结果使得目标函数取得极小值,从而可以达到较好的分类效果。
本申请中,可以从产前检查数据中心调取妊娠期用户的样本数据集,并将样本数据集划分为样本训练集以及样本测试集;利用妊娠期用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本测试集持续优化训练决策树模型,得到目标预测模型。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而实现体模型的结果具有较高的精确度和泛化性能的目的。
在本申请的另外一种实施方式中,如图2所示,本申请还提供一种用于用户妊娠状态分类的装置。其中,包括获取模块201,训练模块202,生成模块203,其中,
获取模块201,被配置为从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;
训练模块202,被配置为利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块203,被配置为通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;
所述生成模块204,被配置为获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。
本申请中,可以从产前检查数据中心调取妊娠期用户的样本数据集,并将样本数据集划分为样本训练集以及样本测试集;利用妊娠期用户的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法以及样本测试集持续优化训练决策树模型,得到目标预测模型后,并将待检测妊娠期用户的生理特征数据输入至目标预测模型,得到待检测妊娠期用户的状态妊娠分类结果。通过应用本申请的技术方案,可以通过组合以及优化决策树模型,得到Bagging类型的随机森林集成算法来为用户生成可以确定其医疗数据的目标预测模型,从而可以实现根据妊娠期用户的生理特征数据自动判断妊娠期用户妊娠状态的目的,进而可以针对性的为用户进行相应的处理。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为从所述产前检查数据中心调取妊娠期用户的病案信息、基础信息、体检信息、生化检测信息;
获取模块201,被配置为将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述妊娠期用户的样本数据集。
在本申请的另外一种实施方式中,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为基于所述妊娠期用户的样本数据集,确定每个孕周数值以及对应的权重比;
获取模块201,被配置为利用所述每个孕周数值以及对应的权重比,并通过随机森林算法持续优化训练所述决策树模型,得到所述目标预测模型。
在本申请的另外一种实施方式中,所述生理特征数据包括所述待检测妊娠期用户的变量年龄值、镁值、宫高值、血清无机磷值、平均血小板容积值、腰围值、总胆固醇值、甲状腺球蛋白值、球蛋白值、总胆红素值的至少一种。
在本申请的另外一种实施方式中,获取模块201,还包括:
获取模块201,被配置为解析所述待检测妊娠期用户的生理特征数据,确定所述待检测妊娠期用户的孕周数值;
获取模块201,被配置为根据所述待检测妊娠期用户的孕周数值以及对应的权重参考比,得到所述待检测妊娠期用户的妊娠分类结果。
图3是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述用于用户妊娠状态分类的方法,该方法包括:从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述用于用户妊娠状态分类的方法,该方法包括:从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
图3为计算机设备30的示例图。本领域技术人员可以理解,示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
存储器301可用于存储计算机可读指令303,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (9)

1.一种用于用户妊娠状态分类的方法,其特征在于,包括:
从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;
利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;
获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。
2.如权利要求1所述的方法,其特征在于,所述从产前检查数据中心调取妊娠期用户的样本数据集,包括:
从所述产前检查数据中心调取妊娠期用户的病案信息、基础信息、体检信息、生化检测信息;
将所述病案信息、基础信息、体检信息、生化检测信息合并作为所述妊娠期用户的样本数据集。
3.如权利要求2所述的方法,其特征在于,所述体检信息包括标准体重指数以及血压参数,所述生化检测信息包括血常规参数、尿常规参数以及肝肾功能参数。
4.如权利要求1所述的方法,其特征在于,在所述从产前检查数据中心调取妊娠期用户的样本数据集之后,还包括:
基于所述妊娠期用户的样本数据集,确定每个孕周数值以及对应的权重比;
利用所述每个孕周数值以及对应的权重比,并通过随机森林算法持续优化训练所述决策树模型,得到所述目标预测模型。
5.如权利要求1所述的方法,其特征在于,所述生理特征数据包括所述待检测妊娠期用户的变量年龄值、镁值、宫高值、血清无机磷值、平均血小板容积值、腰围值、总胆固醇值、甲状腺球蛋白值、球蛋白值、总胆红素值的至少一种。
6.如权利要求5所述的方法,其特征在于,在所述得到所述待检测妊娠期用户的妊娠状态分类结果之后,还包括:
解析所述待检测妊娠期用户的生理特征数据,确定所述待检测妊娠期用户的孕周数值;
根据所述待检测妊娠期用户的孕周数值以及对应的权重参考比,得到所述待检测妊娠期用户的妊娠分类结果。
7.一种用于用户妊娠状态分类的装置,其特征在于,包括:
获取模块,被配置为从产前检查数据中心调取妊娠期用户的样本数据集,所述样本数据包括所述妊娠期用户的孕周数值;
训练模块,被配置为利用包含所述孕周数值的样本训练集训练初始决策树模型,直至得到训练收敛的决策树模型;
生成模块,被配置为通过随机森林算法持续优化训练所述决策树模型,得到目标预测模型;
所述生成模块,被配置为获取待检测妊娠期用户的生理特征数据,将所述待检测妊娠期用户的生理特征数据输入至所述目标预测模型,得到所述待检测妊娠期用户的妊娠状态分类结果。
8.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-6中任一所述用于用户妊娠状态分类的方法的操作。
9.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-6中任一所述用于用户妊娠状态分类的方法的操作。
CN202110077865.8A 2021-01-20 2021-01-20 用于用户妊娠状态分类的方法、装置、电子设备及介质 Pending CN112836730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110077865.8A CN112836730A (zh) 2021-01-20 2021-01-20 用于用户妊娠状态分类的方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110077865.8A CN112836730A (zh) 2021-01-20 2021-01-20 用于用户妊娠状态分类的方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN112836730A true CN112836730A (zh) 2021-05-25

Family

ID=75929209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110077865.8A Pending CN112836730A (zh) 2021-01-20 2021-01-20 用于用户妊娠状态分类的方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN112836730A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449804A (zh) * 2021-07-09 2021-09-28 曲阜师范大学 血液类别的确定方法及相关设备
CN116246777A (zh) * 2023-04-24 2023-06-09 山东工业职业学院 一种基于社区产检数据流的妇产科信息分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN107491656A (zh) * 2017-09-04 2017-12-19 北京航空航天大学 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN110600135A (zh) * 2019-09-18 2019-12-20 东北大学 一种基于改进随机森林算法的乳腺癌预测系统
CN110996766A (zh) * 2017-07-19 2020-04-10 布鲁姆技术公司 监测子宫活动和评估早产风险
CN111312399A (zh) * 2020-02-24 2020-06-19 南京鼓楼医院 一种早期预测妊娠糖尿病模型的建立方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN110996766A (zh) * 2017-07-19 2020-04-10 布鲁姆技术公司 监测子宫活动和评估早产风险
CN107491656A (zh) * 2017-09-04 2017-12-19 北京航空航天大学 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN110600135A (zh) * 2019-09-18 2019-12-20 东北大学 一种基于改进随机森林算法的乳腺癌预测系统
CN111312399A (zh) * 2020-02-24 2020-06-19 南京鼓楼医院 一种早期预测妊娠糖尿病模型的建立方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449804A (zh) * 2021-07-09 2021-09-28 曲阜师范大学 血液类别的确定方法及相关设备
CN113449804B (zh) * 2021-07-09 2023-03-10 曲阜师范大学 血液类别的确定方法及相关设备
CN116246777A (zh) * 2023-04-24 2023-06-09 山东工业职业学院 一种基于社区产检数据流的妇产科信息分析方法
CN116246777B (zh) * 2023-04-24 2023-08-11 山东工业职业学院 一种基于社区产检数据流的妇产科信息分析方法

Similar Documents

Publication Publication Date Title
Alam et al. A model for early prediction of diabetes
Forsström et al. Artificial neural networks for decision support in clinical medicine
Gao et al. Deep learning predicts extreme preterm birth from electronic health records
Grobman et al. Prediction of uterine rupture associated with attempted vaginal birth after cesarean delivery
Jiang et al. Health big data classification using improved radial basis function neural network and nearest neighbor propagation algorithm
CN112819045A (zh) 用于用户生理状态分类的方法、装置、电子设备及介质
WO2022060949A1 (en) Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial
Włodarczyk et al. Machine learning methods for preterm birth prediction: a review
CN114464322B (zh) 女性盆底功能障碍性疾病风险预警模型及其构建方法和系统
CN112836730A (zh) 用于用户妊娠状态分类的方法、装置、电子设备及介质
Kaushik et al. Cytokine gene variants and socio-demographic characteristics as predictors of cervical cancer: A machine learning approach
Chauhan et al. Performance assessment of machine learning classifiers using selective feature approaches for cervical cancer detection
Lin et al. An application of artificial immune recognition system for prediction of diabetes following gestational diabetes
CN112052874B (zh) 一种基于生成对抗网络的生理数据分类方法及系统
Surendiran et al. A Systematic Review using Machine Learning Algorithms for Predicting Preterm Birth
Kaur et al. Diagnosis and detection of congenital diseases in new-borns or fetuses using artificial intelligence techniques: a systematic review
Idowu Classification techniques using EHG signals for detecting preterm births
Perng et al. Analysis of the 72-h mortality of emergency room septic patients based on a deep belief network
Ahadi et al. Using support vector machines in predicting and classifying factors affecting preterm delivery
Salah et al. Decision Tree based Smart System for Pregnant Women Diagnosis
Begum et al. Preterm Baby Birth Prediction using Machine Learning Techniques
Hu et al. Establishment of a model for predicting the outcome of induced labor in full-term pregnancy based on machine learning algorithm
Hang et al. Electronic medical record based machine learning methods for adverse pregnancy outcome prediction
Tarimo et al. Validating machine learning models for the prediction of labour induction intervention using routine data: a registry-based retrospective cohort study at a tertiary hospital in northern Tanzania
Włodarczyk et al. Szczepa nski

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210525