CN107491656B - 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 - Google Patents
一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 Download PDFInfo
- Publication number
- CN107491656B CN107491656B CN201710787926.3A CN201710787926A CN107491656B CN 107491656 B CN107491656 B CN 107491656B CN 201710787926 A CN201710787926 A CN 201710787926A CN 107491656 B CN107491656 B CN 107491656B
- Authority
- CN
- China
- Prior art keywords
- pregnancy
- exposure value
- health examination
- exam
- prenatal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,该方法是对国家免费孕前优生健康检查项目信息系统中的数据进行二进制的数字化处理后,然后构建得到孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,并依据Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR;选取出所述RR中最大相对危险度对应的孕前优生体检项目Examy,将Examy作为相对危险度决策树模型TR空的父节点;选取叶节点风险系数riskk作为相对危险度决策树模型TR空的叶节点;本发明应用在妊娠结局影响因子评估中有效提高了对妊娠结局影响因子及其风险系数的评估准确度,提高了孕前优生健康检查数据对于智慧城市建设的利用价值,对于促进社会和谐、可持续发展具有重要意义。
Description
技术领域
本发明涉及妊娠结局技术领域,更特别地说,是指一种基于相对危险度决策树模型的妊娠结局影响因子评估方法。
背景技术
2004年8月出版的《算法设计技巧与分析》,译者吴伟昶等,第209-211页,公开了“一个仅由分去组成的算法的通常表达是一个称为决策树的二叉树”。决策树(DecisionTree)学习是由Hunt等在1966年提出的概念学习系统CLS(即Hunt E B,Marin J,Stone PJ.Experiments in induction.[J].American Journal of Psychology,1966,80(4):17-19.)的基础上发展而来的,通过对训练集的学习,决策树可挖掘出有用规则,并用于对新集进行预测,是一种有监督的、非参数的机器学习方法。决策树学习是应用最广泛的归纳推理方法之一,因为它不但具有结构简单、计算量较小、效率高、健壮性好等特点,而且能够学习析取表达式,生成可以理解的规则,具有极强的可解释性,因此已经被成功地应用在商业、工业、天文、风险分析、社会科学和分类学等领域,取得了很好的经济和社会效益。在商业领域,主要用于贷款申请、客户关系管理、客户群体划分、客户信用积分及欺诈发现等;在工业领域,可用于故障诊断、工业生产过程控制等。决策树能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的效果。
2007年9月出版《流行病学方法与模型》,作者姜庆五等,第104-105页,公开了“相对危险度是测量某种暴露因素与疾病相关的一种指标”。它是一种衡量暴露因素与疾病之间关联强度的方法。这种方法通过计算暴露组的危险度与对照组的危险度之比,用于表示暴露因素与发病关联强度。相对危险度说明暴露人群与非暴露人群相比,相应疾病的危险增加的倍数,因此具有极强的病因学意义。在实际应用中,相对危险度值越大,表明暴露的效应越大,暴露与结局的关联强度越大。
妊娠结局(Winn H N,Hobbins J C.Clinical maternal-fetal medicine[M].Parthenon Pub.Group,2000.),是指受精事件的最终结果。目前国际上没有通用的从孕前体检数据中评估妊娠结局影响因子的指标体系,也无公认的快速有效地确定对妊娠结局产生影响的因子的风险系数的方法,无法在孕前对育龄夫妻进行全面有效个性化备孕指导。为有效指导育龄夫妻备孕工作,提高新生儿质量,我国开展了免费孕前优生健康检查项目。育龄夫妻在怀孕之前,可接受国家免费孕前优生健康检查,在国家免费孕前优生健康检查项目信息系统中留下基本信息、病史、体格检查和生殖系统专科检查、实验室及必要的影像学等辅助检查等相关信息的数据,之后通过妊娠随访对不良妊娠结局进行调查统计,记录相关信息。此举有利于实现优生优育,全面提高我国人口质量,提升家庭幸福指数和民族素质。
发明内容
为了解决在妊娠结局风险评估中医生对影响妊娠结局的各因素及其影响程度不明确、难以全面综合各项信息指标的问题,本发明提出了一种基于相对危险度决策树模型的妊娠结局影响因子评估方法。本发明方法是通过解决具有多源异构性和极高稀疏性的数据的评估技术难点,同时以当前相对危险度决策树模型改善以信息增益选取节点属性造成倾向于选择取值较多的属性的问题,使模型获得更好的性能。本发明方法应用在国家免费孕前优生健康检查项目信息系统中,有效提高了对妊娠结局影响因子及其风险系数的评估准确度,有助于从流行病学角度认知影响妊娠结局的各因素及其影响程度,提高了孕前优生健康检查数据对于智慧城市建设的利用价值,对于促进社会和谐、可持续发展具有重要意义。
本发明方法是对国家免费孕前优生健康检查项目信息系统中的数据进行二进制的数字化处理后,然后构建得到孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,并依据Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR;选取出所述RR中最大相对危险度对应的孕前优生体检项目Examy,将Examy作为相对危险度决策树模型TR空的父节点;选取叶节点风险系数riskk作为相对危险度决策树模型TR空的叶节点;得到的当前相对危险度决策树模型TR为二叉树。
本发明是一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于包括有下列步骤:
步骤A:获取预测用原始数据data;同时初始化相对危险度决策树模型TR空,执行步骤B;
步骤B:应用步骤A获取的预测用原始数据构建孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,执行步骤C;
步骤C:若孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值中妊娠结局值不全为0或1,且育龄夫妻的总对数B大于100,则根据步骤B得到的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR,执行步骤D;
步骤D:从步骤C得到的相对危险度向量RR中选取出最大相对危险度rrx,从而得到所述rrx对应的孕前优生体检项目Examy,然后将选出的孕前优生体检项目Examy填入相对危险度决策树模型TR空的父节点,执行步骤E;
从而得到相对危险度决策树模型TR空中父节点对应于所述两类育龄人群的两个分支,即决策树左枝Branch左和决策树右枝Branch右,执行步骤F;
步骤G:根据步骤C中的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值计算叶子节点集的妊娠结局风险系数向量Risk;并将所述Risk作为相对危险度决策树模型TR空中的叶子节点,然后向用户输出当前相对危险度决策树模型TR。
本发明妊娠结局影响因子评估方法的优点在于:
①本发明方法中应用相对危险度与决策树(即二叉树)两种方法的结合,充分考虑了医学健康体检数据的多源异构性。
②本发明利用决策树方法,具有极强的可解释性,可以有效辨别对妊娠结局有较大影响的因素,有助于从病因学上发现与妊娠结局具有强关联关系的因子,从而有效指导育龄人群备孕及妊娠过程。
③本发明方法中使用相对危险度作为选取决策树节点属性的依据,改善了现有决策树方法中由于使用信息增益选取节点属性造成倾向于选择取值较多的属性的问题,提高了对妊娠结局影响因子评估结果的鲁棒性。
附图说明
图1是本发明一种基于相对危险度决策树模型的妊娠结局影响因子评估方法的流程图。
图2是经本发明方法得到的二叉树示意图。
图3是不同方法的妊娠结局影响因子评估经本发明方法的标准误差对比图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的详细说明。
在本发明中,相对危险度决策树模型是指以相对危险度作为决策树模型中节点划分的依据。
国家免费孕前优生健康检查项目信息系统通过以下模块提供相关数据信息,即包括有:
基本信息模块,用于提供育龄夫妻自愿公开的基础信息,如年龄、地理位置、民族、文化程度、职业等相关信息;所述地理位置包括现住址、户口所在地等;而现住址及户口所在地包括省份、城市、县、乡等相关信息。
病史信息模块,用于提供育龄夫妻的病史及家族病史信息,如是否有心脏病史、糖尿病史、唐氏综合征病史等相关信息。
体格检查和生殖系统专科检查信息模块,用于提供育龄夫妻的体格与生殖系统健康信息,如身高、体重、四肢、面容、性器官发育等相关信息。
实验室及必要的影像学等辅助检查信息模块,用于提供育龄夫妻的实验室化验信息,如血糖、血压、尿检、乙肝检测等相关信息。
妊娠结局信息模块,用于提供育龄夫妻的妊娠结局信息,如是否早产、是否分娩低出生体重儿等相关信息。
在本发明中,将国家免费孕前优生健康检查项目信息系统提供的相关数据信息采用二进制处理后,得到用于进行妊娠结局影响因子f(Exama)评估所需的预测用原始数据data,即data=(Em,Cp,Q),Em为孕前优生健康检查集,Cp为育龄人群集,Q为暴露值。
参见图1所示,本发明提出了一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,该评估方法包括有下列处理步骤:
步骤A:获取预测用原始数据data;同时初始化相对危险度决策树模型TR空,执行步骤B;
步骤B:应用步骤A获取的预测用原始数据构建孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,执行步骤C;
步骤C:若孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值中妊娠结局值不全为0或1,且育龄夫妻的总对数B大于100,则根据步骤B得到的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR,执行步骤D;
步骤D:从步骤C得到的相对危险度向量RR中选取出最大相对危险度rrx,从而得到所述rrx对应的孕前优生体检项目Examy,然后将选出的孕前优生体检项目Examy填入相对危险度决策树模型TR空的父节点,执行步骤E;
第二类育龄人群Cp右,孕前优生健康检查项目的暴露值为1,即
从而得到相对危险度决策树模型TR空中父节点对应于所述两类育龄人群的两个分支,即决策树左枝Branch左和决策树右枝Branch右,执行步骤F;
步骤G:根据步骤C中的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值计算叶子节点集的妊娠结局风险系数向量Risk;并将所述Risk作为相对危险度决策树模型TR空中的叶子节点,然后向用户输出当前相对危险度决策树模型TR;
步骤A:获取预测用原始数据data;同时初始化相对危险度决策树模型TR空,执行步骤B;
在本发明中,为了表征孕前优生健康检查信息与育龄人群之间的暴露值,应用了孕前优生健康检查集Em={Exam1,Exam2,…,Exama,…,ExamA,Outcome}和育龄人群集Cp={cp1,cp2,…,cpb,…,cpB}的信息。所述孕前优生健康检查集Em包括基本信息、病史信息、体格检查和生殖系统专科检查信息、实验室及必要的影像学等辅助检查信息、妊娠结局信息等。其中,妊娠结局信息为不可缺少项。
在本发明中,孕前优生健康检查项目记为Exam,妊娠结局记为Outcome,多个孕前优生健康检查项目和妊娠结局形成的孕前优生健康检查集记为Em={Exam1,Exam2,…,Exama,…,ExamA,Outcome},角标a表示孕前优生健康检查项目的标识号,角标A表示孕前优生健康检查项目的总个数。孕前优生健康检查项目Exam的取值为0或者1,0表示检查结果正常,1表示检查结果异常。妊娠结局Outcome的取值为0或者1,0表示正常妊娠结局,1表示不良妊娠结局。
ExamA表示最后一个孕前优生健康检查项目,所述最后一个孕前优生健康检查项目ExamA的暴露值,记为且的取值为0或1,即例如,ExamA表征的是血糖值状况,则血糖值大于等于7mmol/L记为而血糖值小于7mmol/L记为
Outcome表示妊娠结局,所述妊娠结局Outcome的暴露值,记为QOutcome,且QOutcome的取值为0或1,即QOutcome∈[0,1]。
在本发明中,育龄夫妻记为cp,多个育龄夫妻形成的育龄人群集记为Cp={cp1,cp2,…,cpb,…,cpB},角标b表示育龄夫妻的标识号,角标B表示育龄夫妻的总对数。cp1表示第一对育龄夫妻。cp2表示第二对育龄夫妻。cpb表示任意一对育龄夫妻。cpB表示最后一对育龄夫妻。
在本发明中,将所述孕前优生健康检查项目Exam与所述育龄夫妻cp表达的二进制[0,1]称为育龄人群暴露值信息Dis。
本发明的预测用原始数据data,即data=(Em,Cp,Q),Em为孕前优生健康检查集,Cp为育龄人群集,Q为暴露值。
本发明的相对危险度决策树模型TR空为二叉树,所述相对危险度决策树模型TR空的图形结构请参考2004年8月出版的《算法设计技巧与分析》,吴伟昶等译,第209-211页。在本发明中,对预测用原始数据data进行排序时,每个内部顶点表示一个孕前优生健康检查项Exam,每个叶子表示一个妊娠结局影响因子f(Exama)的风险系数输出。
步骤B:应用步骤A获取的预测用原始数据构建孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,执行步骤C;
在本发明中,孕前优生健康检查项目Exam与育龄人群暴露值信息Dis以二维矩阵形式来进行关联数据信息的收集,采用矩阵形式构建得到孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值,即:其中b表示育龄夫妻的标识号,B表示育龄夫妻的总对数,a表示孕前优生健康检查项目的标识号,A表示孕前优生健康检查项目的总个数,在本发明中B的取值为1542048,A的取值为317。
表示cp1与Exam1之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp1是否在孕前优生健康检查项目Exam1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp1与Exam2之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp1是否在孕前优生健康检查项目Exam2中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp1与Exama之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp1是否在孕前优生健康检查项目Exama中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp1与ExamA之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp1是否在孕前优生健康检查项目ExamA中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp2与Exam1之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp2是否在孕前优生健康检查项目Exam1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp2与Exam2之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp2是否在孕前优生健康检查项目Exam2中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp2与Exama之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp2是否在孕前优生健康检查项目Exama中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp2与ExamA之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cp2是否在孕前优生健康检查项目ExamA中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpb与Exam1之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpb是否在孕前优生健康检查项目Exam1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpb与Exam2之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpb是否在孕前优生健康检查项目Exam2中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpb与Exama之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpb是否在孕前优生健康检查项目Exama中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpb与ExamA之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpb是否在孕前优生健康检查项目ExamA中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpB与Exam1之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpB是否在孕前优生健康检查项目Exam1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpB与Exam2之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpB是否在孕前优生健康检查项目Exam2中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpB与Exama之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpB是否在孕前优生健康检查项目Exama中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cpB与ExamA之间映射的暴露—映射值;所述的计算关系为:判断育龄夫妻cpB是否在孕前优生健康检查项目ExamA中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示cp1与Outcome之间映射的妊娠结局值;所述的计算关系为:判断育龄夫妻cp1的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示cp2与Outcome之间映射的妊娠结局值;所述的计算关系为:判断育龄夫妻cp2的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示cpb与Outcome之间映射的妊娠结局值;所述的计算关系为:判断育龄夫妻cpb的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示cpB与Outcome之间映射的妊娠结局值;所述的计算关系为:判断育龄夫妻cpB的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
步骤C:若孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值中妊娠结局值不全为0或1,且育龄夫妻的总对数B大于100,则根据步骤B得到的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR,执行步骤D;
在本发明中,相对危险度向量记为RR=[rr1,rr2,…,rrc,…,rrC]。其中c表示相对危险度的标识号,C表示相对危险度的总个数。在本发明中,相对危险度rrc与孕前优生健康检查项目Exama是一一对应关系,相对危险度的总个数C与孕前优生健康检查项目的总个数A必须严格相等,C的取值为317,A的取值为317。
步骤D:从步骤C得到的相对危险度向量RR中选取出最大相对危险度rrx,从而得到所述rrx对应的孕前优生体检项目Examy,然后将选出的孕前优生体检项目Examy填入相对危险度决策树模型TR空中,并作为所述TR空决策树的父节点,执行步骤E;
从相对危险度向量RR=[rr1,rr2,…,rrc,…,rrC]中选取出最大相对危险度记为rrx,且rrx=max{rrc,rrc∈RR};同时也选取出所述rrx对应的孕前优生健康检查项目,记为Examy,Examy∈Em。其中c表示相对危险度的标识号。rrc表示任意一个属于相对危险度向量RR的相对危险度,角标x为最大相对危险度的标记号,角标y为与最大相对危险度相对应的孕前优生健康检查项目的标记号,且x=y。将Examy填入相对危险度决策树模型TR空中,并作为父节点,如图2所示。
第一类育龄人群Cp左,孕前优生健康检查项目的暴露值为0,即
从而得到相对危险度决策树模型TR空中父节点对应于所述两类育龄人群的两个分支,即决策树左枝Branch左和决策树右枝Branch右,执行步骤F;
在本发明中,由于经步骤D处理后,相对危险度决策树模型TR空中存在有父节点(如图2所示),通过所述的取值,分为了以二叉树为决策树的两个分支,即决策树左枝Branch左和决策树右枝Branch右。所述决策树左枝Branch左和决策树右枝Branch右则为TR空中的叶节点(如图2所示)。通过父节点中孕前优生健康检查项目Examy的暴露值,对于取值为0的记为第一类育龄人群通过父节点中孕前优生健康检查项目Examy的暴露值,对于取值为1的记为第二类育龄人群且Cp左∈Cp,Cp右∈Cp。其中,角标左b表示第一类育龄人群中育龄夫妻的标识号,左B表示第一类育龄人群中育龄夫妻的总对数。角标右b表示第二类育龄人群中育龄夫妻的标识号,右B表示第二类育龄人群中育龄夫妻的总对数。由于第一类育龄人群和第二类育龄人群是育龄人群集Cp={cp1,cp2,…,cpb,…,cpB}的子集,且与中的元素不重复。
表示第一类育龄人群中的最后一对育龄夫妻。
通过步骤E的第二类育龄人群Cp右与属于所述Cp右中的人群对应的孕前优生健康检查项目暴露值,得到右—育龄人群暴露值矩阵返回步骤C;
在本发明中,左—育龄人群暴露值矩阵记为:
在本发明中,右—育龄人群暴露值矩阵记为:
其中角标y为与最大相对危险度相对应的孕前优生健康检查项目的标记号,y≤A。角标y-1为与最大相对危险度相对应的孕前优生健康检查项目Examy之前一个孕前优生健康检查项目Examy-1的标记号,角标y+1为与最大相对危险度相对应的孕前优生健康检查项目Examy之后一个孕前优生健康检查项目Examy+1的标记号。
表示与Examy-1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的左暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Outcome之间映射的左—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的左—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的左—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的左—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy-1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy-1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Examy+1之间映射的右暴露—映射值;所述的计算关系为:判断育龄夫妻是否在孕前优生健康检查项目Examy+1中被诊断为异常(即),是,则在Pg暴露值中记录为1;否(即),则在Pg暴露值中记录为0。
表示与Outcome之间映射的右—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的右—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的右—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
表示与Outcome之间映射的右—妊娠结局值;所述的计算关系为:判断育龄夫妻的妊娠结局Outcome是否被诊断为异常(即QOutcome=1),是,则在Pg暴露值中记录为1;否(即QOutcome=0),则在Pg暴露值中记录为0。
步骤G:根据步骤C中的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值计算叶子节点集的妊娠结局风险系数向量Risk;并将所述Risk作为相对危险度决策树模型TR空中的叶子节点,然后向用户输出当前相对危险度决策树模型TR;
在本发明中,输出的当前相对危险度决策树模型记为TR,所述模型TR为二叉树,叶子节点集记为Leaf=[lf1,lf2,…,lfm,…,lfM],叶子节点集的妊娠结局影响因子f(Exama)风险系数向量记为Risk=[risk1,risk2,…,riskk,…,riskK]。
在本发明中,相对危险度决策树标准误差模型记为b表示育龄夫妻的标识号,B表示育龄夫妻的总对数,k表示叶子节点妊娠结局影响因子f(Examk)风险系数的标识号,K表示叶子节点妊娠结局影响因子风险系数的总个数。
计算预测标准误差模型RMSE妊娠结局_误差的输出作为本发明方法准确度的评判标准。
在本发明中,叶子节点集Leaf=[lf1,lf2,…,lfm,…,lfM]和叶子节点集的妊娠结局影响因子f(Exama)风险系数向量Risk=[risk1,risk2,…,riskk,…,riskK]中,m表示叶子节点的标识号,M表示叶子节点的总个数,k表示叶子节点妊娠结局影响因子f(Examk)风险系数的标识号,K表示叶子节点妊娠结局影响因子风险系数的总个数。在本发明中,lfm与riskk是一一对应关系,M与K应严格相等。M与K的取值应小于等于2A。在本发明中,M的取值为1048576,K的取值为1048576,角标A表示孕前优生健康检查项目的总个数,A的取值为317。
lf1表示第一个叶子节点。lf2表示第二个叶子节点。lfm表示任意一个叶子节点。lfM表示最后一个叶子节点。
riskK表示最后一个叶子节点的妊娠结局影响因子f(ExamK)风险系数(简称最后一个叶节点风险系数),计算公式为
实施例1
若孕前优生健康检查项目总数为317个(即A=317),育龄夫妻对数为1542048对(即B=1542048)。
若划分在训练集中的育龄夫妻对数为1233638对,测试集有育龄夫妻对数为308410对。
在国家免费孕前优生健康检查项目信息系统中,将实施例1列举的孕前优生健康检查项目317个、育龄夫妻1233638对构建Pg暴露值,然后采用本发明方法得到TR,再把测试集育龄夫妻308410对输入到TR中,利用
得到实施例1的误差。
如图3所示,经“ID3”、“CART4.5”和“本发明”三种方法的标准误差对比可见,本发明得到的误差最小,说明本发明的方法比“ID3”、“CART4.5”两种方法的评估准确度高。
“ID3”方法请参考《机器学习》周志华,2016年,第75-77页中。
“CART4.5”方法请参考《机器学习》周志华,2016年,第79页中。
Claims (8)
1.一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于包括有下列步骤:
步骤A:获取预测用原始数据data;同时初始化相对危险度决策树模型TR空,执行步骤B;
步骤B:应用步骤A获取的预测用原始数据构建孕前优生健康检查—育龄人群暴露值多维输入矩阵Pg暴露值,执行步骤C;
步骤C:若孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值中妊娠结局值不全为0或1,且育龄夫妻的总对数B大于100,则根据步骤B得到的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值构建适用于时空多维度条件下的相对危险度向量RR,执行步骤D;
步骤D:从步骤C得到的相对危险度向量RR中选取出最大相对危险度rrx,从而得到所述rrx对应的孕前优生体检项目Examy,然后将选出的孕前优生体检项目Examy填入相对危险度决策树模型TR空的父节点,执行步骤E;
步骤E:依据步骤D的父节点中孕前优生健康检查项目的暴露值将育龄人群分为两类,即:
第一类育龄人群Cp左,孕前优生健康检查项目的暴露值为0,即
从而得到相对危险度决策树模型TR空中父节点对应于所述两类育龄人群的两个分支,即决策树左枝Branch左和决策树右枝Branch右,执行步骤F;
通过步骤E的第二类育龄人群Cp右与属于所述Cp右中的人群对应的孕前优生健康检查项目暴露值,得到右—育龄人群暴露值矩阵返回步骤C;
步骤G:根据步骤C中的孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值计算叶子节点集的妊娠结局风险系数向量Risk;并将所述Risk作为相对危险度决策树模型TR空中的叶子节点,然后向用户输出当前相对危险度决策树模型TR;
其中,b表示育龄夫妻的标识号;角标x为最大相对危险度的标记号,角标y为与最大相对危险度相对应的孕前优生健康检查项目的标记号,且x=y。
2.根据权利要求1所述的一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于:预测用原始数据data为国家免费孕前优生健康检查项目信息系统提供。
3.根据权利要求1或2所述的一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于:步骤A中,所述育龄夫妻的孕前优生健康检查项目Exam中的检查结果称为育龄人群暴露值信息Dis,所述育龄人群暴露值信息Dis为0或1,0表示检查结果正常,1表示检查结果异常。
4.根据权利要求3所述的一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于:步骤B中孕前优生健康检查项目Exam与育龄人群暴露值信息Dis以二维矩阵形式来进行关联数据信息的收集,采用矩阵形式构建得到孕前优生健康检查—育龄人群暴露值矩阵Pg暴露值,即:
其中,b表示育龄夫妻的标识号,B表示育龄夫妻的总对数,a表示孕前优生健康检查项目的标识号,A表示孕前优生健康检查项目的总个数。
5.根据权利要求1或2所述的一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于:步骤D中,从相对危险度向量RR=[rr1,rr2,…,rrc,…,rrC]中选取出最大相对危险度记为rrx,且rrx=max{rrc,rrc∈RR};同时也选取出所述rrx对应的孕前优生健康检查项目,记为Examy,Examy∈Em,其中c表示相对危险度的标识号,rrc表示任意一个属于相对危险度向量RR的相对危险度,角标x为最大相对危险度的标记号,角标y为与最大相对危险度相对应的孕前优生健康检查项目的标记号,且x=y;
其中,Em为孕前优生健康检查集。
7.根据权利要求1或2所述的一种基于相对危险度决策树模型的妊娠结局影响因子评估方法,其特征在于:步骤G中,输出的当前相对危险度决策树模型记为TR,所述模型TR为二叉树,叶子节点集记为Leaf=[lf1,lf2,…,lfm,…,lfM],叶子节点集的妊娠结局影响因子f(Exama)所影响的妊娠结局风险系数向量记为Risk=[risk1,risk2,…,riskk,…,riskK];M表示叶子节点的总个数,K表示叶子节点妊娠结局影响因子风险系数的总个数,M与K的取值应小于等于2A;
其中,角标a表示孕前优生健康检查项目的标识号,角标A表示孕前优生健康检查项目的总个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710787926.3A CN107491656B (zh) | 2017-09-04 | 2017-09-04 | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710787926.3A CN107491656B (zh) | 2017-09-04 | 2017-09-04 | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491656A CN107491656A (zh) | 2017-12-19 |
CN107491656B true CN107491656B (zh) | 2020-01-14 |
Family
ID=60651390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710787926.3A Active CN107491656B (zh) | 2017-09-04 | 2017-09-04 | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491656B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147949A (zh) * | 2018-08-16 | 2019-01-04 | 辽宁大学 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
CN114254850A (zh) * | 2020-09-25 | 2022-03-29 | 合肥京东方显示技术有限公司 | 产品不良的影响因素的评估方法及系统 |
CN112331340B (zh) * | 2020-10-14 | 2021-11-23 | 国家卫生健康委科学技术研究所 | 育龄夫妇妊娠概率的智能预测方法及系统 |
CN112836730A (zh) * | 2021-01-20 | 2021-05-25 | 国家卫生健康委科学技术研究所 | 用于用户妊娠状态分类的方法、装置、电子设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200828169A (en) * | 2006-12-28 | 2008-07-01 | Atomic Energy Council | Calculator of human reliability index standard process |
WO2008080126A2 (en) * | 2006-12-22 | 2008-07-03 | Aviir, Inc. | Two biomarkers for diagnosis and monitoring of atherosclerotic cardiovascular disease |
CN102930163A (zh) * | 2012-11-01 | 2013-02-13 | 北京理工大学 | 一种2型糖尿病风险状态判定方法 |
CN103198211A (zh) * | 2013-03-08 | 2013-07-10 | 北京理工大学 | 2型糖尿病发病危险因素对血糖影响的定量分析方法 |
CN105473741A (zh) * | 2013-06-21 | 2016-04-06 | 塞昆纳姆股份有限公司 | 用于遗传变异的非侵入性评估的方法和过程 |
WO2016112337A1 (en) * | 2015-01-09 | 2016-07-14 | Global Genomics Group, LLC | Blood based biomarkers for diagnosing atherosclerotic coronary artery disease |
WO2016198749A1 (en) * | 2015-06-12 | 2016-12-15 | Turun Yliopisto | Diagnostic biomarkers, clinical variables, and techniques for selecting and using them |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7133856B2 (en) * | 2002-05-17 | 2006-11-07 | The Board Of Trustees Of The Leland Stanford Junior University | Binary tree for complex supervised learning |
-
2017
- 2017-09-04 CN CN201710787926.3A patent/CN107491656B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008080126A2 (en) * | 2006-12-22 | 2008-07-03 | Aviir, Inc. | Two biomarkers for diagnosis and monitoring of atherosclerotic cardiovascular disease |
TW200828169A (en) * | 2006-12-28 | 2008-07-01 | Atomic Energy Council | Calculator of human reliability index standard process |
CN102930163A (zh) * | 2012-11-01 | 2013-02-13 | 北京理工大学 | 一种2型糖尿病风险状态判定方法 |
CN103198211A (zh) * | 2013-03-08 | 2013-07-10 | 北京理工大学 | 2型糖尿病发病危险因素对血糖影响的定量分析方法 |
CN105473741A (zh) * | 2013-06-21 | 2016-04-06 | 塞昆纳姆股份有限公司 | 用于遗传变异的非侵入性评估的方法和过程 |
WO2016112337A1 (en) * | 2015-01-09 | 2016-07-14 | Global Genomics Group, LLC | Blood based biomarkers for diagnosing atherosclerotic coronary artery disease |
WO2016198749A1 (en) * | 2015-06-12 | 2016-12-15 | Turun Yliopisto | Diagnostic biomarkers, clinical variables, and techniques for selecting and using them |
Also Published As
Publication number | Publication date |
---|---|
CN107491656A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491656B (zh) | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 | |
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
WO2016192612A1 (zh) | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 | |
CN110503635B (zh) | 一种基于异构数据融合网络的手骨x光片骨龄评估方法 | |
CN105868526B (zh) | 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 | |
WO2022166158A1 (zh) | 一种基于卷积生存网络的血透并发症长期风险预测系统 | |
CN111862075A (zh) | 一种基于深度学习的肺部图像分析系统及其分析方法 | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
CN113610118A (zh) | 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质 | |
CN115171871A (zh) | 一种基于知识图谱与注意力机制的心血管疾病预测方法 | |
CN116306783A (zh) | 基于lstm-dcgan模型的fhr数据增强方法 | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
Dinu et al. | Addressing parameter choice issues in unsupervised domain adaptation by aggregation | |
Liang et al. | FCF: Feature complement fusion network for detecting COVID-19 through CT scan images | |
CN114820450A (zh) | 适宜李氏人工肝治疗的ct血管造影图像分类方法 | |
Liu et al. | AHU-MultiNet: Adaptive loss balancing based on homoscedastic uncertainty in multi-task medical image segmentation network | |
WO2024027438A1 (zh) | 一种基于个性化状态空间进展模型的疾病辅助决策系统 | |
CN116759076A (zh) | 一种基于医疗影像的无监督疾病诊断方法及系统 | |
CN114141360A (zh) | 基于惩罚cox回归的乳腺癌预测方法 | |
CN112489038A (zh) | 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法 | |
CN112633358A (zh) | 基于语义级特征学习蒸汽发生器给水系统诊断方法及系统 | |
Xia et al. | Expanded Mask R-CNN's Retinal Edema Detection Network | |
Pan et al. | BAW: learning from class imbalance and noisy labels with batch adaptation weighted loss | |
Xie et al. | An effective and efficient framework of content-based similarity retrieval of large CT image sequences based on WSLEN model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100191 Haidian District, Xueyuan Road, No. 37, Applicant after: Beihang University Applicant after: Institute of Science and Technology, National Health Commission Address before: 100191 Haidian District, Xueyuan Road, No. 37, Applicant before: Beihang University Applicant before: SCIENCE TECHNOLOGY RESEARCH INSTITUTE OF NATIONAL HEALTH AND FAMILY PLANNING COMMISSION OF THE PEOPLE'S REPUBLICK OF CHINA |
|
GR01 | Patent grant | ||
GR01 | Patent grant |