CN112635074A - 一种基于多数据分析模型的艾滋病防治决策方法 - Google Patents

一种基于多数据分析模型的艾滋病防治决策方法 Download PDF

Info

Publication number
CN112635074A
CN112635074A CN202011515344.8A CN202011515344A CN112635074A CN 112635074 A CN112635074 A CN 112635074A CN 202011515344 A CN202011515344 A CN 202011515344A CN 112635074 A CN112635074 A CN 112635074A
Authority
CN
China
Prior art keywords
data
treatment
decision
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011515344.8A
Other languages
English (en)
Inventor
施玉华
韩瑜
贾曼红
马艳玲
徐诺雅
霍俊丽
杨志敏
安晓静
张小波
余惠芬
罗红兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUNNAN PROVINCIAL CENTER FOR DISEASE CONTROL AND PREVENTION
Original Assignee
YUNNAN PROVINCIAL CENTER FOR DISEASE CONTROL AND PREVENTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUNNAN PROVINCIAL CENTER FOR DISEASE CONTROL AND PREVENTION filed Critical YUNNAN PROVINCIAL CENTER FOR DISEASE CONTROL AND PREVENTION
Priority to CN202011515344.8A priority Critical patent/CN112635074A/zh
Publication of CN112635074A publication Critical patent/CN112635074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多数据分析模型的艾滋病防治决策方法,该防治决策方法具体步骤如下:步骤一:建立基础数据收集模型;步骤二:对步骤一中收集到的基础数据应用统计学中的描述统计,并根据相应指标构建分析统计模型,得到描述性图表;步骤三:对步骤二中的描述性图表进行监控,选择描述性图表中所包含不同类别的属性的特征信息,形成特征分类集合;步骤四:采用决策树算法对特征分类集合进行决策树构建,并根据特征评估标准,从上至下递归地生成子节点,得到辅助决策措施;该防治决策方法为艾滋病防治工作提供辅助依据,同时对艾滋病的防治进行针对性的跟进,有的放矢,有利于更好的实现艾滋病防治的目标。

Description

一种基于多数据分析模型的艾滋病防治决策方法
技术领域
本发明涉及艾滋病病毒感染者和病人综合管理工作领域,具体为一种基于多数据分析模型的艾滋病防治决策方法。
背景技术
数据分析是艾滋病病毒感染者和病人综合管理工作的重要组成部分,目前,大部分艾滋病随访责任人每个月均要对感染者和病人综合管理进展采用手工计算方式进行,并整理CD4未检测、配偶未检测、结核病未检查名单等数据库用于指导工作,该项工作所需时间较长,同时基层随访责任人承担工作较多,不能及时对辖区内相关数据及时分析,导致艾滋病防治工作的开展进度较缓。
现有的基于多数据分析模型的艾滋病防治决策方法,对感染者和病人综合管理进展均采用手工计算方式进行,该方法工作所需时间较长,同时基层随访责任人承担工作较多,不能及时对辖区内相关数据及时分析,导致艾滋病防治工作的开展进度较缓,为此,我们提出一种基于多数据分析模型的艾滋病防治决策方法。
发明内容
本发明的目的在于提供一种基于多数据分析模型的艾滋病防治决策方法,以解决上述背景技术中提出的现有的基于多数据分析模型的艾滋病防治决策方法,对感染者和病人综合管理进展均采用手工计算方式进行,该方法工作所需时间较长,同时基层随访责任人承担工作较多,不能及时对辖区内相关数据及时分析,导致艾滋病防治工作的开展进度较缓的问题。
为实现上述目的,本发明提供如下技术方案:一种基于多数据分析模型的艾滋病防治决策方法,该防治决策方法具体步骤如下:
步骤一:建立基础数据收集模型,用于对艾滋病病人基础数据进行收集;
步骤二:对步骤一中收集到的基础数据应用统计学中的描述统计,计算出相应指标,并根据相应指标构建个案流调、PITC、治疗转介和三类人群ART进展数据的分析统计模型,得到病人数据、个案流调数据、PITC信息、治疗转介信息和三类人群ART进展数据的描述性图表;
步骤三:对步骤二中的描述性图表进行监控,选择描述性图表中所包含不同类别的属性的特征信息,形成特征分类集合;
步骤四:采用决策树算法对特征分类集合进行决策树构建,并根据特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长,得到辅助决策措施。
优选的,所述基础数据包括人员信息、家庭住址、感染途径、是否收监和是否存活;所述描述性图表的表现形式包括直方图、折线图和饼状图;所述相应指标包括平均值、算术和、均值、众数、方差、标准差、最大值和最小值;所述特征信息包括CD4检测、个案流调、治疗转介、抗病毒治疗及PITC艾滋病检测咨询服务;所述辅助决策措施包括固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警、治疗提醒、随访提醒、配偶阳转提醒、死亡提醒、羁押释放提醒等指标预警和消息推送;所述决策树具体为单模型数据或多模型数据之间的决策树。
优选的,步骤二所述应用统计学中的描述统计,计算出相应指标的具体步骤如下:
(1)均值计算:通过均值计算,统计出不同的分类指标,其中,均值计算公式如下:
Figure BDA0002849270170000021
由此得出:在当前环境下,各分类指标的观测值相对集中较多的中心位置,以此
Figure BDA0002849270170000031
均值,可以观察出各地区的治疗情况,并进一步分析指标低下的原因;
(2)方差和标准差计算:基于(1)中的均值公式,计算方差,统计指标数据的偏离程度,其中方差和标准差计算公式如下:
方差:
Figure BDA0002849270170000032
标准差:
Figure BDA0002849270170000033
由此得出:方差s2越小,表示指标数据偏离程度越小;表明该地区的CD4监测率波动较大,分析原因,可能为HIV传播率较大;同时利用计算的方差求出标准差,以标准差决定直方图、折线图的坐标区间,使数据展示图更为清晰;
(3)众数查找:是指在统计分布上具有明显集中趋势点的数值,即出现次数最多的值;该方法使用二叉搜索树算法,找出出现频率最高的数据,步骤如下:
①遍历二叉树,用哈希表来计数;
②进行中序遍历后的序列是有序序列,在中序遍历时求众数;
(4)最大值和最小值查找:
通过顺序查找算法,查找出不同地区或不同时段内的最大值和最小值,分析在区域或时段维度的工作情况指标数据。
优选的,所述特征分类集合包括将个案流调形成确诊、感染、正常的诊断信息特征分类集合、划分个案流调率区间,根据不同区间值形成个案流调率特征分类集合、按转介信息形成转介、脱失、入组人员信息及脱失、未转介、未入组的特征分类集合以及根据ART进展情况形成治疗与未治疗的特征分类集合。
优选的,所述决策树算法思路如下:
S1:从根节点开始,按照训练数据的每个特征进行计算,根据每个特征的不确定性将训练数据分配到其子节点(分支),沿着该分支可能达到叶子节点或者到达另一个内部节点;
S2:对剩余的特征递归执行下去,直到抵达一个叶子节点;当都到达叶子节点时,即得到决策树。
优选的,所述决策树中利用类别熵(H(c))以及特征条件熵(H(c|x)),同时在此基础上计算信息增益(G(x)),在建立决策树的过程中,一个特征的信息增益越大,表明特征对样本的熵减少的能力越强,这个特征使得数据由不确定性变成确定性的能力越强;在多个类别的情况下,比较不同类别的信息增益,取信息增益值最大的类别作为根节点进行分裂,生成决策树;其公式如下:
Figure BDA0002849270170000041
G(x)=H(c)-H(c|x) (2)。
优选的,所述决策树的生成包括以下步骤:
SS1:特征选择:特征选择是指从训练数据的特征中选择一个特征作为当前节点的分裂点;
SS2:训练数据集:该数据集是不同特征分类集合中的某一个特征与另一个或多个特征分类集合其中一个特征所形成的集合,其中,所形成的每条数据集都对应一个决策依据,形成的决策依据用于对病人和医务人员进行未治疗提醒;根据训练的样本数据集形成的决策依据,用于为决策树的学习提供模板;
SS3:生成决策树:根据选择的特征评估标准,从上至下递归地生成子节点,将进一步进行决策树的完善,用同样的方式,针对剩余的三个纬度进行计算,直到数据集不可分则停止决策树生长。
优选的,所述分裂点包括ART进展情况形成治疗和未治疗的特征分类集合;所述决策依据包括PITC诊断信息特征分类集合中的确诊特征+转介信息特征集合中的入组特征+ART进展特征中的未治疗。
与现有技术相比,本发明的有益效果是:该基于多数据分析模型的艾滋病防治决策方法提出一种针对综合管理乡镇数据自动计算、统计分析、个案流调数据分析统计、PITC数据计算分析统计、抗病毒治疗转介信息的管理及统计分析、三类人群数据计算及统计分析、数据质量控制、其它报表及定时提醒信息推送等艾滋病防治所需工作的辅助决策方法,其中辅助决策措施包括固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警、治疗提醒、随访提醒、配偶阳转提醒、死亡提醒、羁押释放提醒等指标预警和消息推送,从而实现了艾滋病感染者和病人综合管理相关指标的自动计算,进而有利于及时为随访责任人提供数据分析服务,并且有效控制了传染源,减少了新感染;
该基于多数据分析模型的艾滋病防治决策方法由基础数据收集模型、应用统计学中的描述统计建立的个案流调数据统计分析模型、PITC信息统计分析模型、治疗转介信息统计分析模型、三类人群ART进展数据统计分析模型、基于决策树的艾滋病病人及医务工作者的信息预警与提醒方法组成;通过多数据分析模型得到艾滋病病毒感染者和病人的基础信息、转介信息、抗病毒治疗信息及医务人员在医疗服务中主动为就诊者提供艾滋病检测咨询服务的信息,并采用决策算法为艾滋病防治工作提供辅助决策的依据,从而有利于对艾滋病防治工作进行有针对性的跟进,以及有利于更好的实现艾滋病防治的总目标。
附图说明
图1是本发明整体结构示意图;
图2是本发明决策树算法的流程图;
图3是本发明决策树的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种基于多数据分析模型的艾滋病防治决策方法,该防治决策方法具体步骤如下:
步骤一:建立基础数据收集模型,用于对艾滋病病人基础数据进行收集;
步骤二:对步骤一中收集到的基础数据应用统计学中的描述统计,计算出相应指标,并根据相应指标构建个案流调、PITC、治疗转介和三类人群ART进展数据的分析统计模型,得到病人数据、个案流调数据、PITC信息、治疗转介信息和三类人群ART进展数据的描述性图表;
步骤三:对步骤二中的描述性图表进行监控,选择描述性图表中所包含不同类别的属性的特征信息,形成特征分类集合;
步骤四:采用决策树算法对特征分类集合进行决策树构建,并根据特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长,得到辅助决策措施。
基础数据包括人员信息、家庭住址、感染途径、是否收监和是否存活;描述性图表的表现形式包括直方图、折线图和饼状图;相应指标包括平均值、算术和、均值、众数、方差、标准差、最大值和最小值;特征信息包括CD4检测、个案流调、治疗转介、抗病毒治疗及PITC艾滋病检测咨询服务;辅助决策措施包括固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警、治疗提醒、随访提醒、配偶阳转提醒、死亡提醒、羁押释放提醒等指标预警和消息推送;决策树具体为单模型数据或多模型数据之间的决策树。
步骤二应用统计学中的描述统计,计算出相应指标的具体步骤如下:
(1)均值计算:通过均值计算,统计出不同的分类指标,其中,均值计算公式如下:
Figure BDA0002849270170000071
由此得出:在当前环境下,各分类指标的观测值相对集中较多的中心位置,以此
Figure BDA0002849270170000072
均值,可以观察出各地区的治疗情况,并进一步分析指标低下的原因;
(2)方差和标准差计算:基于(1)中的均值公式,计算方差,统计指标数据的偏离程度,其中方差和标准差计算公式如下:
方差:
Figure BDA0002849270170000073
标准差:
Figure BDA0002849270170000074
由此得出:方差s2越小,表示指标数据偏离程度越小;表明该地区的CD4监测率波动较大,分析原因,可能为HIV传播率较大;同时利用计算的方差求出标准差,以标准差决定直方图、折线图的坐标区间,使数据展示图更为清晰;
(3)众数查找:是指在统计分布上具有明显集中趋势点的数值,即出现次数最多的值;该方法使用二叉搜索树算法,找出出现频率最高的数据,步骤如下:
①遍历二叉树,用哈希表来计数;
②进行中序遍历后的序列是有序序列,在中序遍历时求众数;
(4)最大值和最小值查找:
通过顺序查找算法,查找出不同地区或不同时段内的最大值和最小值,分析在区域或时段维度的工作情况指标数据。
特征分类集合包括将个案流调形成确诊、感染、正常的诊断信息特征分类集合、划分个案流调率区间,根据不同区间值形成个案流调率特征分类集合、按转介信息形成转介、脱失、入组人员信息及脱失、未转介、未入组的特征分类集合以及根据ART进展情况形成治疗与未治疗的特征分类集合。
决策树算法思路如下:
S1:从根节点开始,按照训练数据的每个特征进行计算,根据每个特征的不确定性将训练数据分配到其子节点(分支),沿着该分支可能达到叶子节点或者到达另一个内部节点;
S2:对剩余的特征递归执行下去,直到抵达一个叶子节点;当都到达叶子节点时,即得到决策树。
决策树中利用类别熵(H(c))以及特征条件熵(H(c|x)),同时在此基础上计算信息增益(G(x)),在建立决策树的过程中,一个特征的信息增益越大,表明特征对样本的熵减少的能力越强,这个特征使得数据由不确定性变成确定性的能力越强;在多个类别的情况下,比较不同类别的信息增益,取信息增益值最大的类别作为根节点进行分裂,生成决策树;其公式如下:
Figure BDA0002849270170000081
G(x)=H(c)-H(c|x) (2)。
决策树的生成包括以下步骤:
SS1:特征选择:特征选择是指从训练数据的特征中选择一个特征作为当前节点的分裂点;
SS2:训练数据集:该数据集是不同特征分类集合中的某一个特征与另一个或多个特征分类集合其中一个特征所形成的集合,其中,所形成的每条数据集都对应一个决策依据,形成的决策依据用于对病人和医务人员进行未治疗提醒;根据训练的样本数据集形成的决策依据,用于为决策树的学习提供模板;
SS3:生成决策树:根据选择的特征评估标准,从上至下递归地生成子节点,将进一步进行决策树的完善,用同样的方式,针对剩余的三个纬度进行计算,直到数据集不可分则停止决策树生长。
分裂点包括ART进展情况形成治疗和未治疗的特征分类集合;决策依据包括PITC诊断信息特征分类集合中的确诊特征+转介信息特征集合中的入组特征+ART进展特征中的未治疗。
工作原理:对于这类的基于多数据分析模型的艾滋病防治决策方法,第一步,建立基础数据收集模型,并利用基础数据收集模型对艾滋病病人基础数据进行收集;第二步,对收集到的基础数据应用描述统计的计算方法进行多种数据分析统计模型的构建,具体包括个案流调数据统计分析模型、PITC信息统计分析模型、治疗转介信息统计分析模型和三类人群ART进展数据统计分析模型,得到描述性图表,其描述性图表包括艾滋病感染者和病人所包含的CD4检测、个案流调、治疗转介、抗病毒治疗及PITC艾滋病检测咨询服务特征信息;第三步,对第二步中的描述性图表进行监控,选择描述性图表中所包含不同类别的属性的特征信息,形成特征分类集合;第四步,采用决策树算法对特征分类集合进行决策树构建,并根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长,得到辅助决策措施,其中辅助决策措施,包括固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警,治疗提醒、随访提醒、配偶阳转提醒,死亡提醒,羁押释放提醒等指标预警和消息推送;本发明通过已有的特征分类集合,根据固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警,治疗提醒、随访提醒、配偶阳转提醒,死亡提醒,羁押释放提醒等指标预警和消息推送等不同的决策依据和特征评估标准,提取样本数据,训练数据集,构建出不同的决策树,以决策树生成的决策依据,为责任人提供了数据分析服务,为艾滋病防治工作提供辅助决策的依据,同时对艾滋病防治工作进行有针对性的跟进,有的放矢,更好的实现艾滋病防治的目标。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于多数据分析模型的艾滋病防治决策方法,其特征在于;该防治决策方法具体步骤如下:
步骤一:建立基础数据收集模型,用于对艾滋病病人基础数据进行收集;
步骤二:对步骤一中收集到的基础数据应用统计学中的描述统计,计算出相应指标,并根据相应指标构建个案流调、PITC、治疗转介和三类人群ART进展数据的分析统计模型,得到病人数据、个案流调数据、PITC信息、治疗转介信息和三类人群ART进展数据的描述性图表;
步骤三:对步骤二中的描述性图表进行监控,选择描述性图表中所包含不同类别的属性的特征信息,形成特征分类集合;
步骤四:采用决策树算法对特征分类集合进行决策树构建,并根据特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长,得到辅助决策措施。
2.根据权利要求1所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述基础数据包括人员信息、家庭住址、感染途径、是否收监和是否存活;所述描述性图表的表现形式包括直方图、折线图和饼状图;所述相应指标包括平均值、算术和、均值、众数、方差、标准差、最大值和最小值;所述特征信息包括CD4检测、个案流调、治疗转介、抗病毒治疗及PITC艾滋病检测咨询服务;所述辅助决策措施包括固化指标数据预警、个案流调率异常预警、PITC信息异常预警、治疗转介信息异常预警、治疗提醒、随访提醒、配偶阳转提醒、死亡提醒、羁押释放提醒等指标预警和消息推送;所述决策树具体为单模型数据或多模型数据之间的决策树。
3.根据权利要求1所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:步骤二所述应用统计学中的描述统计,计算出相应指标的具体步骤如下:
(1)均值计算:通过均值计算,统计出不同的分类指标,其中,均值计算公式如下:
Figure FDA0002849270160000021
由此得出:在当前环境下,各分类指标的观测值相对集中较多的中心位置,以此
Figure FDA0002849270160000024
均值,可以观察出各地区的治疗情况,并进一步分析指标低下的原因;
(2)方差和标准差计算:基于(1)中的均值公式,计算方差,统计指标数据的偏离程度,其中方差和标准差计算公式如下:
方差:
Figure FDA0002849270160000022
标准差:
Figure FDA0002849270160000023
由此得出:方差s2越小,表示指标数据偏离程度越小;表明该地区的CD4监测率波动较大,分析原因,可能为HIV传播率较大;同时利用计算的方差求出标准差,以标准差决定直方图、折线图的坐标区间,使数据展示图更为清晰;
(3)众数查找:是指在统计分布上具有明显集中趋势点的数值,即出现次数最多的值;该方法使用二叉搜索树算法,找出出现频率最高的数据,步骤如下:
①遍历二叉树,用哈希表来计数;
②进行中序遍历后的序列是有序序列,在中序遍历时求众数;
(4)最大值和最小值查找:
通过顺序查找算法,查找出不同地区或不同时段内的最大值和最小值,分析在区域或时段维度的工作情况指标数据。
4.根据权利要求2所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述特征分类集合包括将个案流调形成确诊、感染、正常的诊断信息特征分类集合、划分个案流调率区间,根据不同区间值形成个案流调率特征分类集合、按转介信息形成转介、脱失、入组人员信息及脱失、未转介、未入组的特征分类集合以及根据ART进展情况形成治疗与未治疗的特征分类集合。
5.根据权利要求1所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述决策树算法思路如下:
S1:从根节点开始,按照训练数据的每个特征进行计算,根据每个特征的不确定性将训练数据分配到其子节点(分支),沿着该分支可能达到叶子节点或者到达另一个内部节点;
S2:对剩余的特征递归执行下去,直到抵达一个叶子节点;当都到达叶子节点时,即得到决策树。
6.根据权利要求1所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述决策树中利用类别熵(H(c))以及特征条件熵(H(c|x)),同时在此基础上计算信息增益(G(x)),在建立决策树的过程中,一个特征的信息增益越大,表明特征对样本的熵减少的能力越强,这个特征使得数据由不确定性变成确定性的能力越强;在多个类别的情况下,比较不同类别的信息增益,取信息增益值最大的类别作为根节点进行分裂,生成决策树;其公式如下:
Figure FDA0002849270160000031
G(x)=H(c)-H(c|x) (2)。
7.根据权利要求6所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述决策树的生成包括以下步骤:
SS1:特征选择:特征选择是指从训练数据的特征中选择一个特征作为当前节点的分裂点;
SS2:训练数据集:该数据集是不同特征分类集合中的某一个特征与另一个或多个特征分类集合其中一个特征所形成的集合,其中,所形成的每条数据集都对应一个决策依据,形成的决策依据用于对病人和医务人员进行未治疗提醒;根据训练的样本数据集形成的决策依据,用于为决策树的学习提供模板;
SS3:生成决策树:根据选择的特征评估标准,从上至下递归地生成子节点,将进一步进行决策树的完善,用同样的方式,针对剩余的三个纬度进行计算,直到数据集不可分则停止决策树生长。
8.根据权利要求7所述的一种基于多数据分析模型的艾滋病防治决策方法,其特征在于:所述分裂点包括ART进展情况形成治疗和未治疗的特征分类集合;所述决策依据包括PITC诊断信息特征分类集合中的确诊特征+转介信息特征集合中的入组特征+ART进展特征中的未治疗。
CN202011515344.8A 2020-12-21 2020-12-21 一种基于多数据分析模型的艾滋病防治决策方法 Pending CN112635074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011515344.8A CN112635074A (zh) 2020-12-21 2020-12-21 一种基于多数据分析模型的艾滋病防治决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011515344.8A CN112635074A (zh) 2020-12-21 2020-12-21 一种基于多数据分析模型的艾滋病防治决策方法

Publications (1)

Publication Number Publication Date
CN112635074A true CN112635074A (zh) 2021-04-09

Family

ID=75317880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011515344.8A Pending CN112635074A (zh) 2020-12-21 2020-12-21 一种基于多数据分析模型的艾滋病防治决策方法

Country Status (1)

Country Link
CN (1) CN112635074A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080161661A1 (en) * 2007-01-03 2008-07-03 Gizewski Theodore M Derma diagnostic and automated data analysis system
US20110093249A1 (en) * 2009-10-19 2011-04-21 Theranos, Inc. Integrated health data capture and analysis system
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080161661A1 (en) * 2007-01-03 2008-07-03 Gizewski Theodore M Derma diagnostic and automated data analysis system
US20110093249A1 (en) * 2009-10-19 2011-04-21 Theranos, Inc. Integrated health data capture and analysis system
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时松和;施学忠;杨永利;卢洁;平智广;: "基于数据挖掘的艾滋病综合防治居民健康档案管理信息系统设计与实现", 现代预防医学, no. 16, 25 August 2013 (2013-08-25), pages 2953 - 2957 *

Similar Documents

Publication Publication Date Title
Tripathy et al. A framework for intelligent medical diagnosis using rough set with formal concept analysis
Nahar et al. Liver disease prediction by using different decision tree techniques
Hsu et al. A new hybrid case-based architecture for medical diagnosis
CN117153431B (zh) 基于互联网的医疗服务系统及方法
Kayyum et al. Data analysis on myocardial infarction with the help of machine learning algorithms considering distinctive or non-distinctive features
CN106446560A (zh) 一种基于增量式神经网络模型的高血脂症预测方法和预测系统
CN114652311A (zh) 一种基于阶梯式护理干预的精细化护理方法及系统
CN106446552A (zh) 一种基于增量式神经网络模型的睡眠障碍预测方法和预测系统
CN114334158B (zh) 一种基于物联网的监护管理方法及系统
CN117497149A (zh) 一种基于人工智能的医院管理方法及系统
CN112635074A (zh) 一种基于多数据分析模型的艾滋病防治决策方法
CN117273411A (zh) 一种基于农业大数据管理的农业信息服务系统
CN117542540A (zh) 传染病风险预测方法、装置、电子设备及存储介质
Rhead et al. The multidimensionality of masculine norms in east Zimbabwe: implications for HIV prevention, testing and treatment
Krishnan et al. Hybrid optimization based feature selection with DenseNet model for heart disease prediction
CN116090659A (zh) 一种相似应急方案的智能化筛选方法及系统
CN115908076A (zh) 基于历史多维数据流与主动反馈的居家养老环境改进方法
Zhou Evaluation research on data processing of mental health of college students based on decision tree algorithm
CN106407693A (zh) 一种基于增量式神经网络模型的乙肝预测方法和预测系统
CN110931124A (zh) 诊断系统
Ramanan et al. Discriminative boosted Bayes networks for learning multiple cardiovascular procedures
Li et al. Research on intelligent traditional chinese medicine prescription model based on noisy-or bayesian network
CN114491078B (zh) 基于知识图谱的社区项目人员落脚点和同行人员分析方法
CN111048192B (zh) 一种基于移动终端的用于医联体内的产学研管理方法
CN106446563A (zh) 一种基于增量式神经网络模型的便秘预测方法和预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination