CN109147949A - 一种基于分类回归树来用于检测教师亚健康状态的方法 - Google Patents
一种基于分类回归树来用于检测教师亚健康状态的方法 Download PDFInfo
- Publication number
- CN109147949A CN109147949A CN201810933342.7A CN201810933342A CN109147949A CN 109147949 A CN109147949 A CN 109147949A CN 201810933342 A CN201810933342 A CN 201810933342A CN 109147949 A CN109147949 A CN 109147949A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- health
- decision
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
一种基于分类回归树来用于检测教师亚健康状态的方法,传统高校教师亚健康评估缺乏时效性、客观性、高效性。大数据环境下,利用机器学习技术能够更有效的建立亚健康评估模型,以支持高校教师亚健康状态的预测与预警。基于分类回归树来用于检测教师亚健康状态的方法首先针对高校教师亚健康影响因素进行多维分析和概念建模,其次对样本数据特征进行分析及数据预处理。在此基础上,利用分类回归树算法给出亚健康决策模型建模的详细过程,并分析评价指标。最后,利用Spark分布式计算框架给出了模型构建的并行实现。本发明提供了一种更加高效、客观且能够即时反映教师的亚健康状况,以及支持高校教师亚健康的预测与预警的方法。
Description
技术领域
本发明属于数据挖掘领域,具体涉及基于分类回归树算法构建出了一种教师亚健康决策模型,来用于检测教师的亚健康状态。
背景技术
亚健康是介于健康与疾病之间的边缘状态。教师在教学、科研繁重任务下,工作没有时间界限和空间界限。同时,家庭、生活、职称晋升、竞争等社会和家庭压力使得亚健康状况对教师群体身心健康影响很大。
传统研究方法采用自评量表和调查表的方式对教师亚健康状况及影响因素进行统计和评估。该方法往往只能从宏观角度出发,阶段性的开展调查。因此,从个体亚健康的预测预警角度,缺乏统计评估的时效性与客观性,且调查评估过程需要投入的代价较高,效率较低。大数据因其强大的预测能力,在疾病诊疗、模型建立、健康管理、基因分析等方面逐渐显示出巨大优势。大数据环境下,机器学习相关技术的广泛应用已经成为科学、健康、教育和国家安全等领域成功应用的关键因素之一。基于机器学习的教师亚健康检测方法能够根据已有大数据分析建立评估模型,并在此基础上根据影响因素基本数据满足教师个体亚健康状态的检测、评估。相比与传统方法,亚健康大数据的分析更加高效、客观,能够即时反映教师的亚健康状况,并且能够进一步支持教师亚健康的预测与预警。
决策树分类是数据挖掘中的一种分类方法。通过对已有教师数据的学习和分析提取规则,对识别指标中的属性进行量化计算。从而,为教师亚健康状态的检测提供科学、准确的评估方法体系。CART分类回归树是决策树分类方法中的一种。目前,国内外大量研究针对CART分类回归技术在健康、医疗领域进行了深入研究。既涵盖了健康疾病检测、风险评估与干预的理论方法体系研究,也包括利用分类回归树对疾病和健康的检测和预警研究。还有方法通过改进CART算法降低数据的冗余度,提高诊断及预测的精度。但尚未存在研究利用分类回归树的方法针对教师亚健康状态的检测给出完整全面的分析和建模。
发明内容
发明提供针对现有技术的不足,本发明基于分类回归树算法对教师亚健康状态的检测给出了完整全面的分析和建模。首先综合分析教师职业本身的社会压力与生活行为,充分考虑职业特性,构建一种多维度的教师多维影响因素概念模型,然后进行影响因素样本数据集的特征分析,确定条件特征及决策特征,给出了数据预处理的方法及过程,接下来利用CART算法给出了教师亚健康决策模型的构建、优化方法和过程,并进一步提出了对该算法的评价指标,最后设计了模型的构建架构,并利用Spark计算框架给出了该方法的并行实现。
为了实现上述目的,本发明创造采用的技术方案为:一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:
1)分析处理样本数据:
1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;
1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;
1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;
2)利用CART算法对亚健康决策树进行建模:
2.1)构造用于检测教师亚健康状态的决策树;
2.2)对初步构造生成的决策树模型进行剪枝算法优化;
2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:
设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;
结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:
其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;
其中recall表示召回率,FN代表被错误分类的亚健康样本数量。
综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:
推导得:
3)基于spark的并行实现:
3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;通过样本数据在Spark分布式框架下运行CART算法,计算教师亚健康评估决策树模型;最终得到的决策树;
3.2):CART算法模型在spark上的并行实现:
首先,考虑CART算法利用Gini指数计算最优分割点时,面向属性类别较多的教师多维影响因素数据集,根据属性的个数创建多个并发任务分别求解各属性最优分割点,在此基础上,比较并确定最小分割点;
其次,对部分属性进行属性内并行化处理,将连续型数据的各分割点拆分至不同任务进行处理,最后,将计算结果合并,计算最优分割点;
再次,针对连续型数据样本属性,通过减少高密度连续数据中的重复值提高算法计算效率;针对离散型数据样本属性,通过减少属性类型值中具有对称性的取值减少离散型数据的取值情况,从而缩小计算范围;
最后,针对剪枝操作同样需要进行并行化处理:在各节点计算完成后,比较各任务计算结果,求出拥有最小误差增益值的节点,作为非叶子节点的剪枝优化目标。
所述的步骤2.1)中,具体为:
首先,需要针对条件属性从多样本集的输入变量中选择最佳分组变量,其次针对分组变量进行纯度计算,找到一个纯度最高的最佳分割值;
对于离散型考虑除空集和全集之外的所有划分情况;对于连续型,则针对n个连续值产生n-1个分裂点,相邻两个连续值的均值(li+li-1)/2即为分裂点的分割值。将每个属性的所有划分按照Gini分割指数进行划分,Gini分割指数主要用于考察节点内n(n≥2)种样本的差异。针对整个样本训练数据集DT,DL部分一共包含n个条件属性,那么Gini指数可以定义为:
其中,Pm为决策属性值m在训练样本DT中的相对概率,如果集合DT中共有t条训练数据,在l1的条件下分成DT1和DT2两部分,数据条数分别为t1和t2,那么这个Gini分割指数就是:
以递归的方式针对每个属性值尝试划分,找到使得Gini分割指数变量最大的一个划分,该属性值划分的到的子树即为决策树构造阶段的最优分支。
所述的步骤2.2)中,具体为:采用决策树剪枝算法检测和去除异常分枝,采用CART算法的后剪枝方法在已构建的决策树模型基础上,通过删除节点分支来剪去树节点。
本发明创造的有益效果为:本发明通过上述方法,提供了一种更加具有时效性、客观性和高效性检测教师亚健康状态的方法。
附图说明
图1为本发明方法流程图。
图2为教师多维影响概念模型图。
图3为数据预处理过程图。
图4为亚健康决策树构建类图。
图5为亚健康决策树剪枝类图。
图6为教师亚健康检索系统架构设计图。
图7为CART算法决策树建模结果。
具体实施方式
一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,包括:
步骤1:分析处理样本数据。
步骤1.1:综合分析教师职业本身的社会压力与生活行为,充分考虑职业特性,构建一种多维度的教师多维影响因素概念模型。
步骤1.2:对影响因素样本集数据集进行特征分析,确定条件特征及决策特征。
步骤1.3:对样本数据集进行预处理,用于构建初始决策树。包括数据清洗阶段和数据整合阶段,其中数据清洗阶段是为了降低决策树构造过程中数据质量对模型效果的负面影响,而数据整合阶段围绕构建决策树的目标结果对清洗后的数据进行分析处理,整合成支持数据分析阶段的输入数据。
步骤2:利用CART算法对亚健康决策树进行建模。
步骤2.1:对CART算法的适用性进行分析,由于教师亚健康的多维度影响因素首先具有条件属性繁多的特点。其次,多维影响因素中具有复杂数据类型的指标属性。最后,条件属性值的区间划分情况较为复杂,需要算法提供动态处理能力。而CART算法模型恰好适用于变量种类繁多,关系复杂的分类需求,使得它在教师亚健康评估决策树的建模更加适用,具有较大的优势。
步骤2.2:构造用于检测教师亚健康状态的决策树。首先,需要针对条件属性从多样本集的输入变量中选择最佳分组变量,其次需要针对分组变量进行纯度计算,找到一个纯度最高的最佳分割值。因此,对于离散型考虑除空集和全集之外的所有划分情况;对于连续型,则针对n个连续值产生n-1个分裂点,相邻两个连续值的均值(li+li-1)/2即为分裂点的分割值。将每个属性的所有划分按照Gini分割指数进行划分,Gini分割指数主要用于考察节点内n(n≥2)种样本的差异。针对整个样本训练数据集DT,DL部分一共包含n个条件属性,那么Gini指数可以定义为:
其中,Pm为决策属性值m在训练样本DT中的相对概率,如果集合DT中共有t条训练数据,在l1的条件下分成DT1和DT2两部分,数据条数分别为t1和t2,那么这个Gini分割指数就是:
以递归的方式针对每个属性值尝试划分,意图找到使得Gini分割指数变量最大的一个划分,该属性值划分的到的子树即为决策树构造阶段的最优分支。
决策树构建过程采用递归函数的方式,具体实现过程:首先找到一个划分值,若果不存在返回-1,然后判断当一个树不是叶子节点时则按照划分值进行划分。设计并实现SHTreeCons类,该类图展示用于构造决策树模型的基本方法。其中,SHTreeBuild方法通过调用划分方法对非叶子节点进行划分;TreeDivid方法是节点划分方法,划分左右节点;AttriCho方法针对输入的考察节点进行属性值的选择;GiniSeg方法用于计算Gini分割指数对构造树进行最优划分;TraverTree方法用于构造决策树的模型。
步骤2.3:对初步构造生成的决策树模型进行剪枝算法优化。由于分类回归树在递归建树过程中存在数据过拟合,训练数据中的噪音或孤立点使得分枝划分反映训练数据异常,从而会降低利用该决策树进行分类的准确性。因此,需要采用决策树剪枝算法检测和去除异常分枝。采用CART算法的后剪枝方法在已构建的决策树模型基础上,通过删除节点分支来剪去树节点。
教师亚健康评估CART算法的决策树优化过程将全部样本数据集剩余的20%作为测试数据集进行决策树剪枝。设计并实现SHTreePrun类,该类图展示用于对决策树模型进行剪枝的基本函数。其中,SHPrun函数为剪枝函数,利用测试数据集对已生成的树模型进行剪枝;TraverLevel方法通过层次遍历对决策点进行序号分配,以便用于剪枝函数处理;ErrTest方法通过考察不同决策点下建树样本产生的错误样本个数,其中参数t为决策点的数目;DesTest函数根据具体的某个决策点对测试样本集进行测试,其中参数k为单个样本,t为决策点数目。
步骤2.4:确定CART算法的评价体系指标。亚健康评估决策模型的有效性首先考虑准确率(accuracy)的衡量。
设真实应用过程中采集n个教师的数据样本实例。其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1。
但利用准确率仅能从某种意义上得到一个决策树模型是否正确,并不能完全有效评价该模型的有效性。还需要精确度、召回率,甚至综合各评价体系指标的衡量。
其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量。
其中recall表示召回率,FN代表被错误分类的亚健康样本数量。
综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:
推导得:
因此,基于CART算法的教师亚健康决策树模型采用准确率、精确率、召回率及F1值进行综合评价,考察该模型在实际应用环境下带来的分类有效性问题。
步骤3:基于spark的并行实现:
步骤3.1:确定决策树模型的构建架构。利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,为了满足数据形式多样化下更好的数据预处理,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;在上述构建思路下,通过样本数据在Spark分布式框架下运行CART算法,计算教师亚健康评估决策树模型;最终得到的决策树将在未来的业务中为教师亚健康状态评估和预测提供基础。
步骤3.2:CART算法模型在spark上的并行实现。
利用Spark计算框架进行亚健康评估决策树构建的分布式并行实现。集群硬件环境包括15台PC机,CPU采用4核酷睿i5-2300。其中,master节点内存为16GB,硬盘容量为500GB;部署了slave节点14个,内存分别为8GB,硬盘容量分别为500GB。集群软件环境利用Ubuntu操作系统版本号为10.10,Java执行版本为JDK1.7,Spark下载版本为1.6,并采用EclipseLinux作为IDE开发工具。
样本数据方面基于多维亚健康影响因素,抽取2016年3月至2017年3月所在学校的258例教师基本数据。决策树CART算法的参数设置为:树结构最大深度为5,父节点最小个案数为5,子节点最小个案数为1,Gini系数的最小变化值为0.0001,在树的构建过程中排除缺失值。对48个影响因素进行决策分析,归纳出模型的评估规则。其中node表示节点序号,根据算法可知序号越小越接近根节点,序号越大越接近叶子节点;split表示分割点属性及其划分阈值;n表示该分割点属性下一共具有的数据量;loss表示该属性下未得到目标决策值的数据量;SHval表示该条件属性特征值下得到的决策属性值;最后,SHprob为该分割点特征值下各决策值的占比。
实施例1:一种基于分类回归树来用于检测高校教师亚健康状态的方法
步骤1:分析处理样本数据。
步骤1.1:确定多维影响因素。
高校教师具有脑力劳动特征的职业特性,其个人健康状况变化具有内在规律性,而不同的健康数据之间存在着内在的关联性。在教学任务、科研成果方面承受着巨大的精神压力,在事业成就、职称、生活习惯、人际关系高压环境下也存在着各种心理矛盾。为此,在性别、年龄、职称流行病学特征的理论依据下,针对高校教师的职业特点,将导致高校教师出现亚健康状态的因素划分为多维度高校教师健康影响因素。
健康指的是个体在生理、心理、情绪方面都处于良好状态,与人的社会属性、身心健康属性、行为属性、环境属性有关。多维度高校教师健康影响因素从社会特性、健康特性、环境特性、职业特性和行为特性五个维度展开,详见附图说明中的图1,其中,社会特性从流行病学特征角度出发,考虑教师年龄、身高、体重个人基本信息对健康状态分类的影响;环境特性重点从职业本身对个人的心理压力角度,考察职称、职务、研究生团队数量、教师类型方面对健康状态的影响;职业特性从工作量大小的角度考察劳累程度对健康状态分类的影响,如年课时数、年论文数、平均年科研进款、毕业论文培养数量;行为特性主要考察生活行为与锻炼行为日常活动对健康状态的影响,如吸烟、喝酒、周锻炼时长、睡眠时间;最后,健康特性从标准医学体征数值角度考察教师的血压、血脂、心率基本指数,考虑教师当前的个人健康状况以及对未来可能存在的影响隐患。
步骤1.2:分析样本数据集特征。
决策树技术是解决数据挖掘和预测的一种分类方法。它采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性。在此基础上,根据共同特性建立的分类模型对未来数据可能产生的目标结果进行预测。决策树算法主要包括分类树建模及剪枝优化两个过程:分类树建模过程借助训练数据集生成决策树;剪枝优化过程在测试数据集上通过修剪完善决策树的检验、评估和优化。
因此,采用决策树技术解决高校教师亚健康状态评估首先需要对样本数据集展开分析。将高校教师的健康数据转化为计算机易于处理的向量形式。重点分析内容包括:样本数据集中可作为分类树构建条件,反映高校教师亚健康评估因素的数据属性;以及可作为分类树的分类目标,反映高校教师亚健康评估结果的决策数据属性。即通过分析分别确定样本集中的条件属性向量X与决策属性向量Y。
根据前一节分析得到的多维影响因素,归纳样本数据集中包含的条件属性特征有48个,其中各维度参考的特征因素分别为10个健康特征,9个社会特征,11个环境特征,8个职业特征及10个行为特征,具体见表1:
表1多维亚健康影响因素属性表
社会特征 | 环境特征 | 行为特性 | 职业特性 | 健康特性 |
年龄 | 职称 | 是否抽烟 | 科研进款 | 血压 |
性别 | 教师类型 | 是否喝酒 | 论文数 | 心率 |
BMI | 研究生数 | 日均步数 | 年课时数 | 血脂 |
身高 | 职务 | 是否运动 | 毕业指导数 | 糖尿病史 |
婚姻 | 管理工作 | 运动项目 | 项目类别 | 心脏病史 |
父母信息 | 考核指数 | 睡眠时间 | 论文等级 | 骨密度 |
是否房贷 | 教务工作 | 睡眠时长 | 年均绩点 | 肺活量 |
子女信息 | 是否博导 | 是否早饭 | 专利数 | 尿常规异常 |
籍贯 | 学位 | 是否饮料 | 腺体增生 | |
年旅游 | 日均饮水量 | 血常规异常 | ||
年出差 |
决策属性采用健康特性与标准亚健康评估指数相结合的方式,制定亚健康评价准则。由于目前海内外的亚健康评价方式主要分为三大类:症状尺度评价法、量化评估法跟MDI(心理功效消退指数)健康评估法。因此,高校教师亚健康评价准则在考虑教师个人的健康特性基础上,进一步通过CMI(康奈尔医学指数)主观问卷方式,根据测定值确定不同程度亚健康状态。在此基础上,对决策属性数据进行进一步的分析,针对可产生的不同程度目标结果进行决策属性的标签化处理。
根据上述分析,利用向量空间模型对亚健康影响因素进行数学抽象。设样本数据集中条件属性特征为向量L(l1,l2,…,ln),其中l1至ln为影响高校教师健康的n维属性,主要来自于多维影响因素的社会特性、环境特性、职业特性及行为特性。决策属性特征为向量R(r),其中r是根据上述亚健康评价准则得到的亚健康评价值,即r=w1·PHI+w2·CMI,(w1+w2=1)其中,PHI值是根据教师个人健康特性属性中相关指数未在正常范围内的数量确定的体检健康值。CMI值根据康奈尔医学指数问卷结果,综合考虑身体因素和心理因素两方面得到的亚健康状态值。w1与w2为健康评价权重系数,通过调整该系数能够综合考察不同指标比例对认定是否亚健康及亚健康程度的影响。
步骤1.3:样本数据预处理。
亚健康决策树的构建包括构建与优化两个阶段。首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树。因此,样本数据的预处理除了考虑对数据如何采集,还需要考虑对数据如何进行整合及标注。亚健康评估样本数据的预处理过程如附图说明中的图2所示。
首先,数据采集阶段通过与校医院、人事处、教务处、科研处、心理咨询中心等多部门协同合作。针对健康特性、职业特性、环境特性等不同属性的数据来源,通过各种管理系统接口进行数据的收集。利用Flume分布式架构,将大量的数据从数据资源装载到目标服务器。针对行为特性数据如日常运动、健康等日志的采集,通过Apache的Flume数据采集工具实现。Flume支持定制数据发送方,同时提供对数据的可定制简单处理,支持console、RPC、tail、syslog、exec的多种数据源上收集数据的能力。同时,利用ZooKeeper保存配置数据,保证配置数据的一致性和高可用。采集来的多样化数据经过值域对照、数据抽取、转换最后上载到健康数据库。
其次,数据清洗阶段为了降低决策树构造过程数据质量对模型效果的负面影响,针对采集得到的数据进行数据补缺、去噪初步处理。其中数据补缺针对数据的存储和传输过程中带来的关键数据丢失,采取人工补充、默认值填充、均值填充等多种发法进行数据缺失值的填补;数据去噪处理针对不同部门采集到的数据可能出现的冲突问题,或者“条件属性”值相同的数据,但“决策属性”值不同的情况,通过数据归一及数据去除的方法降噪处理。经过数据清洗后,得到满足一定质量要求的数据集存储在健康数据分析库中。
最后,数据整合阶段针对上述分析数据库中的数据进行数据的进一步处理。重点考虑数据对分析过程的影响,通过变化、集成、标注及过滤过程对数据进行整合处理。围绕构建决策树的目标结果进行分析和处理,整合成支持数据分析阶段的输入数据。数据变化及集成过程将来自不同源的数据转换成统一的数据类型,以及将部分连续型数据转化为离散型数据,从而简化相应的计算量;数据标注过程对条件属性值即决策属性值进行阈值范围的考察和确定;数据过滤过程对需求数据属性展开分析,对原数据中的数据进行合理范围内的约束和选择。最终结果数据集即可划分为训练样本和测试样本,提供给决策树建模算法进行树的构建。
步骤2:CART算法亚健康决策树建模。
步骤2.1:CART算法适用分析。
分类回归树(Classification and Regression Trees,CART)算法是一种利用二叉树递归划分的分类数据挖掘算法。该算法通过给定数据预测向量X及变量Y的条件分布,将样本划分为若干子集,决策树叶子节点依照内部节点相关分支规则被划分到不同区域。从而形成根节点到叶节点的决策路径。CART算法通过有监督学习生成结构简介的二叉树,需要学习样本集对CART模型进行构建和优化。其基本思想首先将训练样本进行递归划分自变量空间进行决策树建模,然后利用测试数据进行剪枝优化,确定最优决策树模型。
CART算法采用二叉树的数据结构能够以简单模型产生低误差率的分类结果。利用分类与回归相结合的方法能够灵活解决连续型和离散型相混合复杂指标属性的数据分类。而且,分类决策树构建过程利用样本差异指标作为分类属性选择的依据,能够降低异常数据对结果的影响。非参数估计的建模形式,通过变量的动态选择避免参数主动选取的弊端,选择分割过程能够自动进行样本的选择和调整,适用于变量种类繁多,关系复杂的分类需求。
高校教师亚健康的多维度影响因素首先具有条件属性繁多的特点。其次,多维影响因素中具有复杂数据类型的指标属性,如既包括“婚姻状况”、“职称”、“是否吸烟”等离散型数据,也包括“年论文数”、“年龄”、“日均步数”等连续型数据。最后,条件属性值的区间划分情况较为复杂,需要算法提供动态处理能力。综上所述,CART算法模型可以运用于多指标海量数据的复杂分类处理特性,使得应用于高校教师亚健康评估决策树的建模更加适用,具有较大的优势。
CART算法利用分类树适用于离散型目标数据的分析,利用回归树适用于连续型目标数据的分析。因此,当亚健康评估目标为亚健康评价值r时,可考虑利用回归树构建对高校教师的健康值评估;当亚健康评估目标按照评价值被离散化处理为诊断时,如离散化为“疾病”、“亚健康”和“健康”,可考虑利用分类树构建高教教师的健康状态评估。本文采用分类树模型根据健康状态对决策树进行模型构建。其中,CART样本数据抽象为:
DC={DL,DR} (1)
DL={L1,L2,...,Ln} (2)
DR={R1,R2,...,Rn} (3)
d1=(l11,l12,...,l1n,r1),(d1∈DC) (4)
其中,DC为样本数据集,其中包括特征属性集DL及结果属性集DR。L称为属性向量(AttributeVectors),其属性来自于多维度亚健康影响因素分析过程中得到的条件属性特征向量L(l1,l2,…,ln),其中既包括连续型属性也包括离散型属性;R称为标签向量(LabelVectors),其属性来自于影响因素分析过程得到的决策属性特征向量r,该特征向量值是根据亚健康评价值r的阈值范围评定给出的,包括{“疾病”,“亚健康”,“健康”}。dn为样本数据集中的单条数据。本文研究的样本集中每个样本有48个条件属性和一个决策属性。
高校教师亚健康评估CART算法的决策树构建实现过程首先定义了三种数据结构:存储样本属性名称及取值的KVNode属性,存储具体某个样本的TeacherSet属性,树的节点属性TreeNode;并存放于SHDataStructure.h中。样本通过划分不同文件分别存储样本的属性及样本集。设计ReadFile类读取文件分别存储在两个向量中。
步骤2.2:决策树构造算法。
利用CART算法构建亚健康决策树的基本原理是检查每个健康条件属性所有可能的划分值来发现最好的划分。首先,需要针对条件属性从多样本集的输入变量中选择最佳分组变量;其次需要针对分组变量进行纯度计算,找到一个纯度最高的最佳分割值。因此,对于离散型考虑除空集和全集之外的所有划分情况;对于连续型,则针对n个连续值产生n-1个分裂点,相邻两个连续值的均值(li+li-1)/2即为分裂点的分割值。将每个属性的所有划分按照Gini分割指数进行划分,Gini分割指数主要用于考察节点内n(n≥2)种样本的差异。针对整个样本训练数据集DT,DL部分一共包含n个条件属性,那么Gini指数可以定义为:
其中,Pm为决策属性值m在训练样本DT中的相对概率,如果集合DT中共有t条训练数据,在l1的条件下分成DT1和DT2两部分,数据条数分别为t1和t2,那么这个Gini分割指数就是:
以递归的方式针对每个属性值尝试划分,意图找到使得Gini分割指数变量最大的一个划分,该属性值划分的到的子树即为决策树构造阶段的最优分支。
高校教师亚健康评估CART算法的决策树构建过程采用递归函数的方式,将全部样本数据集的80%作为训练数据集进行决策树构建。建模具体实现过程首先找到一个划分值,若果不存在返回-1,然后判断当一个树不是叶子节点时则按照划分值进行划分。设计并实现SHTreeCons类,详见附图说明中的图3,该类图展示用于构造决策树模型的基本方法。其中,SHTreeBuild方法通过调用划分方法对非叶子节点进行划分;TreeDivid方法是节点划分方法,划分左右节点;AttriCho方法针对输入的考察节点进行属性值的选择;GiniSeg方法用于计算Gini分割指数对构造树进行最优划分;TraverTree方法用于构造决策树的模型。
构造决策树模型的核心算法SHTreeBuild函数的各个步骤描述如下所示:
TreeDivid函数针对对输入的样本变量进行基于Gini分割指数的最优划分,若划分成功返回属性下标,否则返回-1。nodeCount在该函数中能够支持树的遍历,对每一个节点赋予唯一值,树模型的构建过程是采用前序遍历。当建树结束后,树的前序输出结果即为nodeCount从小到大的排序,然后通过TraverTree函数输出树的中序序列以确定树的结构。其中,nodeCount和leavenode同时还将支持后续的树模型优化剪枝过程。
步骤2.3决策树优化剪枝算法。
利用CART算法优化亚健康决策树模型的原因是,分类回归树在递归建树过程中存在数据过拟合,训练数据中的噪音或孤立点使得分枝划分反映训练数据异常,从而会降低利用该决策树进行分类的准确性。因此,需要采用决策树剪枝算法检测和去除异常分枝。决策树剪枝优化方法的基本原理采用统计度量的方式,使用测试数据集删除异常分枝,提高决策树不依赖训练数据的分类效率和准确度。通常剪枝算法分为预剪枝和后剪枝两种,本文将采用CART算法的后剪枝方法在已构建的决策树模型基础上,通过删除节点分支来剪去树节点。
CART利用成本复杂度标准是在已有分类树的加权错分率基础上,加上对树的惩罚因子。其中,惩罚因子包含一个复杂度参数a来表示每个节点的惩罚代价。成本复杂度的数学表达如下所示:
Ca(T)=C(T)+a×|Tnum| (7)
其中C(T)是测试数据被已生成的树模型T错误划分的部分;Tnum是已生成树T的叶子节点个数;a是每个决策点惩罚代价,a=2(n-1),其中n为分类数。若a=0则表示对该树绝大多数的节点没有惩罚,其成本复杂度是未剪枝的树。通过剪枝算法,从剪枝得到的优化树模型中选取测试数据集上具有最小误分的树作为最终优化的决策树模型。
高校教师亚健康评估CART算法的决策树优化过程将全部样本数据集剩余的20%作为测试数据集进行决策树剪枝。设计并实现SHTreePrun类,如附图说明中的图4所示,该类图展示用于对决策树模型进行剪枝的基本函数。其中,SHPrun函数为剪枝函数,利用测试数据集对已生成的树模型进行剪枝;TraverLevel方法通过层次遍历对决策点进行序号分配,以便用于剪枝函数处理;ErrTest方法通过考察不同决策点下建树样本产生的错误样本个数,其中参数t为决策点的数目;DesTest函数根据具体的某个决策点对测试样本集进行测试,其中参数k为单个样本,t为决策点数目。
对于剪枝算法来说,首先要考虑获取已生成树的决策点,才能根据决策点数目进行剪枝。利用二叉树具有非叶节点与叶节点之间差1的特性,可计算得到非叶结点数量。利用层次遍历对决策点逐层赋值,其中根节点nodeCount赋值为1,左节点nodeCount赋值2,叶子节点nodeCount为0。剪枝函数TraverLevel的关键伪代码如下:
层次遍历后根据决策点数量,改进决策树前序遍历,确定叶子节点,从而确定模型树的结构。然后,根据树的决策点数对训练样本和测试样本的误差进行统计。不同决策点对应不同子树,通过前序遍历可以将叶子节点中的错误样本统计出来计算该树模型错误样本的个数。接着,利用测试样本对树模型进行遍历,统计修正后测试样本错误样本个数。最后,得出最小误分树结果集。
在此基础上,利用最优剪枝的选取方法搜索剪枝序列,以取得最优剪枝树。最优剪枝树的判定标准为,当剪枝序列误差在最小误差树的一个标准差之内。最小误差率是随机变量观测值,其中的标准差等于其中Emin为最小误差树的错误率,Nval是验证集的个数。
步骤2.4 CART算法评价体系指标
亚健康评估决策模型的有效性首先考虑准确率(accuracy)的衡量。准确率是针对阶段性应用后积累的应用数据集,考察决策树模型能够正确分类的实例数与总实例数之间的比值,即损失函数为0-1损失时的实例数据集上的准确率,衡量的是分类正确的比例。
设真实应用过程中采集n个高校教师的数据样本实例。y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1。
针对高校教师亚健康评估场景,评估的结果分为疾病、亚健康和健康三种。为了重点考察教师的亚健康情况,将考察目标限定为亚健康及非亚健康两类。准确率考察决策树模型能够正确分类亚健康状态的占比数。但利用准确率仅能从某种意义上得到一个决策树模型是否正确,并不能完全有效评价该模型的有效性。还需要精确度、召回率,甚至综合各评价体系指标的衡量。
其中,精确率(precision)通过计算所有被正确分类到亚健康的样本数量(truepositive,TP)占所有实际被分类到亚健康结果的样本数量(TP与FP之和)的比例。其数学表达式为:
召回率(recall)通过计算所有正确被分类到亚健康的样本数量TP占所有理论应该被分类到亚健康结果的数量(TP与FN之和)的比例,其数学表达式为:
综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:
推导得:
因此,基于CART算法的高校教师亚健康决策树模型采用准确率、精确率、召回率及F1值进行综合评价,考察该模型在实际应用环境下带来的分类有效性问题。
步骤3分布式的检测系统实现
步骤3.1分布式的检测系统架构。
亚健康决策树构建过程的系统架构详见附图说明中的图5。根据高校教师亚健康多维影响因素分析得到的概念模型考虑源数据层各特征数据的获取方式;在数据结构层将源数据以结构化数据、非结构化数据和实时流数据方式进行划分;利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,为了满足数据形式多样化下更好的数据预处理,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;在上述构建思路下,通过样本数据在Spark分布式框架下运行CART算法,计算高校教师亚健康评估决策树模型;最终得到的决策树将在未来的业务中为高校教师亚健康状态评估和预测提供基础。
步骤3.2亚健康决策树核心算法的分布式实现。
第1步,考虑CART算法利用Gini指数计算最优分割点时,面向属性类别较多的高校教师多维影响因素数据集,根据属性的个数创建多个并发任务分别求解各属性最优分割点。在此基础上,比较并确定最小分割点。
第2步,对于连续型数据属性需要根据各线性值进行分割点划分,这将大大增加Gini指数最优分割点的计算量。因此,需要对部分属性进行属性内并行化处理,将连续型数据的各分割点拆分至不同任务进行处理。最后,将计算结果合并,计算最优分割点。
第3步,对数据属性进行样本约减,以降低并行计算时的计算量。针对连续型数据样本属性,通过减少高密度连续数据中的重复值提高算法计算效率。针对离散型数据样本属性,通过减少属性类型值中具有对称性的取值减少离散型数据的取值情况,从而缩小计算范围。
第4步,针对剪枝操作同样需要进行并行化处理。由于各节点的误差增益是独立事件,因此增益值的计算可通过分配给多个节点并行化处理的方式进行计算。在各节点计算完成后,比较各任务计算结果,求出拥有最小误差增益值的节点,作为非叶子节点的剪枝优化目标。
步骤3.3示例系统。
系统集群硬件环境包括15台PC机,CPU采用4核酷睿i5-2300。其中,Master节点内存为16GB,硬盘容量为500GB;部署了Slave节点14个,内存分别为8GB,硬盘容量分别为500GB。集群软件环境利用Ubuntu操作系统版本号为10.10,Java执行版本为JDK1.7,Spark下载版本为1.6,并采用Eclipse Linux作为IDE开发工具。
样本数据方面基于多维亚健康影响因素,抽取2016年3月至2017年3月所在学校的258例教师基本数据。决策树CART算法的参数设置为:树结构最大深度为5,父节点最小个案数为5,子节点最小个案数为1,Gini系数的最小变化值为0.0001,在树的构建过程中排除缺失值。对48个影响因素进行决策分析,归纳出模型的评估规则。根据该算法得到的输出结果数据部分内容展示详见附图说明中的图6。其中node表示节点序号,根据算法可知序号越小越接近根节点,序号越大越接近叶子节点;split表示分割点属性及其划分阈值;n表示该分割点属性下一共具有的数据量;loss表示该属性下未得到目标决策值的数据量;SHval表示该条件属性特征值下得到的决策属性值;最后,SHprob为该分割点特征值下各决策值的占比。
该决策树模型通过CART算法的构建和剪枝优化处理,最终确定了14个属性作为亚健康评估的条件属性。其中分别包括:社会特性中的年龄、性别和身体质量指数3个属性;环境特性中的职称、教师类型和研究生数量3个属性;职业特性中的年科研进款额、年科研论文指数、年课时数3个属性;行为特性中的日均步数、不良嗜好和睡眠时间3个属性;以及健康特性中的血压值、心率值两个属性。该决策树模型共产生了32个叶子节点,其中10个叶子节点利用J表示评估结果为健康状态;6个叶子节点利用B表示评估结果为疾病状态;16个叶子节点利用Y表示评估结果为亚健康状态。该决策树基于大数据,既能够归纳出影响亚健康的主要因素,也能够总结出评估亚健康状态的规则,为未来的智能亚健康检测评估。
Claims (3)
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:
1)分析处理样本数据:
1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;
1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;
1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;
2)利用CART算法对亚健康决策树进行建模:
2.1)构造用于检测教师亚健康状态的决策树;
2.2)对初步构造生成的决策树模型进行剪枝算法优化;
2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:
设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;
结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:
其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;
其中recall表示召回率,FN代表被错误分类的亚健康样本数量。
综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:
推导得:
3)基于spark的并行实现:
3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;通过样本数据在Spark分布式框架下运行CART算法,计算教师亚健康评估决策树模型;最终得到的决策树;
3.2)CART算法模型在spark上的并行实现:
首先,考虑CART算法利用Gini指数计算最优分割点时,面向属性类别较多的教师多维影响因素数据集,根据属性的个数创建多个并发任务分别求解各属性最优分割点,在此基础上,比较并确定最小分割点;
其次,对部分属性进行属性内并行化处理,将连续型数据的各分割点拆分至不同任务进行处理,最后,将计算结果合并,计算最优分割点;
再次,针对连续型数据样本属性,通过减少高密度连续数据中的重复值提高算法计算效率;针对离散型数据样本属性,通过减少属性类型值中具有对称性的取值减少离散型数据的取值情况,从而缩小计算范围;
最后,针对剪枝操作同样需要进行并行化处理:在各节点计算完成后,比较各任务计算结果,求出拥有最小误差增益值的节点,作为非叶子节点的剪枝优化目标。
2.根据权利要求1所述的一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,所述的步骤2.1)中,具体为:
首先,需要针对条件属性从多样本集的输入变量中选择最佳分组变量,其次针对分组变量进行纯度计算,找到一个纯度最高的最佳分割值;
对于离散型考虑除空集和全集之外的所有划分情况;对于连续型,则针对n个连续值产生n-1个分裂点,相邻两个连续值的均值(li+li-1)/2即为分裂点的分割值。将每个属性的所有划分按照Gini分割指数进行划分,Gini分割指数主要用于考察节点内n(n≥2)种样本的差异。针对整个样本训练数据集DT,DL部分一共包含n个条件属性,那么Gini指数可以定义为:
其中,Pm为决策属性值m在训练样本DT中的相对概率,如果集合DT中共有t条训练数据,在l1的条件下分成DT1和DT2两部分,数据条数分别为t1和t2,那么这个Gini分割指数就是:
以递归的方式针对每个属性值尝试划分,找到使得Gini分割指数变量最大的一个划分,该属性值划分的到的子树即为决策树构造阶段的最优分支。
3.根据权利要求1所述的一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,所述的步骤2.2)中,具体为:采用决策树剪枝算法检测和去除异常分枝,采用CART算法的后剪枝方法在已构建的决策树模型基础上,通过删除节点分支来剪去树节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810933342.7A CN109147949A (zh) | 2018-08-16 | 2018-08-16 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810933342.7A CN109147949A (zh) | 2018-08-16 | 2018-08-16 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109147949A true CN109147949A (zh) | 2019-01-04 |
Family
ID=64789576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810933342.7A Pending CN109147949A (zh) | 2018-08-16 | 2018-08-16 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147949A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903827A (zh) * | 2019-03-08 | 2019-06-18 | 上海一健事信息科技有限公司 | 一种健康行为促进智能支持系统 |
CN110085324A (zh) * | 2019-04-25 | 2019-08-02 | 深圳市华嘉生物智能科技有限公司 | 一种多重生存终端结果联合分析的方法 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110569278A (zh) * | 2019-08-21 | 2019-12-13 | 广西电网有限责任公司电力科学研究院 | 一种基于大数据分析的变压器缺陷评估方法 |
CN111540471A (zh) * | 2020-05-12 | 2020-08-14 | 西安交通大学医学院第一附属医院 | 一种基于用户健康数据的健康状态跟踪及预警方法和系统 |
CN111613331A (zh) * | 2020-05-21 | 2020-09-01 | 安徽理工大学 | 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统 |
CN111611150A (zh) * | 2019-02-25 | 2020-09-01 | 北京搜狗科技发展有限公司 | 一种测试方法、装置、介质和电子设备 |
CN111694827A (zh) * | 2020-05-31 | 2020-09-22 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN111816312A (zh) * | 2020-09-14 | 2020-10-23 | 杭州憶盛医疗科技有限公司 | 基于模型解释的健康状态检测方法、设备及可读存储介质 |
CN112036665A (zh) * | 2020-09-22 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 一种基于连续特征的预测方法、系统和装置 |
CN112086130A (zh) * | 2020-08-13 | 2020-12-15 | 东南大学 | 一种基于测序和数据分析的肥胖风险预测装置及其预测方法 |
CN112164471A (zh) * | 2020-09-17 | 2021-01-01 | 吉林大学 | 基于分类回归模型的新冠疫情综合评估方法 |
CN112182371A (zh) * | 2020-09-22 | 2021-01-05 | 珠海中科先进技术研究院有限公司 | 健康管理产品组合及定价方法及介质 |
CN112416753A (zh) * | 2020-11-02 | 2021-02-26 | 中关村科学城城市大脑股份有限公司 | 一种城市大脑应用场景数据规范化管理方法、系统及设备 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN113270194A (zh) * | 2021-04-22 | 2021-08-17 | 深圳市雅士长华智能科技有限公司 | 一种基于云计算的健康数据管理系统 |
CN113408945A (zh) * | 2021-07-15 | 2021-09-17 | 广西中烟工业有限责任公司 | 一种烤烟纯度的检测方法、装置、电子设备及存储介质 |
CN114520042A (zh) * | 2022-03-03 | 2022-05-20 | 深圳市常春藤心理咨询有限公司 | 一种智能心理干预方法、系统、终端及存储介质 |
CN114580792A (zh) * | 2022-04-28 | 2022-06-03 | 深圳丰尚智慧农牧科技有限公司 | 膨化机工作状态识别方法、装置、计算机设备、存储介质 |
CN114757448A (zh) * | 2022-06-09 | 2022-07-15 | 华北电力大学 | 一种基于数据空间模型的制造环节间最优价值链构建方法 |
CN115795740A (zh) * | 2023-01-30 | 2023-03-14 | 燕山大学 | 一种复杂工况下的工程机械液压油缸失效模式分析方法 |
CN116884575A (zh) * | 2023-07-10 | 2023-10-13 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种针对癌症患者心理健康评估系统的控制方法及装置 |
CN111611150B (zh) * | 2019-02-25 | 2024-03-22 | 北京搜狗科技发展有限公司 | 一种测试方法、装置、介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841972A (zh) * | 2011-06-23 | 2012-12-26 | 张家港凯纳信息技术有限公司 | 亚健康人群信息采集分析系统 |
CN103905486A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种心理健康状态评估方法 |
CN107491656A (zh) * | 2017-09-04 | 2017-12-19 | 北京航空航天大学 | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 |
CN107818824A (zh) * | 2017-04-10 | 2018-03-20 | 平安科技(深圳)有限公司 | 一种用于健康评估的健康模型构建方法及终端 |
-
2018
- 2018-08-16 CN CN201810933342.7A patent/CN109147949A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841972A (zh) * | 2011-06-23 | 2012-12-26 | 张家港凯纳信息技术有限公司 | 亚健康人群信息采集分析系统 |
CN103905486A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种心理健康状态评估方法 |
CN107818824A (zh) * | 2017-04-10 | 2018-03-20 | 平安科技(深圳)有限公司 | 一种用于健康评估的健康模型构建方法及终端 |
CN107491656A (zh) * | 2017-09-04 | 2017-12-19 | 北京航空航天大学 | 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法 |
Non-Patent Citations (4)
Title |
---|
刘玉尧: ""基于Gradient Boosting算法的海量健康数据挖掘研究与应用"", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
张亮: ""CART决策树的两种改进及应用"", 《计算机工程与设计》 * |
肖彤: ""基于Spark的医疗健康数据分析系统设计与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄鹂: ""基于决策树的亚健康状态影响因素模型"", 《实用医学杂志》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611150B (zh) * | 2019-02-25 | 2024-03-22 | 北京搜狗科技发展有限公司 | 一种测试方法、装置、介质和电子设备 |
CN111611150A (zh) * | 2019-02-25 | 2020-09-01 | 北京搜狗科技发展有限公司 | 一种测试方法、装置、介质和电子设备 |
CN109903827A (zh) * | 2019-03-08 | 2019-06-18 | 上海一健事信息科技有限公司 | 一种健康行为促进智能支持系统 |
CN110085324B (zh) * | 2019-04-25 | 2023-09-08 | 深圳市华嘉生物智能科技有限公司 | 一种多重生存终端结果联合分析的方法 |
CN110085324A (zh) * | 2019-04-25 | 2019-08-02 | 深圳市华嘉生物智能科技有限公司 | 一种多重生存终端结果联合分析的方法 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110232473B (zh) * | 2019-05-22 | 2022-12-27 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110569278A (zh) * | 2019-08-21 | 2019-12-13 | 广西电网有限责任公司电力科学研究院 | 一种基于大数据分析的变压器缺陷评估方法 |
CN111540471A (zh) * | 2020-05-12 | 2020-08-14 | 西安交通大学医学院第一附属医院 | 一种基于用户健康数据的健康状态跟踪及预警方法和系统 |
CN111540471B (zh) * | 2020-05-12 | 2024-01-26 | 西安交通大学医学院第一附属医院 | 一种基于用户健康数据的健康状态跟踪及预警方法和系统 |
CN111613331A (zh) * | 2020-05-21 | 2020-09-01 | 安徽理工大学 | 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统 |
CN111694827B (zh) * | 2020-05-31 | 2023-04-07 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN111694827A (zh) * | 2020-05-31 | 2020-09-22 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN112086130B (zh) * | 2020-08-13 | 2021-07-27 | 东南大学 | 一种基于测序和数据分析的肥胖风险预测装置的预测方法 |
CN112086130A (zh) * | 2020-08-13 | 2020-12-15 | 东南大学 | 一种基于测序和数据分析的肥胖风险预测装置及其预测方法 |
CN111816312A (zh) * | 2020-09-14 | 2020-10-23 | 杭州憶盛医疗科技有限公司 | 基于模型解释的健康状态检测方法、设备及可读存储介质 |
CN111816312B (zh) * | 2020-09-14 | 2021-02-26 | 杭州憶盛医疗科技有限公司 | 基于模型解释的健康状态检测方法、设备及可读存储介质 |
CN112164471B (zh) * | 2020-09-17 | 2022-05-24 | 吉林大学 | 基于分类回归模型的新冠疫情综合评估方法 |
CN112164471A (zh) * | 2020-09-17 | 2021-01-01 | 吉林大学 | 基于分类回归模型的新冠疫情综合评估方法 |
CN112036665A (zh) * | 2020-09-22 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 一种基于连续特征的预测方法、系统和装置 |
CN112182371A (zh) * | 2020-09-22 | 2021-01-05 | 珠海中科先进技术研究院有限公司 | 健康管理产品组合及定价方法及介质 |
CN112416753A (zh) * | 2020-11-02 | 2021-02-26 | 中关村科学城城市大脑股份有限公司 | 一种城市大脑应用场景数据规范化管理方法、系统及设备 |
CN112951413B (zh) * | 2021-03-22 | 2023-07-21 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
WO2022198761A1 (zh) * | 2021-03-22 | 2022-09-29 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN113270194A (zh) * | 2021-04-22 | 2021-08-17 | 深圳市雅士长华智能科技有限公司 | 一种基于云计算的健康数据管理系统 |
CN113408945A (zh) * | 2021-07-15 | 2021-09-17 | 广西中烟工业有限责任公司 | 一种烤烟纯度的检测方法、装置、电子设备及存储介质 |
CN114520042B (zh) * | 2022-03-03 | 2022-11-08 | 深圳市常春藤心理咨询有限公司 | 一种智能心理干预方法、系统、终端及存储介质 |
CN114520042A (zh) * | 2022-03-03 | 2022-05-20 | 深圳市常春藤心理咨询有限公司 | 一种智能心理干预方法、系统、终端及存储介质 |
CN114580792A (zh) * | 2022-04-28 | 2022-06-03 | 深圳丰尚智慧农牧科技有限公司 | 膨化机工作状态识别方法、装置、计算机设备、存储介质 |
CN114757448B (zh) * | 2022-06-09 | 2022-08-16 | 华北电力大学 | 一种基于数据空间模型的制造环节间最优价值链构建方法 |
CN114757448A (zh) * | 2022-06-09 | 2022-07-15 | 华北电力大学 | 一种基于数据空间模型的制造环节间最优价值链构建方法 |
CN115795740A (zh) * | 2023-01-30 | 2023-03-14 | 燕山大学 | 一种复杂工况下的工程机械液压油缸失效模式分析方法 |
CN116884575A (zh) * | 2023-07-10 | 2023-10-13 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种针对癌症患者心理健康评估系统的控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147949A (zh) | 一种基于分类回归树来用于检测教师亚健康状态的方法 | |
US7801924B2 (en) | Decision tree construction via frequent predictive itemsets and best attribute splits | |
Theisen et al. | Age differences in diffusion model parameters: A meta-analysis | |
Rani et al. | Association clustering and time series based data mining in continuous data for diabetes prediction | |
US20090106179A1 (en) | System and method for the longitudinal analysis of education outcomes using cohort life cycles, cluster analytics-based cohort analysis, and probablistic data schemas | |
Webb et al. | Efficient discovery of the most interesting associations | |
Deepika et al. | Relief-F and Budget Tree Random Forest Based Feature Selection for Student Academic Performance Prediction. | |
Orooji et al. | Predicting louisiana public high school dropout through imbalanced learning techniques | |
Wang et al. | ProbSAP: A comprehensive and high-performance system for student academic performance prediction | |
CN114141321A (zh) | 一种社区老年轻度认知障碍智能随访服务推荐方法 | |
Vidulin et al. | Combining human analysis and machine data mining to obtain credible data relations | |
Behnisch et al. | Urban data-mining: spatiotemporal exploration of multidimensional data | |
Neubarth et al. | Supervised descriptive pattern discovery in Native American music | |
Prabadevi et al. | A decision model for ranking Asian Higher Education Institutes using an NLP-based text analysis approach | |
Schlüter | Knowledge discovery from time series | |
Liu et al. | An Embedded Co-AdaBoost based construction of software document relation coupled resource spaces for cyber–physical society | |
Minowa | Verification for generalizability and accuracy of a thinning-trees selection model with the ensemble learning algorithm and the cross-validation method | |
Rajaram et al. | A novel computational knowledge-base framework for visualization and quantification of geospatial metadata in spatial data infrastructures | |
Kamal et al. | Disease Symptoms Analysis Using Data Mining Techniques to Predict Diabetes Risk. | |
Gadekar et al. | Symptoms Based Disease Prediction | |
Sarić et al. | Identification of alcohol addicts among high school students using decision tree based algorithm | |
Belfodil | Exceptional model mining for behavioral data analysis | |
Baadel | A machine learning clustering technique for autism screening and other Applications | |
Weller | Learning Latent Features using Stochastic Neural Networks on Graph Structured Data | |
Hussein Mohsen | Exploring Students Mental Behaviors Using Unsupervised Learning Algorithms and Graph Theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |
|
RJ01 | Rejection of invention patent application after publication |