CN105956382B - 一种中医体质优化分类方法 - Google Patents

一种中医体质优化分类方法 Download PDF

Info

Publication number
CN105956382B
CN105956382B CN201610264903.XA CN201610264903A CN105956382B CN 105956382 B CN105956382 B CN 105956382B CN 201610264903 A CN201610264903 A CN 201610264903A CN 105956382 B CN105956382 B CN 105956382B
Authority
CN
China
Prior art keywords
skin
index
constitution
probability
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610264903.XA
Other languages
English (en)
Other versions
CN105956382A (zh
Inventor
张慧妍
王小艺
王立
李爽
许继平
于家斌
董银卯
孟宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201610264903.XA priority Critical patent/CN105956382B/zh
Publication of CN105956382A publication Critical patent/CN105956382A/zh
Application granted granted Critical
Publication of CN105956382B publication Critical patent/CN105956382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明公开了一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法,属于中医体质科学与信息科学技术交叉融合的工程技术领域。本发明建立了多维人体面部皮肤指标体系,筛选出相关性较强的指标集合,并根据各指标不同的贡献程度,有所侧重的保留原属性以剔除冗余属性。针对需要兼顾可解释性与准确性的分类要求,充分发挥了训练样本较少条件下决策树对属性和类间关系的良好归纳特性和训练样本较多条件下朴素贝叶斯分类准确率最高的优势,所述中医体质优化分类方法可以用于定量地研究皮肤与中医体质间的潜在联系,为皮肤的健康养护、调理和治疗提供一定的科学依据与数据、方法支撑。

Description

一种中医体质优化分类方法
技术领域
本发明涉及一种基于人体面部皮肤指标信息的中医体质分类方法,属于中医体质科学与信息科学技术交叉融合的工程技术领域。具体地说,是一种基于改进型CART(Classification And Regression Tree)决策树与模糊朴素贝叶斯组合模型的分类方法,根据面部皮肤指标与人体内在的中医体质类型间的隐形关联关系,实现通过面部皮肤测试信息,快速确定中医体质类型的目的。
背景技术
皮肤作为人体最外层,最大的组织器官,遍布于身体的各个部位,是覆盖身体的屏障,起着最基础的保护作用。中医体质是中医基础理论的重要组成部分,主要研究人的体质和健康之间的相关关系。中医学认为,体质是人体生命过程中,在先天禀赋和后天获得的基础上所形成的形态结构、生理功能和心理状态等方面综合的、相对稳定的固有特质。根据传统的中医面诊思想,皮肤表象可以反映人体身体健康程度及疾病迹象,中医体质学则进一步认为体质状态对皮肤状态具有决定性作用。因此,探索建立基于皮肤状态信息的体质分类模型,研究皮肤与体质间的潜在联系,可以深入了解每种体质类型的皮肤特性,实现从内调理体质的角度开展指导外部皮肤养护的工作,为增进皮肤健康提供新的手段和方法。
然而,目前在中医体质分类领域,由于问题的复杂性,现阶段学者们大多仅研究了体质与生活习惯、年龄、周围环境等因素的相关关系,对皮肤与体质关系的研究相对较少。在仅有的一些研究中,由于受到测试设备、时间、环境及经济等因素的影响,研究工作一般仅针对少数几个皮肤指标进行分析,虽然在一定程度上佐证了皮肤和体质具有相关性,但仍未能建立描述二者间复杂关系的较精确的定量模型。因此,需要借鉴数据挖掘领域的研究方法与成果,开展基于多属性皮肤指标数据的中医体质分类研究。在建模过程中,一方面要最大化提高模型的分类准确度,另一方面还要探究皮肤信息与体质类型间的客观统计规律,在确定中医体质类型的同时探索人体内在体质类型及健康程度对各皮肤指标的影响趋势。
发明内容
本发明的目的是为了解决现有的体质分类算法仅简单分析皮肤与中医体质间存在的相关关系,不能定量建立分类模型,且常规研究中涉及的皮肤指标属性过于单一、不够全面等问题,提出一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法。本发明提供的中医体质优化分类方法,充分全面的反映人体面部皮肤状态,建立了多维人体面部皮肤指标体系,在此基础上,筛选出相关性较强的指标集合,并根据各指标不同的贡献程度,有所侧重的保留原属性以剔除冗余属性。针对需要兼顾可解释性与准确性的分类要求,充分发挥了训练样本较少条件下决策树对属性和类间关系的良好归纳特性和训练样本较多条件下朴素贝叶斯分类准确率最高的优势,所述中医体质优化分类方法可以用于定量地研究皮肤与中医体质间的潜在联系。
本发明提供的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法,主要包括以下五个步骤:
步骤一、人体面部皮肤指标体系构建及关键指标提取;
根据皮肤领域背景知识,结合中医理论,从水润度、色泽度、弹力度、光滑度等角度分析、确定下能够充分全面衡量人体面部皮肤状态的皮肤指标,构建综合性较强的多维人体面部皮肤指标体系。为了避免指标体系包含冗余属性和信息量很少的属性指标,在构建体质分类模型前先对相关性较强的指标集合通过主成分分析法进行降维,重新组合为一组新的相互无关的综合变量。
步骤二、不同部位皮肤指标信息加权综合;
为了全面的反应人体面部皮肤状态,选取额头、左眼角、左脸颊和下巴四个部位的皮肤指标属性,并根据专家意见采用层次分析法计算出四个部位的权重,对四个部位的皮肤指标值加权综合得到各皮肤指标属性的四部位综合值。
步骤三、基于改进CART决策树模型的中医体质分类;
将人体的体质类型集表示为因变量,皮肤指标属性集表示为自变量,以人体面部皮肤指标属性的四部位综合值和其相应的体质类型为训练样本,对训练样本通过递归分割的方式建立CART决策树。为了避免决策树过于庞大导致对噪声数据出现过拟合,对未知新样本(待分类的人体面部皮肤指标属性的四部位综合值)的分类准确度降低,模型的可解释性变差等情况,定义了综合考虑分类模型精度和复杂度的最优树评价指标,用以选择出最佳的CART决策树后剪枝方式,得到综合性能最优的决策树分类模型。
步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
将中医体质类型设定为贝叶斯模型的类变量,皮肤指标属性集设定为贝叶斯模型的属性集。为了解决皮肤指标属性值受内外影响会产生波动这一问题,定义各皮肤指标属性值对归属区间的模糊隶属度函数,用以计算贝叶斯模型的模糊类条件概率。并通过统计分析计算出各类中医体质类型的先验概率,带入贝叶斯模型中求解得到各皮肤指标属性集对三类中医体质的模糊后验概率,最大后验概率所对应的中医体质类型就是该皮肤指标属性对应的基础体质。
步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合;
分别统计CART决策树和贝叶斯模型对训练样本的中医体质类型分类的准确度ACART和ANB,以及各自对每种体质类型的后验概率,对后验概率加权综合,得到最大概率所对应的体质类型即为最终的体质分类输出结果。
本发明的优点在于:
1、本发明考虑到人体面部皮肤状态受多指标、多部位测试信息的共同影响,提出构建多维人体面部皮肤指标体系,并通过前期的数据预处理,将多部位的测试信息加权得到能完备反应人体面部皮肤状态的指标综合值,进而又采用主成分分析法去除冗余属性,提取出了全面、客观、又简捷高效的皮肤指标体系。这对于后续减少皮肤测试指标、节省测试时间、加快信息挖掘速度、简化算法,具有重要意义。
2、本发明提出采用改进CART决策树模型用于实现基于皮肤指标属性的中医体质分类,可以在训练样本较少的条件下快速准确的挖掘出皮肤与体质间的分类规则,从信息处理的角度为中医领域专家提供客观存在但隐藏在数据中未被发现的知识。同时,针对决策树算法可能出现的过拟合问题,定义了综合考虑模型精度和复杂度的最优树评价指标,用以选择最佳的决策树后剪枝方式,得到对训练样本以及未知新样本分类准确性均较高的分类模型。
3、本发明提出采用模糊贝叶斯模型对中医体质进行分类,前瞻并发挥了在训练样本较多的条件下贝叶斯模型分类准确率最高的优势,通过计算模糊类条件概率解决了皮肤指标受内外影响会产生波动这一问题,较好地实现了体质归类判别不确定性和边界划分不确定性的融合。
4、本发明提出了将CART决策树和贝叶斯的后验概率加权综合的方法对两算法的分类结果进行融合,最大化的提高了模型分类精度和可解释性。在确定体质类型的同时探索面部皮肤指标与人体内在中医体质类型间的关联关系,从“外象”(皮肤)和“内因”(体质)两个方面进行研究,为皮肤的健康养护、调理和治疗提供一定的科学依据与数据、方法支撑。
附图说明
图1为本发明提供的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法的流程图;
图2为多维人体面部皮肤指标体系结构图;
图3为建立改进CART决策树模型的算法流程图;
图4是各皮肤指标对归属区间的模糊隶属度函数图;
图5是经过剪枝后的完整的CART决策树。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
本发明提供一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法,流程图如图1所示,具体步骤如下:
步骤一、人体面部皮肤指标体系构建及关键指标提取;
根据皮肤领域背景知识,常用的人体面部皮肤指标包括光泽度、粗糙度、pH值、气血、水分含量、水分散失、色度、油脂、黑红色素、弹性等,从水润度、色泽度、弹力度、光滑度等角度能够充分全面衡量人体面部皮肤状态,构建的多维人体面部皮肤指标体系如图2所示,所述的粗糙度通过平滑深度Rt、平均粗糙度Rz、算数平均值Ra和取样长度LR来衡量,所述的气血通过二氧化碳分压PCO2和氧分压PO2来衡量,所述的色度通过黄蓝色度B、红绿色度A和明度L来衡量,所述的黑红色素通过红色素EI和黑色素MI来衡量。考虑到人体面部皮肤指标属性值间差异较大,在训练样本较少的条件下无法满足正态分布,故选择对分析变量不需要正态性假设的Spearman秩相关系数来度量皮肤指标两两之间的相关性,并对筛选出的相关性较强(可选择大于0.4)的皮肤指标采用主成分分析法进行降维,降维后得到一组各指标间相互独立的皮肤指标属性集。
步骤二、不同部位皮肤指标信息加权综合;
人体面部皮肤的每个部位均反映皮肤状态情况,但在探究皮肤与体质间分类关系时对所有部位进行测试难以实现,因此本发明中选取额头、左眼角、左脸颊和下巴四个部位组成测试部位集。并采用层次分析法分别计算四个部位的权重,首先建立层次结构模型,然后根据专家意见构造判断矩阵,通过层次单排序及其一致性检验,最后计算出四个部位的权重,对四个部位的皮肤指标属性值进行加权综合得到各皮肤指标的四部位综合值,实现对整个面部皮肤状态的表征。
步骤三、基于改进CART决策树模型的中医体质分类;
将训练样本的中医体质类型集表示为因变量,皮肤指标属性集表示为自变量,逐一检查每个皮肤指标属性和该皮肤指标属性所有可能的分割阈值来发现最好的划分,将每个皮肤指标属性的所有划分按照划分前后减少的杂质量来进行排序,划分前的杂质量为全部训练样本的Gini指标值,划分后的杂质量为落在每个节点的训练样本的Gini指标值与划分到该节点的训练样本百分比乘积之和,其中所述的Gini指标等于pi代表每个训练样本出现的概率。对训练样本采用二分递归分割的方式建立CART决策树,具体流程如图3所示:
第一步,创建根节点;
第二步,计算根节点中全部训练样本的Gini系数G;
第三步,指定某一皮肤指标属性X为划分属性;
第四步,设定皮肤指标属性X的分割阈值,将训练样本分成两组,计算划分后的Gini系数G';求出划分前后的Gini系数减少量ΔG=G-G';求解皮肤指标属性X的所有可能分割阈值对应的Gini系数减少量;
第五步,对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量GB=max(ΔG),则最大减少量GB所对应的分割阈值XB即为该Gini系数的最佳分割阈值;
第六步,重复第三步~第五步,针对根节点中每一个皮肤指标属性,分别计算得到最佳划分阈值及其相应的最大减少量GB,比较各个最大减少量GB,得到最大减少量GB的最大值即max(GB),则max(GB)对应的皮肤指标属性为最佳划分皮肤属性,对应的分割阈值为最佳划分阈值。
第七步,判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新带入到第二步至第六步中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点均达到叶节点时决策树生长完成。
对构建好的决策树,若出现过拟合现象,会降低对未知数据的分类准确度,为了避免这种问题,本发明定义了一种综合考虑分类能力和决策树规模的改进后剪枝算法,原理如下:(1)分类能力度量;
将参与皮肤测试的志愿者的皮肤和体质信息作为训练样本,设N为决策树的训练样本总数,n(t)为训练样本中进入到决策树中任意一个节点t的训练样本个数,e(t)为训练样本中到达任意节点t并且属于节点t所对应的体质类型的训练样本个数,定义决策树的分类精度为,
其中M为决策树中所有叶节点的个数,a(M)的值越大,本文中选取a(M)大于0.6,认为分类效果越明显,决策树的分类性能就越好。
(2)决策树规模度量;
根据经验,决策树叶节点数保持在5~10个时分类效果最理想,小于2个或大于25个时,实际应用效果较差。因此若决策树的叶节点个数为M,则定义决策树的规模系数为,
d(M)的值越大,决策树的复杂程度越适中,在保证分类准确率前提下抽取出来的规则也容易理解和应用。
(3)改进后剪枝算法;
为了综合考虑决策树模型的分类能力和决策树的规模,定义了基于决策树分类精度a(M)和规模系数d(M)的最优树评价指标I(M),计算公式为
I(M)=k1·a(M)+k2·d(M) (3)
其中,k1、k2分别为分类精度和规模系数的权重,满足k1+k2=1。首先从原始的决策树中裁剪出一系列的候选子树,在所有的候选剪枝树中,比较各个候选剪枝树的最优树评价指标I(M),保留I(M)值最大的一颗作为最终的最优决策树。
步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
将中医体质类型设定为贝叶斯模型的类变量,Y=(Y1,Y2,…,Ym);皮肤指标集设定为贝叶斯模型的属性集,X=(X1,X2,…,Xn)。根据贝叶斯理论,皮肤指标集X属于中医体质类型Yk的概率为
由于皮肤指标集的联合概率P(X1,X2,…,Xn)是常数,因此比较皮肤指标集属于各类中医体质类型的后验概率,只需考虑中医体质类型的先验概率P(Yk)与皮肤指标集模糊类条件概率P(X1,X2,…,Xn|Yk)的乘积即可。
首先通过统计分析计算属于中医体质类型Yk的训练样本个数并与训练样本总数相除,求出先验概率P(Yk)。然后计算各类中医体质类型下皮肤指标Xj的模糊条件概率P(Xj|Yk),j=1,2,…n。由于连续型皮肤指标值分布较为分散,统计规律较小,因此将连续型皮肤指标值离散化,用相应的离散区间替换连续指标值。统计落在某一离散区间内的训练样本个数并除以训练样本总数,即可求出中医体质类型为Yk时皮肤指标Xj的模糊条件概率。考虑到皮肤指标值受内外影响存在一定的波动性,所述离散区间边界附近的皮肤指标值在重复测试中可能被划分到不同离散区间,本发明提出采用对皮肤指标的离散区间模糊隶属度求和的方式来表示此离散区间中的训练样本对区间的实际隶属程度,构建的模糊隶属度函数如图4所示,设皮肤指标值在区间边界的波动范围为±0.02。并提出计算模糊条件概率的公式为
其中,mk为属于体质类型Yk的训练样本个数,μ(x)i为体质类型Yk下指标Xj落在某一离散区间内的各个训练样本对所在离散区间的模糊隶属度,q为落在该离散区间的训练样本个数。
按照上述原理逐一计算各类体质下指标的模糊条件概率,计算步骤如下:
(a)将所有训练样本的指标数据归一化,确保各指标的区间范围为[0,1];
(b)将区间[0,1]等距划分为5个边界有重叠的子区间,各区间重叠的范围为[0.18,0.22]、[0.38,0.42]、[0.58,0.62]、[0.78,0.82],构建指标对区间的模糊隶属度函数;
(c)计算体质为Yk的训练样本中各指标下的每个训练样本值分别对5个子区间的模糊隶属度;
(d)计算Yk体质下各指标对5个子区间的模糊条件概率,并列出模糊条件概率表;
(e)重复步骤(c)~(d),逐一计算出各类体质下训练样本的模糊条件概率,同样列出相应的模糊条件概率表。
计算出各类体质下指标的模糊条件概率后,对其进行相乘,求解出指标集X对各类体质的模糊类条件概率,计算公式如下
将其与此前计算出的各类体质的先验概率相乘,求出的最大后验概率对应的体质类型即为贝叶斯模型的输出。
步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合;
首先分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ANB。进而计算决策树模型分别对各类体质的训练准确度b(k),k=1,2,…,m,m为全部的体质类型总数。则本发明定义决策树模型在输出体质类型为Yt时对各类体质的后验概率为
将其与贝叶斯模型输出的后验概率P(Yk|X)NB加权综合,可得
此时,得到的最大概率所对应的体质类型即为最终的分类输出结果。
下面通过实施例进一步说明本发明的技术方案。
实施例一:
步骤一、人体面部皮肤指标体系构建及关键指标提取;
根据皮肤领域背景知识,确定下水分含量、水分散失、油脂、黑红色素、色度、光泽度、弹性、pH值、粗糙度、气血等17个皮肤指标,建立了完备反映人体面部皮肤状态的多维皮肤指标体系。并于2014年11月3日在北京工商大学化妆品协同中心实验室对181名志愿者的上述皮肤指标进行测试,每名志愿者分别测试额头、左眼角、左脸颊和下巴四个部位。测试过程中保证被测人员的皮肤清洁,测试环境恒温。
将181名志愿者测试到的样本数据分为两组,第一组为随机挑选151名志愿者的样本数据(包括4个测试部位的皮肤指标值和志愿者的体质类型)为建模的训练样本,第二组为余下30名志愿者的样本数据为测试样本。计算151组训练样本中17个皮肤指标两两之间的Spearman秩相关系数,筛选出相关系数大于0.4的皮肤指标。分析计算结果可得,{MI、EI、L、A、B、gzd}、{LR、Ra、Rz、Rt}、{PO2、PCO2}间具有较强相关性。对上述三组指标分别采用主成分分析法进行降维,得到的第一主成分贡献率均大于70%,故将三组指标分别综合为第一主成分所对应的新指标。结合实际情况,将三个新指标命名为色泽(sz)、粗糙度(ccd)和气血(qx),其数学关系式为
sz=[0.53,0.85,-0.035,0.0084,0.0029,-0.0027]*[MI,EI,L,A,B,gzd]T
ccd=[0.1229,0.0409,0.22,0.967]*[LR,Ra,Rz,Rt]T
qx=[0.995,-0.104]*[PO2,PCO2]T
降维后得到的人体面部皮肤指标体系包括水分含量、水分散失、油脂、色泽、弹性、PH值、粗糙度和气血8个指标。
步骤二、不同部位皮肤指标信息加权综合;
根据皮肤领域专家意见可知额头、眼角、脸颊和下巴四个部位对人体面部皮肤状态的重要程度排序依次为脸颊>眼角>下巴>额头,因此构造的判断矩阵为
采用层次分析法计算四个部位的权重,得到的权重结果见表1。进而对每位测试者的四部位皮肤指标值加权综合,求得的指标综合值即可实现对整个面部皮肤状态的表征。
表1层次分析法赋权结果
部位 额头 左眼角 左脸颊 下巴
权重 0.08 0.25 0.42 0.25
步骤三、基于改进CART决策树模型的中医体质分类;
依据中医理论,人体有平和质、气虚质、阳虚质、阴虚质、痰湿质、湿热质、血瘀质、气郁质、特禀质等九大体质,不同的体质在皮肤上的表征也是各有不同。平和质的人群属于健康人群,偏颇体质的人群均存在某些方面的健康问题,或多或少的会对皮肤指标产生负向影响。其中阳虚质是所有偏颇体质中最常见的体质之一,多产生于熬夜、贪凉、过度控制饮食以至营养不良、长期大量服用抗生素等情况。通过合理的锻炼、健康的饮食并辅以中医的调理保健,阳虚质人群可以达到和平和质人群一样的健康状态。因此考虑到阳虚质的广泛性且易于改善的特点,本发明将阳虚质这一当今最典型的偏颇体质单独提出来进行分析,研究依据皮肤指标对平和质、阳虚质和其它偏颇质三类体质的分类问题。
将151名志愿者的体质类别集表示为因变量,皮肤指标属性集表示为自变量,通过逐一计算每个皮肤指标属性和该皮肤指标属性所有可能的分割阈值对应的Gini指标减少量确定下最好的划分,构建出了分类精度达到84%,叶节点个数为23的CART决策树模型。为了降低决策树的复杂度防止出现过拟合现象,从原始的决策树中裁剪出了三颗候选子树,参照公式(1)-(3)分别计算这三颗候选子树的最优树评价指标I(M),由于研究初期没有特殊的倾向性考虑,本发明默认公式(3)中保留计算出的I(M)值最大的一颗作为最终的最优决策树,树的结构详见图5,此时决策树的分类精度为75%,包含10个叶节点。
步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
设三种体质类型分别为系统的三个类变量,Y=(Y1,Y2,Y3),其中Y1为平和质,Y2为阳虚质,Y3为其它偏颇质,主成分分析降维后的皮肤指标集为模型的属性集,X=(X1,X2,…,X8)。首先对151组训练样本的样本属性值进行归一化处理,并将指标区间[0,1]等距划分为5个子区间。其次对训练样本按其数据特性相应的分成三个与体质类型对应的子集,将三个子集的各皮肤指标值代入模糊隶属度函数中,计算出每个训练样本的皮肤指标值对五个区间的模糊隶属度,最后参照公式(5),计算出相应的模糊条件概率,列出模糊条件概率表见表2。
表2三类体质模糊条件概率表
平和质 水分含量 水分散失 油脂 色泽 弹性 PH值 粗糙度 气血
[0,0.2] 0.1818 0.1298 0.5269 0.0851 0.0000 0.0648 0.8703 0.1158
[0.2,0.4] 0.3059 0.2543 0.3212 0.2815 0.0176 0.3889 0.0547 0.2359
[0.4,0.6] 0.3228 0.2928 0.0634 0.3114 0.2905 0.2816 0.0213 0.3037
[0.6,0.8] 0.0778 0.1539 0.0137 0.1444 0.4352 0.1651 0.0000 0.1977
[0.8,1] 0.0213 0.0426 0.0213 0.0490 0.1612 0.0213 0.0213 0.0426
阳虚质 水分含量 水分散失 油脂 色泽 弹性 PH值 粗糙度 气血
[0,0.2] 0.0517 0.1667 0.6415 0.0635 0.0000 0.0000 0.9265 0.2138
[0.2,0.4] 0.2737 0.3113 0.2247 0.4047 0.0238 0.1179 0.0000 0.2384
[0.4,0.6] 0.4051 0.2434 0.0238 0.3393 0.1238 0.1667 0.0000 0.4162
[0.6,0.8] 0.1819 0.1764 0.0801 0.1206 0.4314 0.4335 0.0188 0.0361
[0.8,1] 0.0238 0.0476 0.0000 0.0000 0.3336 0.1911 0.0238 0.0000
偏颇质 水分含量 水分散失 油脂 色泽 弹性 PH值 粗糙度 气血
[0,0.2] 0.2035 0.1351 0.5599 0.0476 0.0323 0.0323 0.9446 0.2901
[0.2,0.4] 0.2135 0.3389 0.2454 0.3700 0.1246 0.1281 0.0438 0.3352
[0.4,0.6] 0.3357 0.2578 0.1201 0.3464 0.3692 0.2392 0.0000 0.1346
[0.6,0.8] 0.1476 0.1229 0.0161 0.0992 0.2104 0.3208 0.0000 0.1332
[0.8,1] 0.0421 0.0769 0.0000 0.0321 0.1385 0.2083 0.0000 0.0000
基于对训练样本的统计分析表明,151组训练样本中,包含平和体质47组,阳虚体质42组,其他偏颇体质62组。除以训练样本总数可以求出三类体质的先验概率分别为31.1%,27.8%和41.1%。将上述计算结果带入公式(4),逐一计算出151组训练样本的分类输出,将分类结果与专家诊断结果相对比,分类正确率达到72%。
步骤五、改进CART决策树与模糊朴素贝叶斯模型的融合;
独立的CART决策树模型和模糊朴素贝叶斯模型对训练样本的分类准确度ACART和ANB分别为75%和72%,其中决策树模型对三类体质分别的训练准确度b1,b2,b3为76.6%,61%和81.1%。将上述结果带入公式(7)-(8),对保留的30组测试样本进行测试,可发现融合后的算法分类准确度达到86%,高于独立CART决策树模型的82%和独立模糊朴素贝叶斯模型的80%。表明采用本发明提出的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质分类方法与专家意见吻合度较高,能够比较客观的描述皮肤状态和体质间的潜在联系,具有较好的实际应用与理论参考价值,分类模型简洁、高效、易于推广。

Claims (4)

1.一种中医体质优化分类方法,其特征在于:所述的中医体质优化分类方法基于改进型CART决策树与模糊朴素贝叶斯组合模型,包括以下步骤,
步骤一、人体面部皮肤指标体系构建及关键指标提取;
确定人体面部皮肤状态的皮肤指标,选择Spearman秩相关系数来度量皮肤指标两两之间的相关性,并对筛选出的相关性强的皮肤指标采用主成分分析法进行降维,重新组合为一组新的相互无关的综合变量,作为皮肤指标属性集;
步骤二、不同部位皮肤指标信息加权综合;
选取额头、左眼角、左脸颊和下巴四个部位的皮肤指标属性,采用层次分析法计算出四个部位的权重,对四个部位的皮肤指标值加权综合得到各皮肤指标属性的四部位综合值;
步骤三、基于改进CART决策树模型的中医体质分类;
将人体的体质类型集表示为因变量,皮肤指标属性集表示为自变量,以人体面部皮肤指标属性的四部位综合值和其相应的体质类型为训练样本,对训练样本通过递归分割的方式建立CART决策树;
步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
将中医体质类型设定为贝叶斯模型的类变量,皮肤指标属性集设定为贝叶斯模型的属性集,定义各皮肤指标属性值对归属区间的模糊隶属度函数,用以计算贝叶斯模型的模糊类条件概率;并通过统计分析计算出各类中医体质类型的先验概率,带入贝叶斯模型中求解得到各皮肤指标属性集对各类中医体质类型的模糊后验概率,最大后验概率所对应的中医体质类型就是该皮肤指标属性对应的基础体质;
步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合;
分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ANB;进而计算决策树模型分别对各类体质的训练准确度b(k),k=1,2,…,m,m为全部的体质类型总数;定义决策树模型在输出体质类型为Yt时对各类体质的后验概率为,
将其与贝叶斯模型输出的后验概率P(Yk|X)NB加权综合,得,
此时,得到的最大概率所对应的体质类型即为最终的分类输出结果,其中X为皮肤指标集X=(X1,X2,…,Xn)。
2.根据权利要求1所述的一种中医体质优化分类方法,其特征在于:所述的人体面部皮肤指标包括光泽度、粗糙度、pH值、气血、水分含量、水分散失、色度、油脂、黑红色素和弹性;所述的相关性强是指Spearman秩相关系数大于0.4。
3.根据权利要求1所述的一种中医体质优化分类方法,其特征在于:
步骤三中,将训练样本的中医体质类型集表示为因变量,皮肤指标属性集表示为自变量,对训练样本采用二分递归分割的方式建立CART决策树,具体为:
第一步,创建根节点;
第二步,计算根节点中全部训练样本的Gini系数G;
第三步,指定某一皮肤指标属性X为划分属性;
第四步,设定皮肤指标属性X的分割阈值,将训练样本分成两组,计算划分后的Gini系数G';求出划分前后的Gini系数减少量ΔG=G-G';求解皮肤指标属性X的所有可能分割阈值对应的Gini系数减少量;
第五步,对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量GB=max(ΔG),则最大减少量GB所对应的分割阈值XB即为该Gini系数的最佳分割阈值;
第六步,重复第三步~第五步,针对根节点中每一个皮肤指标属性,分别计算得到最佳划分阈值及其相应的最大减少量GB,比较各个最大减少量GB,得到最大减少量GB的最大值即max(GB),则max(GB)对应的皮肤指标属性为最佳划分皮肤属性,对应的分割阈值为最佳划分阈值;
第七步,判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新带入到第二步至第六步中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点均达到叶节点时决策树生长完成。
4.根据权利要求1所述的一种中医体质优化分类方法,其特征在于:步骤四中所述的基于模糊朴素贝叶斯模型的中医体质分类,具体为,
将中医体质类型设定为贝叶斯模型的类变量,Y=(Y1,Y2,…,Ym),其中m为全部的体质类型总数;皮肤指标集设定为贝叶斯模型的属性集,X=(X1,X2,…,Xn),根据贝叶斯理论,皮肤指标集X属于中医体质类型Yk的概率为
由于皮肤指标集的联合概率P(X1,X2,…,Xn)是常数,因此比较皮肤指标集属于各类中医体质类型的后验概率,只需考虑中医体质类型的先验概率P(Yk)与皮肤指标集模糊类条件概率P(X1,X2,…,Xn|Yk)的乘积即可;
首先通过统计分析计算属于中医体质类型Yk的训练样本个数并与训练样本总数相除,求出先验概率P(Yk);然后计算各类中医体质类型下皮肤指标Xj的模糊条件概率P(Xj|Yk),j=1,2,…n;统计落在某一离散区间内的训练样本个数并除以训练样本总数,求出中医体质类型为Yk时皮肤指标Xj的模糊条件概率;采用对皮肤指标的离散区间模糊隶属度求和的方式来表示此离散区间中的训练样本对区间的实际隶属程度,设皮肤指标值在区间边界的波动范围为±0.02,并提出计算模糊条件概率的公式为
其中,mk为属于体质类型Yk的训练样本个数,μ(x)i为体质类型Yk下指标Xj落在某一离散区间内的各个训练样本对所在离散区间的模糊隶属度,q为落在该离散区间的训练样本个数;
按照上述原理逐一计算各类体质下指标的模糊条件概率,计算步骤如下:
(a)将所有训练样本的指标数据归一化,确保各指标的区间范围为[0,1];
(b)将区间[0,1]等距划分为5个边界有重叠的子区间,各区间重叠的范围为[0.18,0.22]、[0.38,0.42]、[0.58,0.62]、[0.78,0.82],构建指标对区间的模糊隶属度函数;
(c)计算体质为Yk的训练样本中各指标下的每个训练样本值分别对5个子区间的模糊隶属度;
(d)计算Yk体质下各指标对5个子区间的模糊条件概率,并列出模糊条件概率表;
(e)重复步骤(c)~(d),逐一计算出各类体质下训练样本的模糊条件概率,同样列出相应的模糊条件概率表;
计算出各类体质下指标的模糊条件概率后,对其进行相乘,求解出指标集X对各类体质的模糊类条件概率,计算公式如下
将其与此前计算出的各类体质的先验概率相乘,求出的最大后验概率对应的体质类型即为贝叶斯模型的输出。
CN201610264903.XA 2016-04-26 2016-04-26 一种中医体质优化分类方法 Active CN105956382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610264903.XA CN105956382B (zh) 2016-04-26 2016-04-26 一种中医体质优化分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610264903.XA CN105956382B (zh) 2016-04-26 2016-04-26 一种中医体质优化分类方法

Publications (2)

Publication Number Publication Date
CN105956382A CN105956382A (zh) 2016-09-21
CN105956382B true CN105956382B (zh) 2018-06-19

Family

ID=56915782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610264903.XA Active CN105956382B (zh) 2016-04-26 2016-04-26 一种中医体质优化分类方法

Country Status (1)

Country Link
CN (1) CN105956382B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529175A (zh) * 2016-11-10 2017-03-22 北京工商大学 基于皮肤测量的气虚体质评估方法及评估系统
CN106529174A (zh) * 2016-11-10 2017-03-22 北京工商大学 基于皮肤测量的气郁体质评估方法及评估系统
CN108074644A (zh) * 2016-11-10 2018-05-25 北京工商大学 基于皮肤测量的平和体质评估方法及评估系统
CN106709448A (zh) * 2016-12-21 2017-05-24 华南理工大学 一种基于人脸卷积神经网络的中医体质识别方法
CN107622801A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 疾病概率的检测方法和装置
CN109493950A (zh) * 2018-10-29 2019-03-19 北京工商大学 综合多属性主客观信息的人体面部皮肤状态区间预测方法
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN111428742B (zh) * 2018-12-24 2023-12-19 有品国际科技(深圳)有限责任公司 人体健康测量方法、装置、计算机设备及存储介质
CN109859815A (zh) * 2019-01-24 2019-06-07 西安交通大学 一种辅助用药决策方法及智能辅助用药系统
CN109935328A (zh) * 2019-03-20 2019-06-25 上海铀米机器人科技有限公司 一种基于贝叶斯模型的体质辨识方法
CN110084277B (zh) * 2019-03-29 2021-03-05 广州思德医疗科技有限公司 一种训练集的拆分方法及装置
CN111126432B (zh) * 2019-11-14 2023-07-07 武汉纺织大学 一种用于服装设计的人体体型分类方法
CN111723208B (zh) * 2020-06-28 2023-04-18 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
WO2023028997A1 (en) * 2021-09-03 2023-03-09 Paypal, Inc. Exhaustive learning techniques for machine learning algorithms
CN116825364A (zh) * 2023-08-29 2023-09-29 江苏盛泰科技集团有限公司 一种高危人群健康识别判定系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034874A (zh) * 2011-09-29 2013-04-10 上海中医药大学 基于中医望诊的面部光泽分析方法
CN105389460A (zh) * 2015-10-19 2016-03-09 苏华巍 中医体质甄别专家系统及其控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195910B2 (en) * 2013-04-23 2015-11-24 Wal-Mart Stores, Inc. System and method for classification with effective use of manual data input and crowdsourcing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034874A (zh) * 2011-09-29 2013-04-10 上海中医药大学 基于中医望诊的面部光泽分析方法
CN105389460A (zh) * 2015-10-19 2016-03-09 苏华巍 中医体质甄别专家系统及其控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于一致性预测器的中医证素组合诊断模型;王华珍 等;《厦门大学学报(自然科学版)》;20140131;第53卷(第1期);第41-45页 *
基于统计分析的中医体质分类研究;黄冲 等;《中国管理科学》;20121130;第20卷;第120-125页 *

Also Published As

Publication number Publication date
CN105956382A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105956382B (zh) 一种中医体质优化分类方法
CN103745217B (zh) 基于图像检索的中医舌色苔色自动分析方法
Huang et al. Weighted normal spatial scan statistic for heterogeneous population data
CN108717867A (zh) 基于梯度迭代树的疾病预测模型建立方法及装置
Li et al. Medical data stream distribution pattern association rule mining algorithm based on density estimation
CN107016233A (zh) 运动行为和认知能力的关联分析方法及系统
CN107507197A (zh) 一种基于聚类算法和卷积神经网络的肺实质提取方法
CN109934278A (zh) 一种信息增益混合邻域粗糙集的高维度特征选择方法
Zhang et al. Automatic detection of invasive ductal carcinoma based on the fusion of multi-scale residual convolutional neural network and SVM
R-Prabha et al. Design of hybrid deep learning approach for covid-19 infected lung image segmentation
Chen et al. Decision-making model based on ensemble method in auxiliary medical system for non-small cell lung cancer
Lee et al. Foresight of promising technologies for healthcare-IoT convergence service by patent analysis
Peng et al. Z-number dominance, support and opposition relations for multi-criteria decision-making
Hu et al. A Hybrid Convolutional Neural Network Model Based on Different Evolution for Medical Image Classification.
CN108741342A (zh) 一种基于因子分析和概率神经网络的人体体型聚类方法
Nguyen et al. Adversarially-regularized mixed effects deep learning (ARMED) models improve interpretability, performance, and generalization on clustered (non-iid) data
Arora et al. Classifiers for the detection of skin cancer
Choudhary et al. Glaucoma detection using cross validation algorithm
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN114155306A (zh) 一种计算机视觉和深度学习的眼底疾病可视化分析方法
Rosdiana et al. APPLICATION AND ATTRIBUTE ANALYSIS IN THE MODEL OF CLASSIFYING HEART DISEASE
Theissen et al. Learning cellular phenotypes through supervision
Albert et al. Gibbs sampler for the logistic model in the analysis of longitudinal binary data
Gowthami et al. Melanoma Detection Using Recurrent Neural Network
Sulla-Torres et al. Neuro-fuzzy system with particle swarm optimization for classification of physical fitness in school children

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant