CN116312974A - 基于随机森林的规则提取技术的肾阳虚证状态辨识系统 - Google Patents
基于随机森林的规则提取技术的肾阳虚证状态辨识系统 Download PDFInfo
- Publication number
- CN116312974A CN116312974A CN202310271312.5A CN202310271312A CN116312974A CN 116312974 A CN116312974 A CN 116312974A CN 202310271312 A CN202310271312 A CN 202310271312A CN 116312974 A CN116312974 A CN 116312974A
- Authority
- CN
- China
- Prior art keywords
- rule
- kidney
- yang deficiency
- identification
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000031975 Yang Deficiency Diseases 0.000 title claims abstract description 186
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 70
- 208000011580 syndromic disease Diseases 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 210000003734 kidney Anatomy 0.000 title claims description 16
- 238000003066 decision tree Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000005259 measurement Methods 0.000 claims abstract description 36
- 238000013138 pruning Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 53
- 208000024891 symptom Diseases 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000009966 trimming Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 208000001132 Osteoporosis Diseases 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 206010029446 nocturia Diseases 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- 230000037182 bone density Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 208000031971 Yin Deficiency Diseases 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 201000005569 Gout Diseases 0.000 description 1
- 206010020850 Hyperthyroidism Diseases 0.000 description 1
- 206010023509 Kyphosis Diseases 0.000 description 1
- 208000003926 Myelitis Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000008383 nephritis Diseases 0.000 description 1
- 206010029410 night sweats Diseases 0.000 description 1
- 230000036565 night sweats Effects 0.000 description 1
- 201000008482 osteoarthritis Diseases 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 206010039073 rheumatoid arthritis Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Alternative & Traditional Medicine (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基于随机森林的规则提取技术的肾阳虚证状态辨识系统,包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块,基于RF生成肾阳虚辨识规则模块采用分类回归树算法生成多棵决策树,并基于RF的多棵树生成规则集;肾阳虚可解释性辨识的规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集;肾阳虚辨识准确性与可解释性度量模块包括肾阳虚辨识规则的准确性度量和可解释性度量,准确性度量模块用于通过测试集验证预测规则集的准确性;可解释性度量模块用于通过测试集验证预测规则集的可解释性。
Description
技术领域
本发明涉及状态辨识技术领域,具体涉及一种基于随机森林(Random Forest,RF)的规则提取技术的肾阳虚证状态辨识系统。
背景技术
现有技术对中医辨证的研究方法多集中于经典统计分析方法以及一些复杂的机器学习方法应用,分析患者变量与中医证型之间的相关性及其统计显著性。但这些研究受限于兼顾准确性和可解释性,并没有考虑多个症状组合的表现对中医辩证的指导意义。因此,本技术拟引入基于随机森林的规则提取方法,从患者数据中生成大量由变量及变量高阶交互形成的规则,并筛选其中影响辩证的关键规则,并建立证型辨识模型。
发明内容
本发明旨在提供一种肾阳虚证状态辨识系统,以解决现有技术在算法训练效率和对其他疾病的适用性方面存在局限性的问题。
本发明的目的是解决现有技术的不足,提供一种新型的肾阳虚证状态辨识系统,包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块,所述的肾阳虚数据预处理模块用于对原始数据进行预处理,形成训练集与测试集的建模数据;所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法(Classification and Regression Tree,CART)生成多棵决策树,并基于RF的多棵树生成规则集;所述的肾阳虚可解释性辨识规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集;所述的提取肾阳虚辨识规则用于提取RF算法产生的肾阳虚辨识规则条件,删除重复条件,根据全部的训练集分配结局,形成第一肾阳虚辨识规则集;所述的度量规则用于引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性;所述的修剪规则条件用于修剪规则条件,删除重复规则,保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集;所述的选择规则用于将选择规则转化为特征选择问题,通过对规则转化成二分类特征后,从中选择一组相关但不冗余的特征子集,采用引导式正则化随机森林的特征选择算法选择规则条件,为该规则条件重新分配结局,从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集;所述的构建简化规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集,基于所述的第三肾阳虚辨识规则集构建一个互斥、完备且有序的预测规则列表;所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块,所述的准确性度量模块用于通过所述的测试集验证预测规则列表的准确性;所述的可解释性度量模块用于通过所述的测试集验证预测规则列表的可解释性。
优选地,所述的肾阳虚数据预处理模块用于对原始数据中的缺失、冗余、噪声数据进行清洗和规范,对文本数据进行结构化处理,对分类变量的哑变量进行处理,以及对连续变量进行分段处理。
优选地,所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用RF算法生成多棵决策树的具体方法为:
假设对于一个给定的训练集D,特征向量为X和类标签为y,令D=(Xi,yi),i=1,2,…,N,即D为具有N个类标签的样本,满足Xi∈X,且Xi=(Xi1,Xi2,…,Xim),其中m为特征个数,yi∈y={0,1}为二分类标签;用基尼指数Gini(D)表示训练集D的纯度,Gini(D)表示为:
其中pk(k=1,2,…,K)是当前数据集中第k个类样本所占的比例,即样本点属于第k类的概率;k′表示与第k个类不同的类样本;对于二分类问题,则有Gini(D)=2p(1-p);注意到Gini(D)越小,训练集D的纯度越高;假设特征有V个可能的值{a1,a2,...aV},用特征A划分训练集D,能够产生V个节点分支,其中第v(=1,2,…,V)个节点分支的训练集记为Dv,它包含了D中所有样本,但在特征A是否取值av处被分割成/>和/>两个部分,即用基尼指数Giniindex(D,A)表示训练集D关于特征A的不确定度,Giniindex(D,A)表示为:在所有可能的特征A以及它们所有可能的取值切分点av中,选择基尼指数最小的特征及其对应的切分点A*=argminAGiniindex(D,A)作为当前最优特征与最优切分点,依此从现有节点分裂成两个子节点,将训练集按最优特征和最优切分点分配到两个子节点中去,递归地将训练集循环划分成各个子集直至满足停止条件,由此生成一棵包含一组随机特征向量Θt的决策树,记为h(X,Θt),h:X→y,h∈H。
优选地,所述的基于RF生成肾阳虚辨识规则模块基于RF多棵树生成规则集S0的具体方法为:
采用自助法重抽样技术从n个样本中有放回地随机抽样R次,每次抽取2/3的样本用CART算法构建一棵决策树,共建立R棵决策树;在生成决策树的过程中,有两个重要的参数需要调整:节点用于分裂的特征数目s以及生成决策树的数目R;全部特征共有m个变量,每个分裂节点处从m中随机抽取s个变量,s<<m,通常分类模型选取即特征个数的平方根,回归模型选取特征的三分之一,然后在s个变量中确定最佳的分裂特征和切分点;将CART构建的R棵决策树的加权输出进行整合,得到分类结果:
其中ωt为RF中第t棵树的权值,通常取1/R,I为示性函数;样本的分类为argmaxy(f(Xi));RF的CART通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则;在每条路径中,节点的特征对应规则的条件,叶节点的类别对应规则的结局,IF-THEN规则表示为:IF<条件C>THEN<结局T>,记为将所有这些规则合并成一个规则集。
优选地,所述的提取规则模块形成第一肾阳虚辨识规则集的具体方法为:只提取规则的条件,然后以原始训练集中的全部数据为条件重新分配结局,即满足该条件最多的样本类别作为该规则的结局,删除重复的规则后形成一个新的规则集,即第一肾阳虚辨识规则集。
优选地,所述的度量规则模块引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性的具体方法为:
假设满足肾阳虚辨识规则条件C的样本数为L≤N,被错误分类成肾阳虚的样本数为E,一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例,即L/N,用于度量规则的流行度或支持度;一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数,即E/L,在回归问题中即为均方误差;而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中变量值对(影响特征值对)的数量,即|C|,用于度量规则的复杂度;对于两个在频率与误差指标值相似的规则中,长度指标值较小的规则更容易解释;频率、误差、长度或其组合能够反映规则的质量并能够用于对规则进行排序。
优选地,所述的修剪规则条件模块形成第二肾阳虚辨识规则集的具体方法为:
使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪,令Err0表示原始肾阳虚辨识规则的误差,Err-i表示删除第i个变量值对后肾阳虚辨识规则的误差,使用decayi值来评估删除第i个变量值对的效果;如果decayi值小于指定的误差阈值,则认为第i个变量值对肾阳虚辨识规则不重要因此可以删除;decayi定义为误差增加;Err-i-Err0定义为误差相对增加:ε是一个正数,用来限定Err0为零或接近于零时的decayi值,以同样的方式修剪规则中的条件,保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集。
优选地,所述的选择规则模块形成第三肾阳虚辨识规则集的具体方法为:
假设有N个肾阳虚状态辨识训练样本,把修剪后的每条辨识规则中的条件视为一个特征,设共有F个不重复特征,若肾阳虚状态辨识样本值满足特征中的变量值对,则此特征值记为1,否则记为0,再将这些二分类特征变量与原始训练样本结局相结合形成一个新的数据集N*F,然后应用特征选择方法选择一组紧凑的相关且非冗余的规则;对于具有相同预测能力的两条肾阳虚辨识规则,从可解释性方面,更希望选择长度小的规则,故采用引导式正则化随机森林的特征选择算法,考虑特征选择过程中辨识规则条件的复杂度,给每个特征分配一个权重λi(i=1,2,…,R)∈(0,1],权重依赖于辨识规则条件的长度和归一化重要性得分,长度越小或重要性得分越高,权重越大,特征具有相似的预测能力时,权重越大的辨识规则条件被选择的可能性更大;一旦条件选定,就能够为选定的条件重新分配结局,从而形成一个按照辨识规则重要程度排序的第三肾阳虚辨识规则集。
优选地,所述的构建简化规则集模块构建预测规则列表的具体方法为:
令S4表示有序的预测规则列表,算法定义初始规则为其中T*为原始训练集D中最频繁的类别。为了避免过拟合,从第三肾阳虚辨识规则集S3中删除低于预定频率的规则;算法按规则自上而下应用到每个样本,直到有样本满足辨识规则条件,并把规则结局分配给此样本,通过训练集D评估第三肾阳虚辨识规则集S3中的最佳规则并添加到有序的预测规则列表S4的最后;然后删掉每次迭代中满足最佳规则条件的样本实例,剩下的样本实例重新计算第三肾阳虚辨识规则集S3中余下的规则;这个迭代过程一直持续,直到训练集中没有样本实例,或者初始规则比第三肾阳虚辨识规则集S3中其他规则误差更小;这样就构建了一个互斥、完备且有序的预测规则列表S4。
优选地,所述的准确性度量模块通过所述的测试集验证预测规则列表的准确性的具体方法为:
记准确性为:
NACC为规则集的准确性,N表示样本量,{Xi,yi}代表第i个样本的特征和二分类标签,f(Xi)给出了第i个样本按规则集S4分类的结果;或者记另外还考虑了灵敏度、特异度、精度、F-measure值和AUC值,其中AUC值采用ROC曲线下的面积;TP表示真阳性,是对样本正确分类为阳性的样本数量;TN表示真阴性,是对样本正确分类为阴性的样本数量;FP表示假阳性,是对样本误分类为阳性的样本数量;FN表示假阴性,是对样本误分类为阴性的样本数量。
优选地,所述的可解释性度量模块通过所述的测试集验证预测规则列表的可解释性的具体方法为:
定义可解释性为:
NFEA、NCOV和NCNT分别定义为:
其中NFEA、NCOV和NCNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率;α、β和γ分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率的权重;其中表示规则集中第i个规则的特征数,inputfea表示规则集中去掉重复的特征后含有的特征数,/>表示满足第i条规则的样本数;countdata表示训练数据集的样本量,ruleselectrd表示规则集中规则的数量,rulecount表示提取规则的数量;NFEA∈[0,1],其中NFEA=0表示每条规则只包含一个特征,NFEA=1表示每条规则拥有所有特征。
有益效果
与现有技术相比,本发明的有益效果是:
本发明所述的肾阳虚证状态辨识系统利用RF生成规则结合规则提取方法的分解技术,优化RF生成的规则集,实现预测准确性和可解释性之间的权衡。其中的规则提取方法借用了可解释性的RF框架,特别说明了此框架的关键环节:对辨识规则的提取、度量、修剪、选择和简化,以及关键算法及其参数设定,定义了准确性和可解释性的度量。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的具体实施方式一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明所述的肾阳虚证状态辨识系统的功能框架示意图。
图2是本发明所述的肾阳虚证状态辨识系统的结构组成示意图。
图3是随机森林模型误差示意图。
图4是变量数目对RF模型的影响情况示意图。
图5是重要性变量排序示意图。
图6是修剪前后规则集的误差分布示意图。
具体实施方式
在下文中更详细地描述了本发明以有助于对本发明的理解。
如图1至图2所示,本发明所述的肾阳虚证状态辨识系统包括肾阳虚数据预处理模块、基于RF(Random Forest,RF)生成肾阳虚辨识规则模块、可解释RF框架的规则提取模块和肾阳虚辨识准确性与可解释性度量模块,所述的肾阳虚数据预处理模块用于对原始数据进行预处理,形成训练集与测试集的建模数据;所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用分类回归树(Classification and Regression Tree,CART)算法生成决策树,并基于RF产生的多棵树生成规则集S0;所述的可解释RF框架的规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化规则集;所述的提取肾阳虚辨识规则用于提取RF算法产生的肾阳虚辨识规则条件,删除重复条件,根据全部的训练集分配结局,形成第一肾阳虚辨识规则集S1;所述的度量规则用于引用频率(Frequency)、误差(Error)和长度(Length)这三个度量指标来度量所述第一肾阳虚辨识规则集中规则的统计特性;所述的修剪规则条件用于修剪规则条件,删除重复规则,保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集S2;所述的选择规则用于将选择规则转化为特征选择问题,通过对规则转化成二分类特征后,从中选择一组相关但不冗余的特征子集,采用引导式正则化随机森林的特征选择算法选择规则条件,为该规则条件重新分配结局,从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集S3;所述的构建简化规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集,基于所述的第三肾阳虚辨识规则集S3构建一个互斥、完备且有序的预测规则列表S4;所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块,所述的准确性度量模块用于通过所述的测试集验证模型(即预测规则列表S4)的准确性;所述的可解释性度量模块用于通过所述的测试集验证模型(即预测规则列表S4)的可解释性。
优选地,所述的肾阳虚数据预处理模块用于对原始数据中的缺失、冗余、噪声数据进行清洗和规范,对文本数据进行结构化处理,对分类变量的哑变量进行处理,以及对连续变量进行分段处理。
下面重点描述规则生成的过程,并说明从RF中提取规则集的形式化算法。基于RF的规则提取模型是多种规则生成方法中一种高效、可靠的方法,从这些模型中得到的规则能清晰地反映整个决策过程。RF考虑了基于决策树算法的随机选择分裂特征,利用Bootstrap抽样独立地构造每棵决策树。为了有效地处理训练集中的分类或连续数值,本申请采用了分类回归树(Classification and Regression Tree,CART)算法进行决策树生成,但未考虑决策树剪枝。CART是一种可处理分类或连续特征的非参数过程,采用Gini指数最小化特征选择,使其数据和类标签被递归地用二叉树划分为节点和子集,故是一种“白盒”算法,易于从中提取规则。
(1)采用CART算法生成决策树
所述的RF生成肾阳虚辨识规则模块基于所述的训练集采用分类回归树算法生成决策树的具体方法为:
假设对于一个给定的训练集D,特征向量为X和类标签为y,令D=(Xi,yi),i=1,2,…,N,即D为具有N个类标签的样本,满足Xi∈X,且Xi=(Xi1,Xi2,…,Xim),其中m为特征个数,yi∈y={0,1}为二分类标签。用基尼指数Gini(D)表示训练集D的纯度(或不确定度),可表示为:
其中pk(k=1,2,…,K)是当前数据集中第k个类样本所占的比例,即样本点属于第k类的概率。k′表示与第k个类不同的类样本。对于二分类问题,则有Gini(D)=2p(1-p)。注意到Gini(D)越小,训练集D的纯度越高(不确定性越小)。假设特征有V个可能的值{a1,a2,...aV}。用特征A划分训练集D,可以产生V个节点分支,其中第v(=1,2,…,V)个节点分支的训练集记为Dv,它包含了D中所有样本,但在特征A是否取值av处被分割成/>和/>两个部分,即/>用基尼指数Giniindex(D,A)表示训练集D关于特征A的不确定度,可表示为:在所有可能的特征A以及它们所有可能的取值切分点av中,选择基尼指数最小的特征(及其对应的切分点)A*=argminAGiniindex(D,A)作为当前最优特征与最优切分点,依此从现有节点分裂成两个子节点,将训练集按最优特征和最优切分点分配到两个子节点中去,递归地将训练集循环划分成各个子集直至满足停止条件(比如节点中样本个数或样本集的基尼指数小于预定阈值,或者没有更多特征),由此生成了一棵包含一组随机特征向量Θt的决策树,记为h(X,Θt),h:X→y,h∈H。
(2)基于RF的多棵树生成规则集
所述的RF生成肾阳虚辨识规则模块基于RF的多棵树生成规则集S0的具体方法为:
采用自助法(bootstrap)重抽样技术从n个样本中有放回地随机抽样R次,每次抽取约2/3的样本用CART算法构建一棵决策树,共建立R棵决策树;在生成决策树的过程中,有两个重要的参数需要调整:节点用于分裂的特征数目s以及生成决策树的数目R。全部特征共有m个变量,每个分裂节点处从m中随机抽取s(s<<m)个变量,通常分类模型选取即特征个数的平方根(回归模型选取特征的三分之一),然后在s个变量中确定最佳的分裂特征和切分点。R的选取通常设置比较大的数目,比如500。将CART算法构建的R棵决策树的加权输出进行整合,得到分类结果:
其中ωt为RF中第t棵树的权值,通常取1/R,I为示性函数。样本的分类为argmaxy(f(Xi))。RF的CART算法通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则。在每条路径中,节点的特征对应规则的条件,叶节点的类别对应规则的结局,IF-THEN规则可以表示为:IF<条件C>THEN<结局T>,记为可将所有这些规则合并成一个规则集/>
下面重点描述规则提取方法的过程,特别说明此框架的关键算法、参数设定。规则提取是从具有众多无关或冗余规则的规则集中获取精炼有效规则的重要过程。
(1)提取肾阳虚辨识规则
RF是由多棵决策树组成的树集成算法,根据其袋外误差稳定时的决策树数目,提取从决策树的根节点到叶节点的IF-THEN规则,记为C称为规则条件(rolecondition),表示变量值对的集合,r称为规则条件对应的结局或目标。例如,一条预测肾阳虚患者人群的规则为:如果:夜尿频多=′有′&脉沉细=′有′,那么/>肾阳虚=‘是’,其中“夜尿频多、脉沉细”是用于对肾阳虚患者进行“是否”分类的特征变量,当特征值小于阈值且满足条件时,可将该患者视为发生了肾阳虚。“夜尿频多=′有′”是一个变量值对,{夜尿频多=′有′&脉沉细=′有′,那么/>肾阳虚=‘是’}表示规则条件,肾阳虚=‘是’为此规则条件对应的结局。提取规则是从RF的前r(≤R)棵决策树中提取的规则组合,但由于RF是采用自助法重抽样技术抽取的训练集,故其规则条件对应的结局是基于原始训练集中部分样本分配的,所以规则的结局值可能不准确。故本申请提取规则时只提取规则的条件,然后以原始训练集中的全部数据为条件重新分配结局,即满足该条件最多的样本类别作为该规则的结局,删除重复的规则后形成一个新的规则集S1。
(2)度量肾阳虚辨识规则
从RF模型中提取肾阳虚辨识规则并形成新的规则集S1后,引用三个度量指标来度量规则的统计特性,即频率(Frequency)、误差(Error)和长度(Length)。假设满足肾阳虚辨识规则条件C的样本数为L≤N,被错误分类成肾阳虚的样本数为E,一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例,即L/N,用于度量规则的流行度或支持度;一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数,即E/L,在回归问题中即为均方误差;而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中变量值对(影响特征值对)的数量,即|C|,用于度量规则的复杂度。比如规则条件:夜尿频多=′有′&脉沉细=′有′的长|C|=2。对于两个在频率与误差指标值相似的规则中,长度指标值较小的规则更容易解释。通过定义这些指标,频率、误差、长度或多个指标的组合可反映规则的质量并可对规则进行排序。
(3)修剪肾阳虚辨识规则条件
RF由多个去相关决策树即“弱学习器”组成,但每棵树生成的所有规则中可能包含不相关或冗长的变量值对(规则条件)。因此对规则中的条件进行修剪是有必要的。本申请使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪,令Err0表示原始肾阳虚辨识规则的误差,Err-i表示删除第i个变量值对后肾阳虚辨识规则的误差,使用decayi值来评估删除第i个变量值对的效果;如果decayi值小于指定的误差阈值,则认为第i个变量值对肾阳虚辨识规则不重要,因此可以删除;decayi定义为误差增加;Err-i-Err0,也可定义为误差相对增加:ε是一个正数(比如:10-6),用来限定Err0为零或接近于零时的decayi值。以上述(1)中规则为例,设ε=0.01,误差阈值为0.05,Err0=0.2。现在删除条件{脉沉细=′有′},则规则变为{夜尿频多=′有′=>肾阳虚},假设现在的规则误差变为0.6,那么误差相对增加为/>因此条件{脉沉细=′有′}}不应该删除。然后以同样的方式修剪规则中的其它条件,保留不重复的修剪规则后形成一个新的规则集S2。
(4)选择肾阳虚辨识规则
从RF中提取的规则数量可能很大,通过修剪每条规则的条件后,根据Fre、Err以及Len对规则进行排序,而排在前面的规则可能彼此相似即存在冗余。因此,选择一个非冗余的规则集对于预测和解释都是有价值的。本申请将选择规则转化为特征选择问题,其目的是通过对规则转化成二分类特征后,从中选择一组相关但不冗余的特征子集。假设有N个肾阳虚状态辨识训练样本,把修剪后的每条辨识规则中的条件视为一个特征,设共有F个不重复特征,若肾阳虚状态辨识样本值满足特征中的变量值对,则此特征值记为1,否则记为0,再将这些二分类特征变量与原始训练样本结局相结合形成一个新的数据集N*F,然后应用特征选择方法选择一组紧凑的相关且非冗余的规则;对于具有相同预测能力的两条肾阳虚辨识规则,从可解释性方面,更希望选择长度小的规则,故采用引导式正则化随机森林的特征选择算法,考虑特征选择过程中辨识规则条件的复杂度,给每个特征分配一个权重λi(i=1,2,…,R)∈(0,1],权重依赖于规则条件的长度和归一化重要性得分,长度越小或重要性得分越高,权重越大,特征具有相似的预测能力时,权重越大的特征(规则条件)被选择的可能性更大。一旦条件选定,就可以使用(1)中方法为条件重新分配结局,从而形成一个按照规则重要程度排序的新规则集S3。
(5)构建简化规则集
为了最终形成可解释性预测模型,有必要从选择规则中筛选并总结成一个可解释性的症状预测规则集,本申请称其为简化的RF规则集。现有技术中有人使用了一种线性组合模型,从RF提取的规则中总结规则集。此外,将关联分类规则概括为分类器的思想也可以应用于RF规则提取后的简化。但本申请采用了一种序贯覆盖法来选择一个简化的最终规则集。该算法在训练数据中进行多次迭代,目的是建立一个由最佳规则构成的有序规则列表。最佳规则定义为训练数据误差最小的规则。如果两条规则误差一样,则选择频率较高、长度较小的规则。
令S4表示有序的预测规则列表,算法定义初始规则为其中T*为原始训练集D中最频繁的类别。为了避免过拟合,从第三肾阳虚辨识规则集S3中删除低于预定频率(如0.01)的规则;算法按规则自上而下应用到每个样本,直到有样本满足辨识规则条件,并把规则结局分配给此样本,通过训练集D评估第三肾阳虚辨识规则集S3中的最佳规则并添加到有序的预测规则列表S4的最后;然后删掉每次迭代中满足最佳规则条件的样本实例,剩下的样本实例重新计算第三肾阳虚辨识规则集S3中余下的规则;这个迭代过程一直持续,直到训练集中没有样本实例,或者初始规则比第三肾阳虚辨识规则集S3中其他规则误差更小;这样就构建了一个互斥、完备且有序的预测规则列表S4。
基于RF的规则提取方法构建的可解释性预测模型的关键是确保简化的RF规则集S4的准确性和可解释性。本申请重点是定义了准确性和可解释性的度量。
(1)记准确性为
NACC为规则集的准确性,N表示样本量,{Xi,yi}代表第i个样本的特征和二分类标签,f(Xi)给出了第i个样本按规则集S4分类的结果,也可记另外还考虑了灵敏度(Sensitivity)、特异度(Specificity)、精度(Precision)、F-measure值和AUC(采用ROC曲线下的面积)值。其中真阳性(TP)和真阴性(TN)是对样本正确分类为阳性、阴性的样本数量。假阳性(FP)、假阴性(FN)是对样本误分类为阳性、阴性的样本数量。
(2)定义可解释性为
NFEA、NCOV和NCNT分别定义为:
其中NFEA、NCOV和NCNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率。α、β和γ分别表示各指标的权重,其可根据研究者的背景确定,此处设定为1即权重相等。这三项指标分别反映了规则集的简洁性、稳定性以及预测性,其中表示规则集中第i个规则的特征数,inputfea表示规则集中含有的特征数(去掉重复的特征),表示满足第i条规则的样本数。countdata表示训练数据集的样本量,ruleselected表示规则集中规则的数量,rulecount表示提取(简化)规则的数量。NFEA∈[0,1],其中NFEA=0表示每条规则只包含一个特征,NFEA=1表示每条规则拥有所有特征。当NFEA较小即平均特征数少时,表示规则具有简洁性,医生和患者更容易理解。当NCOV较小即规则具有较好的覆盖范围时,表示规则的稳定性较强。当NCNT较小即预测规则数量较少时,表示规则预测性较好。综上,NINT较大即越接近于1时,模型的可解释性较好。
本发明是利用随机森林(Random Forest,RF)生成规则结合规则提取方法的分解技术,优化RF生成的规则集,实现预测准确性和可解释性之间的权衡。其中的规则提取方法借用了可解释性的RF框架,特别说明了此框架的关键环节:提取规则、度量规则、修剪规则条件、选择规则和简化规则,以及关键算法及其参数设定,定义了准确性和可解释性的度量。
下面以一个具体应用来说明本申请的肾阳虚证状态辨识系统的具体辨识过程。
1.数据来源与纳排标准
本研究在上海、辽宁、成都、北京、天津共收集3679位患者的信息,其中1003例诊断为骨质疏松住院的患者被纳入本次研究分析。分析过程中排除协变量有缺失的患者,最终保留986例。纳入标准为:40岁以上健康男性、女性;意识清楚,有阅读能力,并可与调查人员进行言辞表达和交流的患者;在了解调查目的之后,愿意接受问卷调查并且进行骨密度测试者。排除标准:患有糖尿病,化脓性脊髓炎,肾炎,甲状腺机能亢进等可能引起继发性骨质疏松症的患者;患有癌症,痛风,风湿性关节炎等可能影响证型判断的患者;精神障碍和认知障碍的患者。986例纳入分析的患者中,证型判定为肾阳虚证的患者共327例,判定为除肾阳虚证外其他证型的患者共659例。
2.患者的信息资料收集
本研究基于骨质疏松症临床症状调查问卷或量表、“肾阳虚证”自评量表、WOMAC骨性关节炎指数评分表、EuroQol健康指数量表、体力活动问卷和中医体质量表,由经过培训的中医学专业教师或临床医师作为调查员,对研究对象进行问卷调查,并填写调查量表。调查内容包括一般情况、病因病机、临床症状和法则治法等。
3.骨质疏松诊断标准
参照中国老年学与老年医学学会骨质疏松分会、中华医学会健康管理分会联合组织国内骨质疏松防治领域的专家组制定的,《中国老年骨质疏松诊疗指南(2018)》和《中国人骨质疏松影像学诊断标准(DXA、QCT)(2018)》制定如下诊断标准:全身疼痛,多以腰背部疼痛明显,逐渐加重,轻微外伤可致骨折,脊柱常有后突畸形。骨密度检测出阳性现象:双能X线骨密度(DAX)测量,骨密度采用T值表示,T值≤M-2.5标准差为骨质疏松症。
结果
1.模型构建
将纳入研究的986例患者信息按75%:25%划分为训练集和测试集,分别包含749与237例患者。训练集中包含证型诊断为肾阳虚证的患者244例,其他证型505例;测试集中肾阳虚证证型患者83例,其他证型154例。
在训练集上构建随机森林(RF)模型,包含150棵决策树,其中每颗树的最大深度设定为8,即m=8(变量数目的开方)。使用不同数量的决策树时,所构建的随机森林模型误差见图3。根据随机森林误差图确定最终用于建模的随机森林规模为50棵决策树,此时整体错误率、肾阳虚证样本以及其他类样本的错误率都处于稳定水平。
使用交叉验证策,从整体42个变量中筛选构建RF模型并辨识骨质疏松肾阳虚证证的重要性变量。根据图4的误差变化曲线,数据中的20个变量对于构建RF模型具有较大影响,而随着其他变量的增加,模型对骨质疏松肾阳虚证证的效果提升度处于很低水平。初步说明,整体42个变量中的20个为重要性变量,对于辨识骨质疏松肾阳虚证证具有较大的作用。变量的重要性排序详见图5,且图5中左侧体现各变量对于辨识正确率的重要性排序,右侧表示各变量对于构建RF模型的重要性排序。
图5给出整体肾阳虚证型辨识规则集在修剪后的误差分布情况,根据图中信息,在小于0.2的误差范围内,更多修剪后的肾阳虚证型辨识规则数量明显多于修剪前的规则数量,这意味着相比于初始规则集,经过修剪的规则集总体具有更低的肾阳虚证辨识误差。规则集中2028条规则在修剪前的平均误差为0.1674,修剪后为0.1313,整体规则集的误差显著下降。
2.规则提取
基于RF模型初步得到的重要性变量可指导医护人员对响应症状予以更多关注,但无法进一步解释每个变量的取值及各变量的组合情况对于骨质疏松肾阳虚证辨识的作用。
从随机森林中的50棵决策树中提取规则进行模型解释。提取到长度小于等于6的规则共2028条,其中主要为长度为6的规则,规则集中最小长度为2。采用Leave-One-Out修剪法对每条肾阳虚证证型辨识规则进行修剪,展示修剪前后的肾阳虚证证规则集中频率最高5条规则于表1。修剪结果在一定程度上符合临床辨证论治规律,如:“眩晕”症状多从风论,在本研究中也可能与目标人群年老体虚有关,但与骨质疏松肾阳虚证证型无明确关联,故将其剪除符合临床规律,“纳差”同理;“盗汗”与“手足心热”两种症状在临床辨证中均属于比较重要的阴虚证特征,当一整条规则中同时包含多项阴虚证特征不存在时,可以以较明确的特征不存在表示无阴虚证表现。
表1:规则集修剪前后的肾阳虚证辨识规则
3.规则简化
修剪后的规则集仍保留2028条肾阳虚证型辨识规则,下一步从当前修剪后的规则集中归纳出代表性规则,来体现随机森林规则提取方法在骨质疏松肾阳虚数据集上的最终辨识规则。在修剪后的规则集中总结出最终的规则集如表3所示。该简化规则集中包含5条骨质疏松患者肾阳虚证型辨识规则,其中规则 频多=‘无’/>肾阳虚}的准确率达到90%以上,另外两条规则的准确率也达到80%以上。这几条规则中包括的症状,肾之阳气不足,肾气不固致夜尿频多、气不足无力推动可见沉脉、久病伤肾耗气是肾阳虚证可能的一种病因、畏寒属于较明确的阳虚证表现。在知病辨证的情况下以上规则中的症状有无对证型的区别比较准确。
使用初始规则集与简化规则集对测试集中237例患者的肾阳虚证型状态进行辨识,初始规则集与简化规则集对测试集患者肾阳虚证型的整体辨识精度分别为87.76%和86.50%,各类预测结果详见表2(a)与表2(b)。根据两个辨识结果:相比于初始规则集,修剪并简化的规则集具有几乎等同的肾阳虚证型辨识率,能很好的概括由50棵决策树所构建的随机森林模型中提取的2028条规则信息。
表2:初始规则集与简化规则集的肾阳虚证型辨识结果
表3:骨质疏松肾阳虚分类的简化规则集
以上描述了本发明优选实施方式,然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。
Claims (10)
1.基于随机森林的规则提取技术的肾阳虚证状态辨识系统,其特征在于,所述的肾阳虚证状态辨识系统包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块,所述的肾阳虚数据预处理模块用于对原始数据进行预处理,形成训练集与测试集的建模数据;所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法生成多棵决策树,并基于RF的多棵树生成规则集;所述的肾阳虚可解释性辨识规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集;所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块,所述的准确性度量模块用于通过所述的测试集验证预测规则列表的准确性;所述的可解释性度量模块用于通过所述的测试集验证预测规则列表的可解释性。
2.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的对肾阳虚辨识规则的提取用于提取RF算法产生的肾阳虚辨识规则条件,删除重复条件,根据全部的训练集分配结局,形成第一肾阳虚辨识规则集;对肾阳虚辨识规则的度量用于引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性;对肾阳虚辨识规则的修剪用于修剪规则条件,删除重复规则,保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集;对肾阳虚辨识规则的选择用于将选择规则转化为特征选择问题,通过对规则转化成二分类特征后,从中选择一组相关但不冗余的特征子集,采用引导式正则化随机森林的特征选择算法选择规则条件,为该规则条件重新分配结局,从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集;所述的构建简化的辨识规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集,基于所述的第三肾阳虚辨识规则集构建一个互斥、完备且有序的预测规则列表。
3.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法生成多棵决策树的具体方法为:
假设对于一个给定的训练集D,特征向量为X和类标签为y,D为具有N个类标签的样本;用基尼指数Gini(D)表示训练集D的纯度,Gini(D)越小,训练集D的纯度越高;假设特征有V个可能的值{a1,a2,...aV},用特征A划分训练集D,能够产生V个节点分支,其中第v(=1,2,…,V)个节点分支的训练集记为Dv,它包含了D中所有样本,但在特征A是否取值av处被分割成/>和/>两个部分,用基尼指数Giniindex(D,A)表示训练集D关于特征A的不确定度;在所有可能的特征A以及它们所有可能的取值切分点av中,选择基尼指数最小的特征及其对应的切分点作为当前最优特征与最优切分点,依此从现有节点分裂成两个子节点,将训练集按最优特征和最优切分点分配到两个子节点中去,递归地将训练集循环划分成各个子集直至满足停止条件,由此生成一棵包含一组随机特征向量Θt的决策树。
4.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的基于RF生成肾阳虚辨识规则模块基于RF多棵树生成规则集S0的具体方法为:
采用自助法重抽样技术从n个样本中有放回地随机抽样R次,每次抽取2/3的样本用CART算法构建一棵决策树,共建立R棵决策树;在生成决策树的过程中,有两个重要的参数需要调整:节点用于分裂的特征数目s以及生成决策树的数目R;全部特征共有m个变量,每个分裂节点处从m中随机抽取s个变量,s<<m,通常分类模型选取即特征个数的平方根,回归模型选取特征的三分之一,然后在s个变量中确定最佳的分裂特征和切分点;将CART构建的R棵决策树的加权输出进行整合,得到分类结果;
RF的CART通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则;在每条路径中,节点的特征对应规则的条件,叶节点的类别对应规则的结局,将所有这些规则合并成一个辨识规则集。
5.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的提取规则模块形成第一肾阳虚辨识规则集的具体方法为:只提取规则的条件,然后以原始训练集中的全部数据为条件重新分配结局,即满足该条件最多的样本类别作为该规则的结局,删除重复的规则后形成一个新的规则集,即第一肾阳虚辨识规则集。
6.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的度量规则模块引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的肾阳虚辨识规则的统计特性的具体方法为:
假设满足肾阳虚辨识规则条件C的样本数为L≤N,被错误分类成肾阳虚的样本数为E,一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例,即L/N,用于度量规则的流行度或支持度;一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数,在回归问题中即为均方误差;而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中影响特征值对的数量,用于度量规则的复杂度;对于两个在频率与误差指标值相似的规则中,长度指标值较小的规则更容易解释;频率、误差、长度或其组合能够反映规则的质量并能够用于对规则进行排序。
7.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的修剪规则条件模块形成第二肾阳虚辨识规则集的具体方法为:使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪,令Err0表示原始肾阳虚辨识规则的误差,Err-i表示删除第i个变量值对后肾阳虚辨识规则的误差,使用decayi值来评估删除第i个变量值对的效果;如果decayi值小于指定的误差阈值,则认为第i个变量值对肾阳虚辨识规则不重要,因此可以删除;decayi定义为误差增加;以同样的方式修剪规则中的条件,保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集。
8.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的选择规则模块形成第三肾阳虚辨识规则集的具体方法为:
假设有N个肾阳虚状态辨识训练样本,把修剪后的每条辨识规则中的条件视为一个特征,设共有F个不重复特征,若肾阳虚状态辨识样本值满足特征中的变量值对,则此特征值记为1,否则记为0,再将这些二分类特征变量与原始训练样本结局相结合形成一个新的数据集N*F,然后应用特征选择方法选择一组紧凑的相关且非冗余的规则;对于具有相同预测能力的两条肾阳虚辨识规则,从可解释性方面,更希望选择长度小的规则,故采用引导式正则化随机森林的特征选择算法,考虑特征选择过程中辨识规则条件的复杂度,给每个特征分配一个权重λi(i=1,2,…,R)∈(0,1],权重依赖于辨识规则条件的长度和归一化重要性得分,长度越小或重要性得分越高,权重越大,特征具有相似的预测能力时,权重越大的辨识规则条件被选择的可能性更大;一旦条件选定,就能够为选定的条件重新分配结局,从而形成一个按照辨识规则重要程度排序的第三肾阳虚辨识规则集。
9.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的构建简化规则集模块构建预测规则列表的具体方法为:
10.根据权利要求1所述的肾阳虚证状态辨识系统,其特征在于,所述的准确性度量模块通过所述的测试集验证预测规则列表的准确性的具体方法为:
记准确性为:
NACC为规则集的准确性,N表示样本量,{Xi,yi}代表第i个样本的特征和二分类标签,f(Xi)给出了第i个样本按规则集S4分类的结果;或者记
记可解释性为:
其中NFEA、NCOV和NCNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率;α、β和γ分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率的权重;NFEA∈[0,1],其中NFEA=0表示每条规则只包含一个特征,NFEA=1表示每条规则拥有所有特征;
另外还考虑了灵敏度、特异度、精度、F-measure值和AUC值,其中AUC值采用ROC曲线下的面积;TP表示真阳性,是对样本正确分类为阳性的样本数量;TN表示真阴性,是对样本正确分类为阴性的样本数量;FP表示假阳性,是对样本误分类为阳性的样本数量;FN表示假阴性,是对样本误分类为阴性的样本数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271312.5A CN116312974A (zh) | 2023-03-20 | 2023-03-20 | 基于随机森林的规则提取技术的肾阳虚证状态辨识系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271312.5A CN116312974A (zh) | 2023-03-20 | 2023-03-20 | 基于随机森林的规则提取技术的肾阳虚证状态辨识系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312974A true CN116312974A (zh) | 2023-06-23 |
Family
ID=86777620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310271312.5A Pending CN116312974A (zh) | 2023-03-20 | 2023-03-20 | 基于随机森林的规则提取技术的肾阳虚证状态辨识系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312974A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452018A (zh) * | 2021-06-29 | 2021-09-28 | 湖南大学 | 一种电力系统备用不足风险场景辨识方法 |
CN114882359A (zh) * | 2022-05-07 | 2022-08-09 | 中国科学院空天信息创新研究院 | 基于植被指数时序谱特征的大豆种植区提取方法和系统 |
-
2023
- 2023-03-20 CN CN202310271312.5A patent/CN116312974A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452018A (zh) * | 2021-06-29 | 2021-09-28 | 湖南大学 | 一种电力系统备用不足风险场景辨识方法 |
CN114882359A (zh) * | 2022-05-07 | 2022-08-09 | 中国科学院空天信息创新研究院 | 基于植被指数时序谱特征的大豆种植区提取方法和系统 |
Non-Patent Citations (3)
Title |
---|
HOUTAO DENG: "Interpreting Tree Ensembles with inTrees", Retrieved from the Internet <URL:https://arxiv.org/pdf/1408.5456> * |
向兴华等: "顽固性高血压发生主要不良心血管事件患者的中医四诊信息可解释性研究——基于随机森林规则提取方法", 中医杂志, 15 April 2022 (2022-04-15) * |
小小的天和蜗牛: "树类算法之---决策树Cart树Gini系数就算原理", Retrieved from the Internet <URL:https://blog.csdn.net/weixin_41843918/article/details/90485566> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
US20220254493A1 (en) | Chronic disease prediction system based on multi-task learning model | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN110400610B (zh) | 基于多通道随机森林的小样本临床数据分类方法及系统 | |
CN109360658B (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
Popkes et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
Overweg et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
CN116189866A (zh) | 一种基于数据分析的远程医用护理分析系统 | |
Shrestha et al. | Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN116864121A (zh) | 健康风险筛查系统 | |
Molla et al. | A predictive analysis framework of heart disease using machine learning approaches | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
Karim et al. | LDSVM: Leukemia cancer classification using machine learning | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
Tsumoto et al. | Estimation of disease code from electronic patient records | |
CN116312974A (zh) | 基于随机森林的规则提取技术的肾阳虚证状态辨识系统 | |
Selvan et al. | [Retracted] An Image Processing Approach for Detection of Prenatal Heart Disease | |
Begum | Applications of Machine Learning Techniques on Prediction of Children’s various health problems: A Survey | |
Prasanth et al. | Prognostication of diabetes diagnosis based on different machine learning classification algorithms | |
Madni et al. | Breast Cancer Diagnosis Comparative Machine Learning Analysis Algorithms | |
Rusyana et al. | Prediction Analysis Of Four Disease Risk Using Decision Tree C4. 5 | |
Miranda | HYTEA-HYBRID TREE EVOLUTIONARY ALGORITHM FOR HEARING LOSS DIAGNOSIS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |