CN116312974A

CN116312974A - 基于随机森林的规则提取技术的肾阳虚证状态辨识系统

Info

Publication number: CN116312974A
Application number: CN202310271312.5A
Authority: CN
Inventors: 杨伟; 向兴华; 白卫国; 刘孟宇; 王拥军; 王晶
Original assignee: INSTITUTE OF BASIC RESEARCH IN CLINICAL MEDICINE CHINA ACADEMY OF CHINESE MEDICAL SCIENCES
Current assignee: INSTITUTE OF BASIC RESEARCH IN CLINICAL MEDICINE CHINA ACADEMY OF CHINESE MEDICAL SCIENCES
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本发明涉及基于随机森林的规则提取技术的肾阳虚证状态辨识系统，包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块，基于RF生成肾阳虚辨识规则模块采用分类回归树算法生成多棵决策树，并基于RF的多棵树生成规则集；肾阳虚可解释性辨识的规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集；肾阳虚辨识准确性与可解释性度量模块包括肾阳虚辨识规则的准确性度量和可解释性度量，准确性度量模块用于通过测试集验证预测规则集的准确性；可解释性度量模块用于通过测试集验证预测规则集的可解释性。

Description

基于随机森林的规则提取技术的肾阳虚证状态辨识系统

技术领域

本发明涉及状态辨识技术领域，具体涉及一种基于随机森林(Random Forest，RF)的规则提取技术的肾阳虚证状态辨识系统。

背景技术

现有技术对中医辨证的研究方法多集中于经典统计分析方法以及一些复杂的机器学习方法应用，分析患者变量与中医证型之间的相关性及其统计显著性。但这些研究受限于兼顾准确性和可解释性，并没有考虑多个症状组合的表现对中医辩证的指导意义。因此，本技术拟引入基于随机森林的规则提取方法，从患者数据中生成大量由变量及变量高阶交互形成的规则，并筛选其中影响辩证的关键规则，并建立证型辨识模型。

发明内容

本发明旨在提供一种肾阳虚证状态辨识系统，以解决现有技术在算法训练效率和对其他疾病的适用性方面存在局限性的问题。

本发明的目的是解决现有技术的不足，提供一种新型的肾阳虚证状态辨识系统，包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块，所述的肾阳虚数据预处理模块用于对原始数据进行预处理，形成训练集与测试集的建模数据；所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法(Classification and Regression Tree，CART)生成多棵决策树，并基于RF的多棵树生成规则集；所述的肾阳虚可解释性辨识规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集；所述的提取肾阳虚辨识规则用于提取RF算法产生的肾阳虚辨识规则条件，删除重复条件，根据全部的训练集分配结局，形成第一肾阳虚辨识规则集；所述的度量规则用于引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性；所述的修剪规则条件用于修剪规则条件，删除重复规则，保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集；所述的选择规则用于将选择规则转化为特征选择问题，通过对规则转化成二分类特征后，从中选择一组相关但不冗余的特征子集，采用引导式正则化随机森林的特征选择算法选择规则条件，为该规则条件重新分配结局，从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集；所述的构建简化规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集，基于所述的第三肾阳虚辨识规则集构建一个互斥、完备且有序的预测规则列表；所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块，所述的准确性度量模块用于通过所述的测试集验证预测规则列表的准确性；所述的可解释性度量模块用于通过所述的测试集验证预测规则列表的可解释性。

优选地，所述的肾阳虚数据预处理模块用于对原始数据中的缺失、冗余、噪声数据进行清洗和规范，对文本数据进行结构化处理，对分类变量的哑变量进行处理，以及对连续变量进行分段处理。

优选地，所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用RF算法生成多棵决策树的具体方法为：

假设对于一个给定的训练集D，特征向量为X和类标签为y，令D＝(X_i，y_i)，i＝1，2，…，N，即D为具有N个类标签的样本，满足X_i∈X，且X_i＝(X_i1，X_i2，…，X_im)，其中m为特征个数，y_i∈y＝{0，1}为二分类标签；用基尼指数Gini(D)表示训练集D的纯度，Gini(D)表示为：

其中p_k(k＝1，2，…，K)是当前数据集中第k个类样本所占的比例，即样本点属于第k类的概率；k′表示与第k个类不同的类样本；对于二分类问题，则有Gini(D)＝2p(1-p)；注意到Gini(D)越小，训练集D的纯度越高；假设特征

有V个可能的值{a¹，a²，...a^V}，用特征A划分训练集D，能够产生V个节点分支，其中第v(＝1，2，…，V)个节点分支的训练集记为D^v，它包含了D中所有样本，但在特征A是否取值av处被分割成/>

和/>

两个部分，即

用基尼指数Gini_index(D，A)表示训练集D关于特征A的不确定度，Gini_index(D，A)表示为：

在所有可能的特征A以及它们所有可能的取值切分点a^v中，选择基尼指数最小的特征及其对应的切分点A^*＝argmin_AGini_index(D，A)作为当前最优特征与最优切分点，依此从现有节点分裂成两个子节点，将训练集按最优特征和最优切分点分配到两个子节点中去，递归地将训练集循环划分成各个子集直至满足停止条件，由此生成一棵包含一组随机特征向量Θ_t的决策树，记为h(X，Θ_t)，h：X→y，h∈H。

优选地，所述的基于RF生成肾阳虚辨识规则模块基于RF多棵树生成规则集S₀的具体方法为：

采用自助法重抽样技术从n个样本中有放回地随机抽样R次，每次抽取2/3的样本用CART算法构建一棵决策树，共建立R棵决策树；在生成决策树的过程中，有两个重要的参数需要调整：节点用于分裂的特征数目s以及生成决策树的数目R；全部特征共有m个变量，每个分裂节点处从m中随机抽取s个变量，s<<m，通常分类模型选取

即特征个数的平方根，回归模型选取特征的三分之一，然后在s个变量中确定最佳的分裂特征和切分点；将CART构建的R棵决策树的加权输出进行整合，得到分类结果：

其中ω_t为RF中第t棵树的权值，通常取1/R，I为示性函数；样本的分类为argmax_y(f(X_i))；RF的CART通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则；在每条路径中，节点的特征对应规则的条件，叶节点的类别对应规则的结局，IF-THEN规则表示为：IF<条件C>THEN<结局T>，记为

将所有这些规则合并成一个规则集。

优选地，所述的提取规则模块形成第一肾阳虚辨识规则集的具体方法为：只提取规则的条件，然后以原始训练集中的全部数据为条件重新分配结局，即满足该条件最多的样本类别作为该规则的结局，删除重复的规则后形成一个新的规则集，即第一肾阳虚辨识规则集。

优选地，所述的度量规则模块引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性的具体方法为：

假设满足肾阳虚辨识规则条件C的样本数为L≤N，被错误分类成肾阳虚的样本数为E，一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例，即L/N，用于度量规则的流行度或支持度；一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数，即E/L，在回归问题中即为均方误差；而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中变量值对(影响特征值对)的数量，即|C|，用于度量规则的复杂度；对于两个在频率与误差指标值相似的规则中，长度指标值较小的规则更容易解释；频率、误差、长度或其组合能够反映规则的质量并能够用于对规则进行排序。

优选地，所述的修剪规则条件模块形成第二肾阳虚辨识规则集的具体方法为：

使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪，令Err₀表示原始肾阳虚辨识规则的误差，Err_-i表示删除第i个变量值对后肾阳虚辨识规则的误差，使用decay_i值来评估删除第i个变量值对的效果；如果decay_i值小于指定的误差阈值，则认为第i个变量值对肾阳虚辨识规则不重要因此可以删除；decay_i定义为误差增加；Err_-i-Err₀定义为误差相对增加：

ε是一个正数，用来限定Err₀为零或接近于零时的decay_i值，以同样的方式修剪规则中的条件，保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集。

优选地，所述的选择规则模块形成第三肾阳虚辨识规则集的具体方法为：

假设有N个肾阳虚状态辨识训练样本，把修剪后的每条辨识规则中的条件视为一个特征，设共有F个不重复特征，若肾阳虚状态辨识样本值满足特征中的变量值对，则此特征值记为1，否则记为0，再将这些二分类特征变量与原始训练样本结局相结合形成一个新的数据集N*F，然后应用特征选择方法选择一组紧凑的相关且非冗余的规则；对于具有相同预测能力的两条肾阳虚辨识规则，从可解释性方面，更希望选择长度小的规则，故采用引导式正则化随机森林的特征选择算法，考虑特征选择过程中辨识规则条件的复杂度，给每个特征分配一个权重λ_i(i＝1，2，…，R)∈(0，1]，权重依赖于辨识规则条件的长度和归一化重要性得分，长度越小或重要性得分越高，权重越大，特征具有相似的预测能力时，权重越大的辨识规则条件被选择的可能性更大；一旦条件选定，就能够为选定的条件重新分配结局，从而形成一个按照辨识规则重要程度排序的第三肾阳虚辨识规则集。

优选地，所述的构建简化规则集模块构建预测规则列表的具体方法为：

令S₄表示有序的预测规则列表，算法定义初始规则为

其中T^*为原始训练集D中最频繁的类别。为了避免过拟合，从第三肾阳虚辨识规则集S₃中删除低于预定频率的规则；算法按规则自上而下应用到每个样本，直到有样本满足辨识规则条件，并把规则结局分配给此样本，通过训练集D评估第三肾阳虚辨识规则集S₃中的最佳规则并添加到有序的预测规则列表S₄的最后；然后删掉每次迭代中满足最佳规则条件的样本实例，剩下的样本实例重新计算第三肾阳虚辨识规则集S₃中余下的规则；这个迭代过程一直持续，直到训练集中没有样本实例，或者初始规则比第三肾阳虚辨识规则集S₃中其他规则误差更小；这样就构建了一个互斥、完备且有序的预测规则列表S₄。

优选地，所述的准确性度量模块通过所述的测试集验证预测规则列表的准确性的具体方法为：

记准确性为：

N_ACC为规则集的准确性，N表示样本量，{X_i，y_i}代表第i个样本的特征和二分类标签，f(X_i)给出了第i个样本按规则集S₄分类的结果；或者记

另外还考虑了灵敏度、特异度、精度、F-measure值和AUC值，其中AUC值采用ROC曲线下的面积；TP表示真阳性，是对样本正确分类为阳性的样本数量；TN表示真阴性，是对样本正确分类为阴性的样本数量；FP表示假阳性，是对样本误分类为阳性的样本数量；FN表示假阴性，是对样本误分类为阴性的样本数量。

优选地，所述的可解释性度量模块通过所述的测试集验证预测规则列表的可解释性的具体方法为：

定义可解释性为：

N_FEA、N_COV和N_CNT分别定义为：

其中N_FEA、N_COV和N_CNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率；α、β和γ分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率的权重；其中

表示规则集中第i个规则的特征数，input_fea表示规则集中去掉重复的特征后含有的特征数，/>

表示满足第i条规则的样本数；count_data表示训练数据集的样本量，rule_selectrd表示规则集中规则的数量，rule_count表示提取规则的数量；N_FEA∈[0，1]，其中N_FEA＝0表示每条规则只包含一个特征，N_FEA＝1表示每条规则拥有所有特征。

有益效果

与现有技术相比，本发明的有益效果是：

本发明所述的肾阳虚证状态辨识系统利用RF生成规则结合规则提取方法的分解技术，优化RF生成的规则集，实现预测准确性和可解释性之间的权衡。其中的规则提取方法借用了可解释性的RF框架，特别说明了此框架的关键环节：对辨识规则的提取、度量、修剪、选择和简化，以及关键算法及其参数设定，定义了准确性和可解释性的度量。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的具体实施方式一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明所述的肾阳虚证状态辨识系统的功能框架示意图。

图2是本发明所述的肾阳虚证状态辨识系统的结构组成示意图。

图3是随机森林模型误差示意图。

图4是变量数目对RF模型的影响情况示意图。

图5是重要性变量排序示意图。

图6是修剪前后规则集的误差分布示意图。

具体实施方式

在下文中更详细地描述了本发明以有助于对本发明的理解。

如图1至图2所示，本发明所述的肾阳虚证状态辨识系统包括肾阳虚数据预处理模块、基于RF(Random Forest，RF)生成肾阳虚辨识规则模块、可解释RF框架的规则提取模块和肾阳虚辨识准确性与可解释性度量模块，所述的肾阳虚数据预处理模块用于对原始数据进行预处理，形成训练集与测试集的建模数据；所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用分类回归树(Classification and Regression Tree，CART)算法生成决策树，并基于RF产生的多棵树生成规则集S₀；所述的可解释RF框架的规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化规则集；所述的提取肾阳虚辨识规则用于提取RF算法产生的肾阳虚辨识规则条件，删除重复条件，根据全部的训练集分配结局，形成第一肾阳虚辨识规则集S₁；所述的度量规则用于引用频率(Frequency)、误差(Error)和长度(Length)这三个度量指标来度量所述第一肾阳虚辨识规则集中规则的统计特性；所述的修剪规则条件用于修剪规则条件，删除重复规则，保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集S₂；所述的选择规则用于将选择规则转化为特征选择问题，通过对规则转化成二分类特征后，从中选择一组相关但不冗余的特征子集，采用引导式正则化随机森林的特征选择算法选择规则条件，为该规则条件重新分配结局，从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集S₃；所述的构建简化规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集，基于所述的第三肾阳虚辨识规则集S₃构建一个互斥、完备且有序的预测规则列表S₄；所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块，所述的准确性度量模块用于通过所述的测试集验证模型(即预测规则列表S₄)的准确性；所述的可解释性度量模块用于通过所述的测试集验证模型(即预测规则列表S₄)的可解释性。

下面重点描述规则生成的过程，并说明从RF中提取规则集的形式化算法。基于RF的规则提取模型是多种规则生成方法中一种高效、可靠的方法，从这些模型中得到的规则能清晰地反映整个决策过程。RF考虑了基于决策树算法的随机选择分裂特征，利用Bootstrap抽样独立地构造每棵决策树。为了有效地处理训练集中的分类或连续数值，本申请采用了分类回归树(Classification and Regression Tree，CART)算法进行决策树生成，但未考虑决策树剪枝。CART是一种可处理分类或连续特征的非参数过程，采用Gini指数最小化特征选择，使其数据和类标签被递归地用二叉树划分为节点和子集，故是一种“白盒”算法，易于从中提取规则。

(1)采用CART算法生成决策树

所述的RF生成肾阳虚辨识规则模块基于所述的训练集采用分类回归树算法生成决策树的具体方法为：

假设对于一个给定的训练集D，特征向量为X和类标签为y，令D＝(X_i，y_i)，i＝1，2，…，N，即D为具有N个类标签的样本，满足X_i∈X，且X_i＝(X_i1，X_i2，…，X_im)，其中m为特征个数，y_i∈y＝{0，1}为二分类标签。用基尼指数Gini(D)表示训练集D的纯度(或不确定度)，可表示为：

其中p_k(k＝1，2，…，K)是当前数据集中第k个类样本所占的比例，即样本点属于第k类的概率。k′表示与第k个类不同的类样本。对于二分类问题，则有Gini(D)＝2p(1-p)。注意到Gini(D)越小，训练集D的纯度越高(不确定性越小)。假设特征

有V个可能的值{a¹，a²，...a^V}。用特征A划分训练集D，可以产生V个节点分支，其中第v(＝1，2，…，V)个节点分支的训练集记为D^v，它包含了D中所有样本，但在特征A是否取值a^v处被分割成/>

和/>

两个部分，即/>

用基尼指数Gini_index(D，A)表示训练集D关于特征A的不确定度，可表示为：

在所有可能的特征A以及它们所有可能的取值切分点a^v中，选择基尼指数最小的特征(及其对应的切分点)A^*＝argmin_AGini_index(D，A)作为当前最优特征与最优切分点，依此从现有节点分裂成两个子节点，将训练集按最优特征和最优切分点分配到两个子节点中去，递归地将训练集循环划分成各个子集直至满足停止条件(比如节点中样本个数或样本集的基尼指数小于预定阈值，或者没有更多特征)，由此生成了一棵包含一组随机特征向量Θ_t的决策树，记为h(X，Θ_t)，h：X→y，h∈H。

(2)基于RF的多棵树生成规则集

所述的RF生成肾阳虚辨识规则模块基于RF的多棵树生成规则集S₀的具体方法为：

采用自助法(bootstrap)重抽样技术从n个样本中有放回地随机抽样R次，每次抽取约2/3的样本用CART算法构建一棵决策树，共建立R棵决策树；在生成决策树的过程中，有两个重要的参数需要调整：节点用于分裂的特征数目s以及生成决策树的数目R。全部特征共有m个变量，每个分裂节点处从m中随机抽取s(s＜＜m)个变量，通常分类模型选取

即特征个数的平方根(回归模型选取特征的三分之一)，然后在s个变量中确定最佳的分裂特征和切分点。R的选取通常设置比较大的数目，比如500。将CART算法构建的R棵决策树的加权输出进行整合，得到分类结果：

其中ω_t为RF中第t棵树的权值，通常取1/R，I为示性函数。样本的分类为argmax_y(f(X_i))。RF的CART算法通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则。在每条路径中，节点的特征对应规则的条件，叶节点的类别对应规则的结局，IF-THEN规则可以表示为：IF<条件C＞THEN＜结局T＞，记为

可将所有这些规则合并成一个规则集/>

下面重点描述规则提取方法的过程，特别说明此框架的关键算法、参数设定。规则提取是从具有众多无关或冗余规则的规则集中获取精炼有效规则的重要过程。

(1)提取肾阳虚辨识规则

RF是由多棵决策树组成的树集成算法，根据其袋外误差稳定时的决策树数目，提取从决策树的根节点到叶节点的IF-THEN规则，记为

C称为规则条件(rolecondition)，表示变量值对的集合，r称为规则条件对应的结局或目标。例如，一条预测肾阳虚患者人群的规则为：如果：夜尿频多＝′有′&脉沉细＝′有′，那么/>

肾阳虚＝‘是’，其中“夜尿频多、脉沉细”是用于对肾阳虚患者进行“是否”分类的特征变量，当特征值小于阈值且满足条件时，可将该患者视为发生了肾阳虚。“夜尿频多＝′有′”是一个变量值对，{夜尿频多＝′有′&脉沉细＝′有′，那么/>

肾阳虚＝‘是’}表示规则条件，肾阳虚＝‘是’为此规则条件对应的结局。提取规则是从RF的前r(≤R)棵决策树中提取的规则组合，但由于RF是采用自助法重抽样技术抽取的训练集，故其规则条件对应的结局是基于原始训练集中部分样本分配的，所以规则的结局值可能不准确。故本申请提取规则时只提取规则的条件，然后以原始训练集中的全部数据为条件重新分配结局，即满足该条件最多的样本类别作为该规则的结局，删除重复的规则后形成一个新的规则集S₁。

(2)度量肾阳虚辨识规则

从RF模型中提取肾阳虚辨识规则并形成新的规则集S₁后，引用三个度量指标来度量规则的统计特性，即频率(Frequency)、误差(Error)和长度(Length)。假设满足肾阳虚辨识规则条件C的样本数为L≤N，被错误分类成肾阳虚的样本数为E，一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例，即L/N，用于度量规则的流行度或支持度；一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数，即E/L，在回归问题中即为均方误差；而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中变量值对(影响特征值对)的数量，即|C|，用于度量规则的复杂度。比如规则条件：夜尿频多＝′有′&脉沉细＝′有′的长|C|＝2。对于两个在频率与误差指标值相似的规则中，长度指标值较小的规则更容易解释。通过定义这些指标，频率、误差、长度或多个指标的组合可反映规则的质量并可对规则进行排序。

(3)修剪肾阳虚辨识规则条件

RF由多个去相关决策树即“弱学习器”组成，但每棵树生成的所有规则中可能包含不相关或冗长的变量值对(规则条件)。因此对规则中的条件进行修剪是有必要的。本申请使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪，令Err₀表示原始肾阳虚辨识规则的误差，Err_-i表示删除第i个变量值对后肾阳虚辨识规则的误差，使用decay_i值来评估删除第i个变量值对的效果；如果decay_i值小于指定的误差阈值，则认为第i个变量值对肾阳虚辨识规则不重要，因此可以删除；decay_i定义为误差增加；Err_-i-Err₀，也可定义为误差相对增加：

ε是一个正数(比如：10^-6)，用来限定Err₀为零或接近于零时的decay_i值。以上述(1)中规则为例，设ε＝0.01，误差阈值为0.05，Err₀＝0.2。现在删除条件{脉沉细＝′有′}，则规则变为{夜尿频多＝′有′＝＞肾阳虚}，假设现在的规则误差变为0.6，那么误差相对增加为/>

因此条件{脉沉细＝′有′}}不应该删除。然后以同样的方式修剪规则中的其它条件，保留不重复的修剪规则后形成一个新的规则集S₂。

(4)选择肾阳虚辨识规则

从RF中提取的规则数量可能很大，通过修剪每条规则的条件后，根据Fre、Err以及Len对规则进行排序，而排在前面的规则可能彼此相似即存在冗余。因此，选择一个非冗余的规则集对于预测和解释都是有价值的。本申请将选择规则转化为特征选择问题，其目的是通过对规则转化成二分类特征后，从中选择一组相关但不冗余的特征子集。假设有N个肾阳虚状态辨识训练样本，把修剪后的每条辨识规则中的条件视为一个特征，设共有F个不重复特征，若肾阳虚状态辨识样本值满足特征中的变量值对，则此特征值记为1，否则记为0，再将这些二分类特征变量与原始训练样本结局相结合形成一个新的数据集N*F，然后应用特征选择方法选择一组紧凑的相关且非冗余的规则；对于具有相同预测能力的两条肾阳虚辨识规则，从可解释性方面，更希望选择长度小的规则，故采用引导式正则化随机森林的特征选择算法，考虑特征选择过程中辨识规则条件的复杂度，给每个特征分配一个权重λ_i(i＝1，2，…，R)∈(0，1]，权重依赖于规则条件的长度和归一化重要性得分，长度越小或重要性得分越高，权重越大，特征具有相似的预测能力时，权重越大的特征(规则条件)被选择的可能性更大。一旦条件选定，就可以使用(1)中方法为条件重新分配结局，从而形成一个按照规则重要程度排序的新规则集S₃。

(5)构建简化规则集

为了最终形成可解释性预测模型，有必要从选择规则中筛选并总结成一个可解释性的症状预测规则集，本申请称其为简化的RF规则集。现有技术中有人使用了一种线性组合模型，从RF提取的规则中总结规则集。此外，将关联分类规则概括为分类器的思想也可以应用于RF规则提取后的简化。但本申请采用了一种序贯覆盖法来选择一个简化的最终规则集。该算法在训练数据中进行多次迭代，目的是建立一个由最佳规则构成的有序规则列表。最佳规则定义为训练数据误差最小的规则。如果两条规则误差一样，则选择频率较高、长度较小的规则。

令S₄表示有序的预测规则列表，算法定义初始规则为

其中T^*为原始训练集D中最频繁的类别。为了避免过拟合，从第三肾阳虚辨识规则集S₃中删除低于预定频率(如0.01)的规则；算法按规则自上而下应用到每个样本，直到有样本满足辨识规则条件，并把规则结局分配给此样本，通过训练集D评估第三肾阳虚辨识规则集S₃中的最佳规则并添加到有序的预测规则列表S₄的最后；然后删掉每次迭代中满足最佳规则条件的样本实例，剩下的样本实例重新计算第三肾阳虚辨识规则集S₃中余下的规则；这个迭代过程一直持续，直到训练集中没有样本实例，或者初始规则比第三肾阳虚辨识规则集S₃中其他规则误差更小；这样就构建了一个互斥、完备且有序的预测规则列表S₄。

基于RF的规则提取方法构建的可解释性预测模型的关键是确保简化的RF规则集S₄的准确性和可解释性。本申请重点是定义了准确性和可解释性的度量。

(1)记准确性为

N_ACC为规则集的准确性，N表示样本量，{X_i，y_i}代表第i个样本的特征和二分类标签，f(X_i)给出了第i个样本按规则集S₄分类的结果，也可记

另外还考虑了灵敏度(Sensitivity)、特异度(Specificity)、精度(Precision)、F-measure值和AUC(采用ROC曲线下的面积)值。其中真阳性(TP)和真阴性(TN)是对样本正确分类为阳性、阴性的样本数量。假阳性(FP)、假阴性(FN)是对样本误分类为阳性、阴性的样本数量。

(2)定义可解释性为

N_FEA、N_COV和N_CNT分别定义为：

其中N_FEA、N_COV和N_CNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率。α、β和γ分别表示各指标的权重，其可根据研究者的背景确定，此处设定为1即权重相等。这三项指标分别反映了规则集的简洁性、稳定性以及预测性，其中

表示规则集中第i个规则的特征数，input_fea表示规则集中含有的特征数(去掉重复的特征)，

表示满足第i条规则的样本数。count_data表示训练数据集的样本量，rule_selected表示规则集中规则的数量，rule_count表示提取(简化)规则的数量。N_FEA∈[0，1]，其中N_FEA＝0表示每条规则只包含一个特征，N_FEA＝1表示每条规则拥有所有特征。当N_FEA较小即平均特征数少时，表示规则具有简洁性，医生和患者更容易理解。当N_COV较小即规则具有较好的覆盖范围时，表示规则的稳定性较强。当N_CNT较小即预测规则数量较少时，表示规则预测性较好。综上，N_INT较大即越接近于1时，模型的可解释性较好。

本发明是利用随机森林(Random Forest，RF)生成规则结合规则提取方法的分解技术，优化RF生成的规则集，实现预测准确性和可解释性之间的权衡。其中的规则提取方法借用了可解释性的RF框架，特别说明了此框架的关键环节：提取规则、度量规则、修剪规则条件、选择规则和简化规则，以及关键算法及其参数设定，定义了准确性和可解释性的度量。

下面以一个具体应用来说明本申请的肾阳虚证状态辨识系统的具体辨识过程。

1.数据来源与纳排标准

本研究在上海、辽宁、成都、北京、天津共收集3679位患者的信息，其中1003例诊断为骨质疏松住院的患者被纳入本次研究分析。分析过程中排除协变量有缺失的患者，最终保留986例。纳入标准为：40岁以上健康男性、女性；意识清楚，有阅读能力，并可与调查人员进行言辞表达和交流的患者；在了解调查目的之后，愿意接受问卷调查并且进行骨密度测试者。排除标准：患有糖尿病，化脓性脊髓炎，肾炎，甲状腺机能亢进等可能引起继发性骨质疏松症的患者；患有癌症，痛风，风湿性关节炎等可能影响证型判断的患者；精神障碍和认知障碍的患者。986例纳入分析的患者中，证型判定为肾阳虚证的患者共327例，判定为除肾阳虚证外其他证型的患者共659例。

2.患者的信息资料收集

本研究基于骨质疏松症临床症状调查问卷或量表、“肾阳虚证”自评量表、WOMAC骨性关节炎指数评分表、EuroQol健康指数量表、体力活动问卷和中医体质量表，由经过培训的中医学专业教师或临床医师作为调查员，对研究对象进行问卷调查，并填写调查量表。调查内容包括一般情况、病因病机、临床症状和法则治法等。

3.骨质疏松诊断标准

参照中国老年学与老年医学学会骨质疏松分会、中华医学会健康管理分会联合组织国内骨质疏松防治领域的专家组制定的，《中国老年骨质疏松诊疗指南(2018)》和《中国人骨质疏松影像学诊断标准(DXA、QCT)(2018)》制定如下诊断标准：全身疼痛，多以腰背部疼痛明显，逐渐加重，轻微外伤可致骨折，脊柱常有后突畸形。骨密度检测出阳性现象：双能X线骨密度(DAX)测量，骨密度采用T值表示，T值≤M-2.5标准差为骨质疏松症。

结果

1.模型构建

将纳入研究的986例患者信息按75％：25％划分为训练集和测试集，分别包含749与237例患者。训练集中包含证型诊断为肾阳虚证的患者244例，其他证型505例；测试集中肾阳虚证证型患者83例，其他证型154例。

在训练集上构建随机森林(RF)模型，包含150棵决策树，其中每颗树的最大深度设定为8，即m＝8(变量数目的开方)。使用不同数量的决策树时，所构建的随机森林模型误差见图3。根据随机森林误差图确定最终用于建模的随机森林规模为50棵决策树，此时整体错误率、肾阳虚证样本以及其他类样本的错误率都处于稳定水平。

使用交叉验证策，从整体42个变量中筛选构建RF模型并辨识骨质疏松肾阳虚证证的重要性变量。根据图4的误差变化曲线，数据中的20个变量对于构建RF模型具有较大影响，而随着其他变量的增加，模型对骨质疏松肾阳虚证证的效果提升度处于很低水平。初步说明，整体42个变量中的20个为重要性变量，对于辨识骨质疏松肾阳虚证证具有较大的作用。变量的重要性排序详见图5，且图5中左侧体现各变量对于辨识正确率的重要性排序，右侧表示各变量对于构建RF模型的重要性排序。

图5给出整体肾阳虚证型辨识规则集在修剪后的误差分布情况，根据图中信息，在小于0.2的误差范围内，更多修剪后的肾阳虚证型辨识规则数量明显多于修剪前的规则数量，这意味着相比于初始规则集，经过修剪的规则集总体具有更低的肾阳虚证辨识误差。规则集中2028条规则在修剪前的平均误差为0.1674，修剪后为0.1313，整体规则集的误差显著下降。

2.规则提取

基于RF模型初步得到的重要性变量可指导医护人员对响应症状予以更多关注，但无法进一步解释每个变量的取值及各变量的组合情况对于骨质疏松肾阳虚证辨识的作用。

从随机森林中的50棵决策树中提取规则进行模型解释。提取到长度小于等于6的规则共2028条，其中主要为长度为6的规则，规则集中最小长度为2。采用Leave-One-Out修剪法对每条肾阳虚证证型辨识规则进行修剪，展示修剪前后的肾阳虚证证规则集中频率最高5条规则于表1。修剪结果在一定程度上符合临床辨证论治规律，如：“眩晕”症状多从风论，在本研究中也可能与目标人群年老体虚有关，但与骨质疏松肾阳虚证证型无明确关联，故将其剪除符合临床规律，“纳差”同理；“盗汗”与“手足心热”两种症状在临床辨证中均属于比较重要的阴虚证特征，当一整条规则中同时包含多项阴虚证特征不存在时，可以以较明确的特征不存在表示无阴虚证表现。

表1：规则集修剪前后的肾阳虚证辨识规则

/>

3.规则简化

修剪后的规则集仍保留2028条肾阳虚证型辨识规则，下一步从当前修剪后的规则集中归纳出代表性规则，来体现随机森林规则提取方法在骨质疏松肾阳虚数据集上的最终辨识规则。在修剪后的规则集中总结出最终的规则集如表3所示。该简化规则集中包含5条骨质疏松患者肾阳虚证型辨识规则，其中规则

频多=‘无’/>

肾阳虚}的准确率达到90％以上，另外两条规则的准确率也达到80％以上。这几条规则中包括的症状，肾之阳气不足，肾气不固致夜尿频多、气不足无力推动可见沉脉、久病伤肾耗气是肾阳虚证可能的一种病因、畏寒属于较明确的阳虚证表现。在知病辨证的情况下以上规则中的症状有无对证型的区别比较准确。

使用初始规则集与简化规则集对测试集中237例患者的肾阳虚证型状态进行辨识，初始规则集与简化规则集对测试集患者肾阳虚证型的整体辨识精度分别为87.76％和86.50％，各类预测结果详见表2(a)与表2(b)。根据两个辨识结果：相比于初始规则集，修剪并简化的规则集具有几乎等同的肾阳虚证型辨识率，能很好的概括由50棵决策树所构建的随机森林模型中提取的2028条规则信息。

表2：初始规则集与简化规则集的肾阳虚证型辨识结果

表3：骨质疏松肾阳虚分类的简化规则集

以上描述了本发明优选实施方式，然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。

Claims

1.基于随机森林的规则提取技术的肾阳虚证状态辨识系统，其特征在于，所述的肾阳虚证状态辨识系统包括肾阳虚数据预处理模块、基于RF生成肾阳虚辨识规则模块、肾阳虚可解释性辨识规则提取模块和肾阳虚辨识准确性与可解释性度量模块，所述的肾阳虚数据预处理模块用于对原始数据进行预处理，形成训练集与测试集的建模数据；所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法生成多棵决策树，并基于RF的多棵树生成规则集；所述的肾阳虚可解释性辨识规则提取模块包括对肾阳虚辨识规则的提取、度量、修剪、选择以及构建简化的辨识规则集；所述的肾阳虚辨识准确性与可解释性度量模块包括准确性度量模块和可解释性度量模块，所述的准确性度量模块用于通过所述的测试集验证预测规则列表的准确性；所述的可解释性度量模块用于通过所述的测试集验证预测规则列表的可解释性。

2.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的对肾阳虚辨识规则的提取用于提取RF算法产生的肾阳虚辨识规则条件，删除重复条件，根据全部的训练集分配结局，形成第一肾阳虚辨识规则集；对肾阳虚辨识规则的度量用于引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的规则的统计特性；对肾阳虚辨识规则的修剪用于修剪规则条件，删除重复规则，保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集；对肾阳虚辨识规则的选择用于将选择规则转化为特征选择问题，通过对规则转化成二分类特征后，从中选择一组相关但不冗余的特征子集，采用引导式正则化随机森林的特征选择算法选择规则条件，为该规则条件重新分配结局，从而形成一个按照规则重要程度排序的新的第三肾阳虚辨识规则集；所述的构建简化的辨识规则集用于从选择规则中筛选并总结成一个可解释性的症状预测规则集，基于所述的第三肾阳虚辨识规则集构建一个互斥、完备且有序的预测规则列表。

3.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的基于RF生成肾阳虚辨识规则模块基于所述的训练集采用CART算法生成多棵决策树的具体方法为：

假设对于一个给定的训练集D，特征向量为X和类标签为y，D为具有N个类标签的样本；用基尼指数Gini(D)表示训练集D的纯度，Gini(D)越小，训练集D的纯度越高；假设特征

有V个可能的值{a¹，a²，...a^V}，用特征A划分训练集D，能够产生V个节点分支，其中第v(＝1，2，…，V)个节点分支的训练集记为D^v，它包含了D中所有样本，但在特征A是否取值a^v处被分割成/>

和/>

两个部分，用基尼指数Gini_index(D，A)表示训练集D关于特征A的不确定度；在所有可能的特征A以及它们所有可能的取值切分点a^v中，选择基尼指数最小的特征及其对应的切分点作为当前最优特征与最优切分点，依此从现有节点分裂成两个子节点，将训练集按最优特征和最优切分点分配到两个子节点中去，递归地将训练集循环划分成各个子集直至满足停止条件，由此生成一棵包含一组随机特征向量Θ_t的决策树。

4.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的基于RF生成肾阳虚辨识规则模块基于RF多棵树生成规则集S₀的具体方法为：

即特征个数的平方根，回归模型选取特征的三分之一，然后在s个变量中确定最佳的分裂特征和切分点；将CART构建的R棵决策树的加权输出进行整合，得到分类结果；

RF的CART通过跟踪搜索树中从根节点到每个叶节点的路径转化为分类IF-THEN规则；在每条路径中，节点的特征对应规则的条件，叶节点的类别对应规则的结局，将所有这些规则合并成一个辨识规则集。

5.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的提取规则模块形成第一肾阳虚辨识规则集的具体方法为：只提取规则的条件，然后以原始训练集中的全部数据为条件重新分配结局，即满足该条件最多的样本类别作为该规则的结局，删除重复的规则后形成一个新的规则集，即第一肾阳虚辨识规则集。

6.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的度量规则模块引用频率、误差和长度这三个度量指标来度量所述第一肾阳虚辨识规则集中的肾阳虚辨识规则的统计特性的具体方法为：

假设满足肾阳虚辨识规则条件C的样本数为L≤N，被错误分类成肾阳虚的样本数为E，一条规则的频率Fre定义为满足该肾阳虚辨识规则中规则条件C的样本比例，即L/N，用于度量规则的流行度或支持度；一条规则的误差Err定义为在分类问题中由肾阳虚辨识规则确定的错误结局事件的样本数除以满足肾阳虚辨识规则条件C的样本数，在回归问题中即为均方误差；而一条规则中规则条件的长度Len定义为肾阳虚辨识条件中影响特征值对的数量，用于度量规则的复杂度；对于两个在频率与误差指标值相似的规则中，长度指标值较小的规则更容易解释；频率、误差、长度或其组合能够反映规则的质量并能够用于对规则进行排序。

7.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的修剪规则条件模块形成第二肾阳虚辨识规则集的具体方法为：使用Leave-One-Out修剪法对肾阳虚辨识规则中的条件进行修剪，令Err₀表示原始肾阳虚辨识规则的误差，Err_-i表示删除第i个变量值对后肾阳虚辨识规则的误差，使用decay_i值来评估删除第i个变量值对的效果；如果decay_i值小于指定的误差阈值，则认为第i个变量值对肾阳虚辨识规则不重要，因此可以删除；decay_i定义为误差增加；以同样的方式修剪规则中的条件，保留不重复的修剪规则后形成一个新的第二肾阳虚辨识规则集。

8.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的选择规则模块形成第三肾阳虚辨识规则集的具体方法为：

9.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的构建简化规则集模块构建预测规则列表的具体方法为：

令S₄表示有序的预测规则列表，算法定义初始规则为

其中T^*为原始训练集D中最频繁的类别；为了避免过拟合，从第三肾阳虚辨识规则集S₃中删除低于预定频率的规则；算法按规则自上而下应用到每个样本，直到有样本满足辨识规则条件，并把规则结局分配给此样本，通过训练集D评估第三肾阳虚辨识规则集S₃中的最佳规则并添加到有序的预测规则列表S₄的最后；然后删掉每次迭代中满足最佳规则条件的样本实例，剩下的样本实例重新计算第三肾阳虚辨识规则集S₃中余下的规则；这个迭代过程一直持续，直到训练集中没有样本实例，或者初始规则比第三肾阳虚辨识规则集S₃中其他规则误差更小；这样就构建了一个互斥、完备且有序的预测规则列表S₄。

10.根据权利要求1所述的肾阳虚证状态辨识系统，其特征在于，所述的准确性度量模块通过所述的测试集验证预测规则列表的准确性的具体方法为：

记准确性为：

记可解释性为：

其中N_FEA、N_COV和N_CNT分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率；α、β和γ分别表示规则的平均复杂度、每条规则的覆盖范围以及规则选择率的权重；N_FEA∈[0，1]，其中N_FEA＝0表示每条规则只包含一个特征，N_FEA＝1表示每条规则拥有所有特征；